BitCPM-CANN - 面壁智能联合清华开源的端到端大模型系列

Latest AI Resources2mos agorelease AI Sharing Circle

33.1K 00

BitCPM-CANN是什么

BitCPM-CANN 是面壁智能联合清华大学、OpenBMB 开源社区发布并开源的中国首个完全基于国产算力平台（华为昇腾）实现端到端训练的三值（1.58-bit）大模型系列。系列包含 0.5B、1B、3B、8B 四个参数尺寸，从量化算子、训练算法到全链路框架均在华为昇腾上原生完成。相比传统 BF16 精度，BitCPM-CANN 在推理阶段释放约 6 倍显存红利，模型能力保留率高达 90%–97.2%，使 8B 参数模型可轻松运行在主流旗舰手机之上，为端侧 AI 部署提供了低比特、高效率的国产化解决方案。

BitCPM-CANN的功能特色

1.58-bit 三值量化：模型权重压缩至 {-1, 0, 1} 三值，相比 BF16 实现约 90% 的比特宽度削减。
全系列多尺寸覆盖：提供 0.5B、1B、3B、8B 四个参数规格，适配从手机到 PC 的完整端侧场景。
昇腾原生端到端训练：从量化算子、训练算法到并行策略和训练框架，全链路在华为昇腾 NPU 上原生完成。
完整对照评测体系：与同尺寸 MiniCPM4 全精度家族进行 11 项任务、四大类评测（常识、阅读理解、学科知识、数学推理）逐项对比。
低比特训练底座：基于 MindSpeed × Megatron-LM 主干搭建，支持 32K 长序列、完整并行策略与融合算子。
全精度与量化双版本：提供未量化 QAT 检查点（支持继续预训练与微调）和伪量化推理版本。
GGUF 格式支持: Provided llama.cpp 可用的 TQ2_0 量化格式，便于端侧直接部署。

BitCPM-CANN的核心优势

国产算力闭环：实现国产 NPU（昇腾）、国产模型、国产训练框架的完整闭环，摆脱对 NVIDIA GPU 的依赖。
6 倍显存红利：推理阶段显存占用降至 BF16 的约 1/6，8B 模型仅需不到 3GB 显存即可运行。
能力保留率优异：1B–8B 档位在 11 项基准评测中能力保留率达 95.7%–97.2%，3B 档位最高达 97.2%。
训练 overhead 极低：QAT 引入的训练吞吐量损失仅约 5%（148 TFLOP/s vs 155 TFLOP/s）。
端侧部署就绪：配合高通 8850/8397 等支持 2-bit 原生推理的旗舰芯片，可直接喂入低比特权重。
生态继承性强：延续 MiniCPM 家族生态（GitHub 3 万星、Hugging Face 3000 万+ 下载），开发者迁移成本低。
全系列开源：0.5B–8B 全部模型权重及训练代码开源，支持 HuggingFace 和 ModelScope 下载复现。

BitCPM-CANN官网是什么

HuggingFace Model Library：https://huggingface.co/collections/openbmb/bitcpm-cann

BitCPM-CANN的操作步骤

environmental preparation：基于 MindSpeed × Megatron-LM 搭建低比特训练底座，配置华为昇腾 CANN 和 HCCL 通信环境。
Model Download：通过 HuggingFace（openbmb/BitCPM-CANN 系列）或 ModelScope 获取预训练权重。
推理部署：直接使用伪量化版本（标准浮点格式保存，无需特殊量化库），按常规方式加载并执行推理。
端侧部署（GGUF）：下载 TQ2_0 格式的 GGUF 文件，配合 llama.cpp 在手机或边缘设备上运行。
继续训练/微调：使用未量化 QAT 检查点（unquantized 版本），在三值伪量化器约束下进行持续预训练或领域微调。
性能验证：参照官方提供的 11 项基准评测（ARC、CMMLU、GSM8K 等）进行能力保留率测试。