BitCPM-CANN - 面壁智能联合清华开源的端到端大模型系列

堆友AI

BitCPM-CANN是什么

BitCPM-CANN 是面壁智能联合清华大学、OpenBMB 开源社区发布并开源的中国首个完全基于国产算力平台(华为昇腾)实现端到端训练的三值(1.58-bit)大模型系列。系列包含 0.5B、1B、3B、8B 四个参数尺寸,从量化算子、训练算法到全链路框架均在华为昇腾上原生完成。相比传统 BF16 精度,BitCPM-CANN 在推理阶段释放约 6 倍显存红利,模型能力保留率高达 90%–97.2%,使 8B 参数模型可轻松运行在主流旗舰手机之上,为端侧 AI 部署提供了低比特、高效率的国产化解决方案。

BitCPM-CANN - 面壁智能联合清华开源的端到端大模型系列

BitCPM-CANN的功能特色

  • 1.58-bit 三值量化:模型权重压缩至 {-1, 0, 1} 三值,相比 BF16 实现约 90% 的比特宽度削减。
  • 全系列多尺寸覆盖:提供 0.5B、1B、3B、8B 四个参数规格,适配从手机到 PC 的完整端侧场景。
  • 昇腾原生端到端训练:从量化算子、训练算法到并行策略和训练框架,全链路在华为昇腾 NPU 上原生完成。
  • 完整对照评测体系:与同尺寸 MiniCPM4 全精度家族进行 11 项任务、四大类评测(常识、阅读理解、学科知识、数学推理)逐项对比。
  • 低比特训练底座:基于 MindSpeed × Megatron-LM 主干搭建,支持 32K 长序列、完整并行策略与融合算子。
  • 全精度与量化双版本:提供未量化 QAT 检查点(支持继续预训练与微调)和伪量化推理版本。
  • GGUF 格式支持: Provided llama.cpp 可用的 TQ2_0 量化格式,便于端侧直接部署。

BitCPM-CANN的核心优势

  • 国产算力闭环:实现国产 NPU(昇腾)、国产模型、国产训练框架的完整闭环,摆脱对 NVIDIA GPU 的依赖。
  • 6 倍显存红利:推理阶段显存占用降至 BF16 的约 1/6,8B 模型仅需不到 3GB 显存即可运行。
  • 能力保留率优异:1B–8B 档位在 11 项基准评测中能力保留率达 95.7%–97.2%,3B 档位最高达 97.2%。
  • 训练 overhead 极低:QAT 引入的训练吞吐量损失仅约 5%(148 TFLOP/s vs 155 TFLOP/s)。
  • 端侧部署就绪:配合高通 8850/8397 等支持 2-bit 原生推理的旗舰芯片,可直接喂入低比特权重。
  • 生态继承性强:延续 MiniCPM 家族生态(GitHub 3 万星、Hugging Face 3000 万+ 下载),开发者迁移成本低。
  • 全系列开源:0.5B–8B 全部模型权重及训练代码开源,支持 HuggingFace 和 ModelScope 下载复现。

BitCPM-CANN官网是什么

  • HuggingFace Model Library:https://huggingface.co/collections/openbmb/bitcpm-cann

BitCPM-CANN的操作步骤

  • environmental preparation:基于 MindSpeed × Megatron-LM 搭建低比特训练底座,配置华为昇腾 CANN 和 HCCL 通信环境。
  • Model Download:通过 HuggingFace(openbmb/BitCPM-CANN 系列)或 ModelScope 获取预训练权重。
  • 推理部署:直接使用伪量化版本(标准浮点格式保存,无需特殊量化库),按常规方式加载并执行推理。
  • 端侧部署(GGUF):下载 TQ2_0 格式的 GGUF 文件,配合 llama.cpp 在手机或边缘设备上运行。
  • 继续训练/微调:使用未量化 QAT 检查点(unquantized 版本),在三值伪量化器约束下进行持续预训练或领域微调。
  • 性能验证:参照官方提供的 11 项基准评测(ARC、CMMLU、GSM8K 等)进行能力保留率测试。

BitCPM-CANN的适用人群

  • 端侧 AI 开发者:需要在手机、平板、车载设备等终端部署大模型的工程师。
  • 国产算力生态从业者:基于华为昇腾 NPU 进行模型训练与推理的算法工程师。
  • 大模型量化研究人员:从事低比特量化、QAT(量化感知训练)方向的技术研究者。
  • 手机厂商与 OEM:寻求在旗舰设备上集成端侧大模型的硬件与软件团队。
  • 边缘计算与物联网团队:需要在内存受限设备上运行大模型的边缘 AI 方案商。
  • Open Source Community Contributors:希望参与低比特大模型训练框架优化与模型改进的开发者。

BitCPM-CANN的常见问题

Q:BitCPM-CANN 与 MiniCPM4 是什么关系?
A:BitCPM-CANN 是 MiniCPM 家族的三值(1.58-bit)版本,基于相同的生态体系,与 MiniCPM4 全精度模型逐项对照评测,能力保留率 90%–97.2%。

Q:为什么叫 1.58-bit?

A:模型权重被量化为 {-1, 0, 1} 三个离散值(三值),结合分组缩放因子,等效信息密度约为 1.58 bit。

Q:在昇腾上训练与在 NVIDIA GPU 上训练有何区别?

A:BitCPM-CANN 是全球首个在华为昇腾上端到端完成三值大模型训练的公开成果,此前所有公开的三值训练均在 NVIDIA GPU 上完成。本次实现了国产芯片阵营的首个三值训练能力。

Q:可以直接在手机上运行吗?

A:可以。8B 参数的 BitCPM-CANN 仅需不到 3GB 显存,可流畅运行在当前主流旗舰手机上;0.5B/1B 版本更适合中低端设备。

Q:开源协议是什么?

A:模型权重及代码基于 Apache-2.0 许可证开源。

Q:是否支持继续预训练和微调?

A:支持。官方提供未量化 QAT 检查点(unquantized 版本),可在三值约束下继续进行预训练或领域微调。
© Copyright notes

Related posts

No comments

You must be logged in to leave a comment!
Login immediately
none
No comments...