VoxCPM2 - 面壁智能开源的 20 亿参数语音合成基座模型

1.5K 00

VoxCPM2是什么

VoxCPM2 是 OpenBMB（面壁智能）开源的 20 亿参数语音合成基座模型，采用创新的无分词器扩散自回归架构，直接在连续语音潜空间生成音频，实现更自然的合成效果。模型基于 200 万小时多语言音频训练，支持 30 种语言及9 种中文方言（含粤语、四川话等），支持 48kHz 录音室级音质输出。核心亮点包括通过自然语言描述创造全新音色的 Voice Design 功能，以及仅需 3-10 秒音频即可实现情绪、语速可控的语音克隆。

VoxCPM2的功能特色

多语言多方言合成：支持 30 种语言及 9 种中文方言（含粤语、四川话、吴语、东北话等），无需手动指定语言标签即可自动识别并合成。
Voice Design 音色设计 ：通过自然语言描述（如"年轻女声，温暖温柔，略带微笑"）凭空创造虚拟声线，无需任何参考音频。
可控语音克隆 ：仅需 3–10 秒参考音频即可克隆音色，同时支持通过文本指令精细调整克隆语音的情绪、语速和说话风格。
终极高保真克隆 ：提供参考音频及精确转录文本，模型执行音频延续式克隆，精准还原原声的细微韵律、呼吸感与情感细节。
录音室级音质输出 ：集成 AudioVAE V2 编解码器，直接输出 48kHz 高保真音频，无需外部超分辨率处理。
实时流式推理 ：支持低延迟流式生成，RTX 4090 上实时率可达 0.3，结合加速技术可进一步提升至 0.13。
高效微调定制：支持 SFT 与 LoRA 微调，仅需 5–10 分钟高质量音频数据即可定制专属个性化音色。

VoxCPM2的核心优势

无分词器扩散自回归架构 ：摒弃传统离散 token 方案，直接在连续语音潜空间建模，生成音频更自然连贯，韵律表现力显著优于传统 TTS。
全场景多语言覆盖：支持 30 种主流语言及 9 种中文方言（含粤语、四川话、吴语等），无需手动标注语言标签即可自动识别并合成，满足全球化应用需求。
零样本音色创造能力：独创 Voice Design 技术，仅凭自然语言描述（如"温暖年轻女声"）即可凭空设计虚拟声线，无需任何参考音频即可生成定制化音色。
细粒度可控克隆：仅需 3–10 秒参考音频即可实现高相似度克隆，并支持通过文本指令精确调控情绪、语速与说话风格，实现音色相似度与表现力的平衡。
录音室级高保真输出 ：集成 AudioVAE V2 编解码器，直接合成 48kHz 采样率音频，无需外部超分辨率工具即可达到专业广播级音质标准。
高效实时推理 ：支持流式合成，RTX 4090 上实时率（RTF）达 0.3，结合加速技术可降至 0.13，满足对话式 AI 实时交互的延迟要求。
开源可商用与低门槛部署 ：采用 Apache-2.0 协议开源，仅需约 8GB 显存即可在消费级显卡运行，支持低成本微调定制专属音色。

VoxCPM2官网是什么

GitHub仓库：https://github.com/OpenBMB/VoxCPM
HuggingFace模型库：https://huggingface.co/openbmb/VoxCPM2

使用VoxCPM2的操作步骤

环境安装与模型加载：执行 pip install voxcpm 安装依赖，通过 from voxcpm import VoxCPM; model = VoxCPM.from_pretrained("openbmb/VoxCPM2") 加载模型（约需 8GB 显存）。
基础语音合成 ：调用 model.generate(text="合成文本内容", cfg_value=2.0) 生成音频，返回 48kHz WAV 格式数据，调整 cfg_value（1.5–3.0）可控制音质与多样性平衡。
Voice Design 音色设计：使用 speaker_profile 参数传入自然语言描述（如"年轻女声，温暖温柔，略带微笑"），无需参考音频即可凭空创造虚拟说话人并合成语音。
可控语音克隆：通过 audio_prompt 参数传入 3–10 秒参考音频路径，结合 description 参数指定情绪、语速等风格指令（如"兴奋，快语速"），实现音色克隆与风格调控。
终极高保真克隆：提供参考音频及精确转录文本，使用 prompt_text="参考音频的准确文字" 参数执行音频延续式克隆，精准还原原声韵律细节与呼吸感。
流式实时推理：启用 streaming_mode=True 参数实现低延迟流式输出，配合分块文本输入可满足实时对话场景（RTX 4090 上 RTF≈0.3）。
个性化微调定制：准备 5–10 分钟目标音色高质量音频及转录文本，使用官方脚本执行 SFT 或 LoRA 微调，训练专属定制化语音模型。