LongCat-AudioDiT - 美团开源的新一代高保真文本转语音模型
LongCat-AudioDiT是什么
LongCat-AudioDiT 是美团 LongCat 团队开源的新一代高保真文本转语音模型,采用 Wav-VAE 结合 Diffusion Transformer(DiT)的端到端架构,直接在波形潜空间完成扩散生成,彻底摒弃梅尔频谱等中间表示,显著减少信息损耗。模型在零样本语音克隆任务上刷新 SOTA,3.5B 版本在 Seed-ZH 测试集说话人相似度达 0.818,超越 Seed-TTS 等前代最佳方案。通过自适应投影引导(APG)技术解决了传统流匹配 TTS 的音色漂移难题,实现了仅需 3-10 秒参考音频即可精准复刻音色与韵律的自然语音合成。

LongCat-AudioDiT的功能特色
- 端到端波形生成架构:摒弃传统梅尔频谱表示,采用 Wav-VAE(波形变分自编码器)直接压缩波形至潜空间,配合 DiT(Diffusion Transformer)完成建模与重建,消除多阶段转换导致的信息损耗与误差累积。
- SOTA 零样本语音克隆:3.5B 版本在 Seed-ZH 标准集说话人相似度(SIM)达 0.818、Seed-Hard 困难集达 0.797,全面超越 Seed-TTS、CosyVoice3.5 等前代最佳方案,仅需 3-10 秒参考音频即可精准复刻说话人音色与韵律。
- 自适应投影引导(APG)技术:替代传统分类器自由引导(CFG),解决流匹配 TTS 训练与推理的不匹配问题,显著提升生成稳定性、音质自然度,有效抑制音色漂移与发音错误。
- 中英双语高保真合成:支持中文、英文 24kHz 采样率高质量音频生成,可处理复杂文本场景(如多音字、数字朗读),提供接近真人的韵律与语调表现。
- 多角色对话合成:具备多说话人切换能力,支持同一对话中不同角色音色即时转换,适用于有声书、播客等多角色内容创作场景。
- 双规格开源部署:提供 1B 轻量版(适合资源受限环境)与 3.5B 旗舰版(最佳音质)两种规格,均基于 MIT 协议完全开源,支持本地部署与商业应用,无需联网即可运行。
LongCat-AudioDiT的核心优势
- 端到端波形生成:仅由 Wav-VAE(波形变分自编码器)与 DiT(扩散 Transformer)组成,直接在波形隐空间完成压缩、建模与重建,避免多阶段转换导致的信息损耗与误差累积。
- SOTA 音色克隆:3.5B 版本在 Seed-ZH 测试集说话人相似度(SIM)达 0.818,超越前 SOTA Seed-TTS(0.809);Seed-Hard 困难集达 0.797,超越 CosyVoice3.5 等竞品。
- 推理优化技术:引入自适应投影引导(APG)替代传统 CFG,并修正训练-推理不匹配问题,显著提升生成稳定性与音质自然度,解决流匹配 TTS 长期存在的音色漂移痛点。
- 双版本开源:提供 1B 轻量版与 3.5B 旗舰版,均基于 MIT 协议完全开源,支持零样本语音克隆(仅需 3-10 秒参考音频)、多说话人对话合成及中英双语 24kHz 高保真合成。
LongCat-AudioDiT官网是什么
- GitHubリポジトリ:https://github.com/meituan-longcat/LongCat-AudioDiT
- HuggingFaceモデルライブラリ::
- https://huggingface.co/meituan-longcat/LongCat-AudioDiT-1B
- https://huggingface.co/meituan-longcat/LongCat-AudioDiT-3.5B
使用LongCat-AudioDiT的操作步骤
- 环境准备与安装:克隆 GitHub 仓库并安装依赖,需配置 Python 3.10+ 环境,安装 PyTorch 2.6.0 及 CUDA 支持,通过
pip install -e .完成 LongCat-Tools 等组件部署。 - 模型权重下载:从 Hugging Face 或 ModelScope 下载对应版本权重,包含 Wav-VAE 编码器/解码器及 DiT 扩散模型,1B 轻量版适合快速测试,3.5B 旗舰版用于生产级音质。
- 准备参考音频:采集 3-10 秒目标说话人清晰音频作为音色克隆参考,格式通常为 WAV 24kHz,确保无背景噪音,该音频将用于提取说话人嵌入向量。
- 编写合成提示词:构造结构化 synthesis prompt 描述目标音色特征(如"一位成熟男性,语速适中,情感平静"),与参考音频一起作为条件输入模型。
- 执行推理合成:运行推理脚本加载模型,输入待合成文本 + 参考音频 + 提示词,模型通过 DiT 在波形潜空间进行扩散生成,输出 24kHz 高保真语音波形。
- 発電パラメーターの調整(可选):根据需求调整扩散步数、APG 引导强度等参数,平衡生成速度与音质;支持批量推理用于长文本分段合成。
LongCat-AudioDiT的适用人群
- AI 语音技术开发者与算法研究员:模型完全开源(MIT 协议)且架构简洁(仅含 Wav-VAE + DiT),适合研究端到端波形生成、扩散 変圧器 优化及零样本语音克隆技术的开发者进行二次开发或学术复现。
- 内容创作者与有声书制作团队:需要高质量 AI 配音、多角色对话合成的播客作者、有声书制作方,用零样本克隆能力仅用 3-10 秒参考音频即可复刻特定音色,快速生成 24kHz 高保真音频内容。
- 企业级语音助手产品经理:面向需部署个性化语音交互系统的 B 端/C 端产品团队,支持本地私有化部署,满足金融、医疗等对数据隐私敏感场景的语音合成需求。
- 本地化部署需求的技术团队:提供 1B 轻量版与 3.5B 旗舰版双规格,适合从边缘计算设备到 GPU 服务器的全场景部署,无需依赖云端 API 即可实现离线推理。
- 中英双语应用开发者:面向全球化产品团队,模型同时优化中文与英文合成质量,支持跨语言音色迁移,适用于出海应用、双语教育软件等场景。
LongCat-AudioDiT的常见问题FAQ
Q:与传统 TTS 模型相比有什么核心区别?
A:传统 TTS 通常采用"文本→梅尔频谱→声码器"的多阶段 pipeline,而 LongCat-AudioDiT 摒弃梅尔频谱等中间表示,通过 Wav-VAE 直接将波形压缩至潜空间,再由 DiT 完成建模与重建,消除多阶段转换导致的信息损耗与误差累积。
Q:模型提供哪些版本?需要什么硬件配置?
A:提供 1B 轻量版与 3.5B 旗舰版双规格。1B 版本适合资源受限环境快速测试,3.5B 版本提供最佳音质表现,建议配备 NVIDIA GPU 进行推理加速,支持本地私有化部署。
Q: どの言語に対応していますか?
A:目前主要支持中文与英文双语合成,24kHz 采样率高保真输出,可实现接近真人的韵律与语调表现,并支持跨语言音色迁移。
Q:如何实现零样本语音克隆?需要多长的参考音频?
A:仅需提供 3-10 秒目标说话人清晰音频(建议 WAV 24kHz 格式,无背景噪音),结合合成提示词描述音色特征,模型即可精准复刻说话人音色与韵律,无需针对特定说话人微调训练。
Q:在客观指标上表现如何?
A:3.5B 版本在 Seed-ZH 测试集说话人相似度(SIM)达 0.818,超越前 SOTA Seed-TTS(0.809);在 Seed-Hard 困难集达 0.797,超越 CosyVoice3.5 等竞品。
© 著作権表示
記事の著作権 AIシェアリングサークル 無断転載はご遠慮ください。
関連記事
コメントはありません




