Ming-Omni-tts - 蚂蚁联合Inclusion AI开源的多模态音频生成模型
Ming-Omni-tts是什么
Ming-Omni-tts 是蚂蚁集团与Inclusion AI联合开源的多模态音频生成模型,包含0.5B和16.8B-A3B两个版本。模型首次实现了语音、环境音和音乐的统一自回归生成,支持语速、音量、方言(如粤语、四川话)和情感控制,方言生成准确率达96%。核心技术采用12.5Hz连续Tokenizer和多Token预测策略,推理帧率可达3.1Hz,适用于播客配音、角色音色克隆等场景。模型已开源并提供GitHub和Hugging Face等平台访问。

Ming-Omni-tts的功能特色
- 统一多模态音频生成:业界首个自回归模型,可在单通道中联合生成语音、环境音和音乐,实现"身临其境"的听觉体验。
- 细粒度语音控制:支持通过简单指令精确控制语速、音调、音量、情感和方言,粤语方言控制准确率高达93%,情感控制准确率达46.7%,超越CosyVoice3。
- 智能声音设计:内置100+优质音色,支持通过自然语言描述进行零样本声音设计,在Instruct-TTS-Eval-zh基准测试中与Qwen3-TTS表现相当。
- 効率的な推論:采用"Patch-by-Patch"压缩策略,将LLM推理帧率降至3.1Hz,显著降低延迟,同时保持音频自然度和细节。
- 专业文本归一化:准确解析和朗读复杂数学表达式、化学方程式等专业格式,内部测试集CER仅1.97%,与Gemini-2.5 Pro相当。
Ming-Omni-tts的核心优势
- 业界首创统一架构:首个在单通道中联合生成语音、音乐和音效的自回归模型,实现真正的"身临其境"听觉体验。
- 极致控制精度:粤语方言控制准确率高达93%,情感控制准确率达46.7%,超越CosyVoice3等竞品。
- 超低延迟推理:通过"Patch-by-Patch"压缩策略将LLM推理帧率降至3.1Hz,在保证音质的同时显著提升推理效率。
- 顶尖合成质量:16.8B版本在Seed-tts-eval中文测试集上WER仅0.83%,超越SeedTTS和GLM-TTS,Podcast任务CER仅1.84%。
- 专业内容解析:复杂数学表达式、化学方程式朗读准确率与Gemini-2.5 Pro相当,内部测试集CER仅1.97%。
- ゼロサンプルのサウンドクローニング:仅需3-10秒参考音频即可克隆任意音色,Instruct-TTS-Eval-zh基准与Qwen3-TTS表现相当。
- すぐに使える:提供预构建Docker镜像、Gradio在线演示和完整使用教程,降低部署门槛。
Ming-Omni-tts官网是什么
- GitHub仓库:https://github.com/inclusionAI/Ming-omni-tts
- ハグ顔モデルライブラリー::
- https://modelscope.cn/models/inclusionAI/Ming-omni-tts-16.8B-A3B
- https://huggingface.co/inclusionAI/Ming-omni-tts-0.5B
Ming-Omni-tts的适用人群
- コンテンツクリエーター:播客主、有声书制作人、视频博主,需要高质量语音合成和音效设计。
- ゲーム開発者:需要为游戏场景生成沉浸式语音、环境音和背景音乐。
- 教育者:需要准确朗读数学公式、化学方程式等专业内容的教师和课件制作人员。
- エンタープライズ・デベロッパー:需要构建智能客服、语音助手、品牌定制化语音解决方案的技术团队。
- 広告コピーライター:需要富有感染力的配音和方言支持进行本地化营销内容制作。
- AI研究者:关注统一音频生成、多模态建模和语音控制技术的学术研究者。
© 著作権表示
記事の著作権 AIシェアリングサークル 無断転載はご遠慮ください。
関連記事
コメントはありません




