Ming-Omni-tts - 蚂蚁联合Inclusion AI开源的多模态音频生成模型

23.3K 00

Ming-Omni-tts是什么

Ming-Omni-tts 是蚂蚁集团与Inclusion AI联合开源的多模态音频生成模型，包含0.5B和16.8B-A3B两个版本。模型首次实现了语音、环境音和音乐的统一自回归生成，支持语速、音量、方言（如粤语、四川话）和情感控制，方言生成准确率达96%。核心技术采用12.5Hz连续Tokenizer和多Token预测策略，推理帧率可达3.1Hz，适用于播客配音、角色音色克隆等场景。模型已开源并提供GitHub和Hugging Face等平台访问。

Ming-Omni-tts - 蚂蚁联合Inclusion AI开源的多模态音频生成模型

Ming-Omni-tts的功能特色

统一多模态音频生成：业界首个自回归模型，可在单通道中联合生成语音、环境音和音乐，实现"身临其境"的听觉体验。
细粒度语音控制：支持通过简单指令精确控制语速、音调、音量、情感和方言，粤语方言控制准确率高达93%，情感控制准确率达46.7%，超越CosyVoice3。
智能声音设计：内置100+优质音色，支持通过自然语言描述进行零样本声音设计，在Instruct-TTS-Eval-zh基准测试中与Qwen3-TTS表现相当。
効率的な推論：采用"Patch-by-Patch"压缩策略，将LLM推理帧率降至3.1Hz，显著降低延迟，同时保持音频自然度和细节。
专业文本归一化：准确解析和朗读复杂数学表达式、化学方程式等专业格式，内部测试集CER仅1.97%，与Gemini-2.5 Pro相当。

Ming-Omni-tts的核心优势

业界首创统一架构：首个在单通道中联合生成语音、音乐和音效的自回归模型，实现真正的"身临其境"听觉体验。
极致控制精度：粤语方言控制准确率高达93%，情感控制准确率达46.7%，超越CosyVoice3等竞品。
超低延迟推理：通过"Patch-by-Patch"压缩策略将LLM推理帧率降至3.1Hz，在保证音质的同时显著提升推理效率。
顶尖合成质量：16.8B版本在Seed-tts-eval中文测试集上WER仅0.83%，超越SeedTTS和GLM-TTS，Podcast任务CER仅1.84%。
专业内容解析：复杂数学表达式、化学方程式朗读准确率与Gemini-2.5 Pro相当，内部测试集CER仅1.97%。
ゼロサンプルのサウンドクローニング：仅需3-10秒参考音频即可克隆任意音色，Instruct-TTS-Eval-zh基准与Qwen3-TTS表现相当。
すぐに使える：提供预构建Docker镜像、Gradio在线演示和完整使用教程，降低部署门槛。

Ming-Omni-tts官网是什么

GitHub仓库：https://github.com/inclusionAI/Ming-omni-tts
ハグ顔モデルライブラリー::
- https://modelscope.cn/models/inclusionAI/Ming-omni-tts-16.8B-A3B
- https://huggingface.co/inclusionAI/Ming-omni-tts-0.5B