OmniVoice - 小米开源的大规模多语言零样本TTS模型
OmniVoice是什么
OmniVoice是小米开源的大规模多语言零样本TTS模型,支持600+种语言(含大量低资源语言),采用单阶段扩散语言模型架构直接映射文本至声学特征,基于58.1万小时数据训练。实现零样本语音克隆(仅需3秒参考音频)与Voice Design功能(通过自然语言描述生成指定音色),生成速度达40倍实时(1分钟语音1.5秒完成)。模型支持情感标签插入、发音纠正及多说话人对话,在102种语言基准测试中CER仅4%。

OmniVoice的功能特色
- 超大规模语言覆盖:支持600+种语言合成,包括数百种训练数据不足10小时的低资源语言,是目前零样本TTS中语言覆盖最广的模型
- клонирование речи с нулевой выборкой:仅需3-10秒参考音频即可克隆目标音色,内置Whisper自动转写参考文本,无需手动提供转录
- Voice Design语音设计:无需参考音频,通过自然语言描述(如"female, low pitch, british accent")直接生成指定性别、年龄、音调、方言(含四川话、陕西话等)的音色
- 提示降噪解耦:支持从含背景噪音、混响的参考音频中提取干净说话人音色,降噪后生成清晰语音
- 细粒度文本控制::
- адъювант
[laughter], и[sigh], и[sniff]等非语言符号插入语音 - 中文支持拼音标注(如
ZHE2)修正多音字发音 - 英文支持CMU发音词典纠正不规则发音
- 多说话人对话合成: через
[Speaker_N]:标签实现多角色对话语音生成,支持为不同角色分配独立音色 - 极速推理性能:采用扩散语言模型架构,RTF低至0.025,1分钟语音仅需1.5秒生成,速度达实时播放的40倍
OmniVoice的核心优势
- 全球最广语言覆盖:支持600+种语言零样本合成,特别突破数百种低资源语言(训练数据<10小时)的合成难题,覆盖度远超现有商用系统。
- 单阶段扩散架构创新:摒弃传统"文本→语义→声学"两阶段流程,采用Diffusion Language Model直接映射文本至多码本声学token,避免误差累积,提升生成质量。
- 双模式零样本能力:同时支持Voice Clone(3秒参考音频克隆音色)与Voice Design(自然语言描述生成指定特征音色),无需微调即可实现个性化语音合成。
- 极致推理速度:RTF低至0.025,合成速度达实时播放40倍,1分钟语音仅需1.5秒生成,显著优于传统扩散模型。
- 商用级生成质量:FLEURS-102基准测试平均CER仅4.00%,词错误率与语音相似度指标均优于ElevenLabs Multilingual v2等商业系统。
- 完全开源可商用:模型权重与代码采用Apache 2.0协议开源,支持本地部署与商业应用(底层tokenizer超10万DAU需单独申请许可)。
OmniVoice官网是什么
- Репозиторий GitHub:https://github.com/k2-fsa/OmniVoice
- Библиотека моделей HuggingFace:https://huggingface.co/k2-fsa/OmniVoice
- Технический документ arXiv:https://arxiv.org/pdf/2604.00688
- Демонстрация опыта работы в режиме онлайн:https://huggingface.co/spaces/k2-fsa/OmniVoice
使用OmniVoice的操作步骤
- 克隆GitHub仓库并安装依赖环境:从 https://github.com/k2-fsa/OmniVoice 拉取代码,配置Python环境并安装所需依赖包。
- 下载预训练模型权重:从Hugging Face仓库 k2-fsa/OmniVoice 获取模型检查点及tokenizer文件。
- 准备输入素材:Voice Clone模式需准备3-10秒干净的参考音频及对应转写文本(或启用自动Whisper转写);Voice Design模式直接编写自然语言描述指令。
- 配置推理参数:设置扩散步数(16或32步,步数越多音质越好)、语速(speed)、固定时长(duration)等生成选项。
- 执行语音合成:运行inference脚本,输入目标文本与参考素材,模型将输出合成音频文件。
- 部署方式选择:支持Python API本地调用,或通过ComfyUI插件(ComfyUI-OmniVoice-TTS节点)实现可视化工作流,并可开启SageAttention加速与VRAM优化。
OmniVoice的适用人群
- 多语言内容创作者:需要为播客、有声书、短视频、教育课程等内容制作600+种语言语音的创作者,特别是服务低资源语言地区用户的媒体从业者。
- AI应用开发者:正在开发智能助手、聊天机器人、游戏NPC、虚拟主播等应用,需要集成高质量零样本TTS功能的开发者与产品经理。
- 低资源语言社区建设者:为小语种、方言(如四川话、陕西话)或濒危语言提供数字化语音解决方案的语言保护组织与研究人员。
- 语音技术研究者:从事语音合成、跨语言迁移、扩散模型等方向研究的学术界与工业界研究人员,可用开源权重进行算法改进与学术论文复现。
- 企业级商业用户:寻求低成本、高并发语音合成方案的企业,适用于智能客服、语音导航、广告配音、教育培训等需要支持多语种的商业场景。
- 隐私敏感型本地部署用户:对数据安全与隐私保护要求高,需要将TTS能力完全部署在本地服务器或私有云环境,避免调用第三方API的政企客户与个人用户。
OmniVoice的常见问题FAQ
Q:OmniVoice是什么类型的模型?
A:OmniVoice是小米开源的大规模多语言零样本TTS(文本转语音)模型,采用单阶段扩散语言模型架构,支持600+种语言的语音合成,具备零样本语音克隆与Voice Design能力。
A:OmniVoice是小米开源的大规模多语言零样本TTS(文本转语音)模型,采用单阶段扩散语言模型架构,支持600+种语言的语音合成,具备零样本语音克隆与Voice Design能力。
Q:OmniVoice与GPT-SoVITS、CosyVoice等国产TTS相比有什么优势?
A:OmniVoice核心优势在于600+语言覆盖(含大量低资源语言)、单阶段扩散架构(RTF低至0.025,40倍实时速度)、Voice Design功能(自然语言描述生成音色),且完全开源可商用。
A:OmniVoice核心优势在于600+语言覆盖(含大量低资源语言)、单阶段扩散架构(RTF低至0.025,40倍实时速度)、Voice Design功能(自然语言描述生成音色),且完全开源可商用。
Q:支持哪些中文方言?
A:Voice Design功能支持通过自然语言描述生成四川话、陕西话等中文方言音色,同时支持标准普通话及带口音的英文合成。
A:Voice Design功能支持通过自然语言描述生成四川话、陕西话等中文方言音色,同时支持标准普通话及带口音的英文合成。
Q:进行Voice Clone需要多长的参考音频?
A:仅需3-10秒干净的人声音频即可实现高质量音色克隆,系统内置Whisper自动转写功能,无需手动提供参考文本。
A:仅需3-10秒干净的人声音频即可实现高质量音色克隆,系统内置Whisper自动转写功能,无需手动提供参考文本。
Q:参考音频有背景噪音或混响怎么办?
A:OmniVoice具备提示降噪能力,可自动从含噪音频中解耦说话人音色特征,生成干净的合成语音,无需预先进行音频修复
A:OmniVoice具备提示降噪能力,可自动从含噪音频中解耦说话人音色特征,生成干净的合成语音,无需预先进行音频修复
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...




