OmniVoice - 小米开源的大规模多语言零样本TTS模型

Последние ресурсы по искусственному интеллектуОпубликовано 6 часов назад Круг обмена ИИ

1.3K 00

OmniVoice是什么

OmniVoice是小米开源的大规模多语言零样本TTS模型，支持600+种语言（含大量低资源语言），采用单阶段扩散语言模型架构直接映射文本至声学特征，基于58.1万小时数据训练。实现零样本语音克隆（仅需3秒参考音频）与Voice Design功能（通过自然语言描述生成指定音色），生成速度达40倍实时（1分钟语音1.5秒完成）。模型支持情感标签插入、发音纠正及多说话人对话，在102种语言基准测试中CER仅4%。

OmniVoice的功能特色

超大规模语言覆盖：支持600+种语言合成，包括数百种训练数据不足10小时的低资源语言，是目前零样本TTS中语言覆盖最广的模型
клонирование речи с нулевой выборкой：仅需3-10秒参考音频即可克隆目标音色，内置Whisper自动转写参考文本，无需手动提供转录
Voice Design语音设计：无需参考音频，通过自然语言描述（如"female, low pitch, british accent"）直接生成指定性别、年龄、音调、方言（含四川话、陕西话等）的音色
提示降噪解耦：支持从含背景噪音、混响的参考音频中提取干净说话人音色，降噪后生成清晰语音
细粒度文本控制::
- адъювант[laughter], и[sigh], и[sniff]等非语言符号插入语音
- 中文支持拼音标注（如ZHE2）修正多音字发音
- 英文支持CMU发音词典纠正不规则发音
多说话人对话合成: через[Speaker_N]:标签实现多角色对话语音生成，支持为不同角色分配独立音色
极速推理性能：采用扩散语言模型架构，RTF低至0.025，1分钟语音仅需1.5秒生成，速度达实时播放的40倍

OmniVoice的核心优势

全球最广语言覆盖：支持600+种语言零样本合成，特别突破数百种低资源语言（训练数据<10小时）的合成难题，覆盖度远超现有商用系统。
单阶段扩散架构创新：摒弃传统"文本→语义→声学"两阶段流程，采用Diffusion Language Model直接映射文本至多码本声学token，避免误差累积，提升生成质量。
双模式零样本能力：同时支持Voice Clone（3秒参考音频克隆音色）与Voice Design（自然语言描述生成指定特征音色），无需微调即可实现个性化语音合成。
极致推理速度：RTF低至0.025，合成速度达实时播放40倍，1分钟语音仅需1.5秒生成，显著优于传统扩散模型。
商用级生成质量：FLEURS-102基准测试平均CER仅4.00%，词错误率与语音相似度指标均优于ElevenLabs Multilingual v2等商业系统。
完全开源可商用：模型权重与代码采用Apache 2.0协议开源，支持本地部署与商业应用（底层tokenizer超10万DAU需单独申请许可）。

OmniVoice官网是什么

Репозиторий GitHub：https://github.com/k2-fsa/OmniVoice
Библиотека моделей HuggingFace：https://huggingface.co/k2-fsa/OmniVoice
Технический документ arXiv：https://arxiv.org/pdf/2604.00688
Демонстрация опыта работы в режиме онлайн：https://huggingface.co/spaces/k2-fsa/OmniVoice

使用OmniVoice的操作步骤

克隆GitHub仓库并安装依赖环境：从 https://github.com/k2-fsa/OmniVoice 拉取代码，配置Python环境并安装所需依赖包。
下载预训练模型权重：从Hugging Face仓库 k2-fsa/OmniVoice 获取模型检查点及tokenizer文件。
准备输入素材：Voice Clone模式需准备3-10秒干净的参考音频及对应转写文本（或启用自动Whisper转写）；Voice Design模式直接编写自然语言描述指令。
配置推理参数：设置扩散步数（16或32步，步数越多音质越好）、语速（speed）、固定时长（duration）等生成选项。
执行语音合成：运行inference脚本，输入目标文本与参考素材，模型将输出合成音频文件。
部署方式选择：支持Python API本地调用，或通过ComfyUI插件（ComfyUI-OmniVoice-TTS节点）实现可视化工作流，并可开启SageAttention加速与VRAM优化。

OmniVoice的适用人群

多语言内容创作者：需要为播客、有声书、短视频、教育课程等内容制作600+种语言语音的创作者，特别是服务低资源语言地区用户的媒体从业者。
AI应用开发者：正在开发智能助手、聊天机器人、游戏NPC、虚拟主播等应用，需要集成高质量零样本TTS功能的开发者与产品经理。
低资源语言社区建设者：为小语种、方言（如四川话、陕西话）或濒危语言提供数字化语音解决方案的语言保护组织与研究人员。
语音技术研究者：从事语音合成、跨语言迁移、扩散模型等方向研究的学术界与工业界研究人员，可用开源权重进行算法改进与学术论文复现。
企业级商业用户：寻求低成本、高并发语音合成方案的企业，适用于智能客服、语音导航、广告配音、教育培训等需要支持多语种的商业场景。
隐私敏感型本地部署用户：对数据安全与隐私保护要求高，需要将TTS能力完全部署在本地服务器或私有云环境，避免调用第三方API的政企客户与个人用户。

OmniVoice的常见问题FAQ

Q：OmniVoice是什么类型的模型？
A：OmniVoice是小米开源的大规模多语言零样本TTS（文本转语音）模型，采用单阶段扩散语言模型架构，支持600+种语言的语音合成，具备零样本语音克隆与Voice Design能力。

Q：OmniVoice与GPT-SoVITS、CosyVoice等国产TTS相比有什么优势？
A：OmniVoice核心优势在于600+语言覆盖（含大量低资源语言）、单阶段扩散架构（RTF低至0.025，40倍实时速度）、Voice Design功能（自然语言描述生成音色），且完全开源可商用。

Q：支持哪些中文方言？
A：Voice Design功能支持通过自然语言描述生成四川话、陕西话等中文方言音色，同时支持标准普通话及带口音的英文合成。

Q：进行Voice Clone需要多长的参考音频？
A：仅需3-10秒干净的人声音频即可实现高质量音色克隆，系统内置Whisper自动转写功能，无需手动提供参考文本。

Q：参考音频有背景噪音或混响怎么办？
A：OmniVoice具备提示降噪能力，可自动从含噪音频中解耦说话人音色特征，生成干净的合成语音，无需预先进行音频修复

Последние ресурсы по искусственному интеллекту

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.