Siliconcloud上线加速版CosyVoice2：150ms实时语音合成，支持混合语种和方言

2.5K 00

近日，阿里通义实验室语音团队正式发布语音合成模型CosyVoice2。该模型支持文本和语音的双向流式传输，支持多语种、混合语种和方言，提供更准确、更稳定、更快、更好的语音生成能力。现在，硅基流动Siliconcloud正式上线推理加速版CosyVoice2-0.5B（价格为￥105/ M UTF-8 bytes，每个字符占用1到4个字节），包含网络传输时间在内，让模型输出延迟低至150ms，为你的生成式AI应用带来更高效的用户体验。与SiliconCloud上的其他语言合成模型一样，CosyVoice2支持开箱即用的8种预置音色，支持用户预置音色以及动态音色，并可自定义语速、音频增益和输出采样率。

在线体验
https://cloud.siliconflow.cn/playground/text-to-speech/17885302679

API文档

https://docs.siliconflow.cn/api-reference/audio/create-speech

感受一下SiliconCloud的推理加速版CosyVoice2.0的效果。

结合SiliconCloud此前上线的阿里语音识别模型SenseVoice-Small（可免费使用）及平台上其他各类大模型，开发者轻松调用模型API即可高效开发端到端语音交互应用，包括有声读物、流媒体音频输出、虚拟助手等应用。

模型特点及性能

CosyVoice2 是一个基于大语言模型的流式语音合成模型，采用统一的流式/非流式框架设计。该模型通过有限标量量化（FSQ）来提升语音token的编码本利用率，简化了文本到语音的语言模型架构，并开发了支持不同合成场景的分块感知因果流匹配模型。在流式模式下，模型可实现150ms的超低延迟，同时保持与非流式模式几乎相同的合成质量。

此外，CosyVoice2在基模型和指令模型的整合上取得了重要进展，不仅延续了对情感、说话风格和细粒度控制指令的支持，还新增了中文指令的处理能力。CosyVoice2也引入了角色扮演的功能，如能够模仿机器人、小猪佩奇的风格讲话等。

具体而言，与CosyVoice 1.0版本相比，2.0版本有以下优势：

多语言支持

支持语言：中文、英文、日文、韩文、中文方言（粤语、四川话、上海话、天津话、武汉话等）
跨语言 & 混合语言：支持跨语言和代码切换场景下的零样本语音克隆。

超低延迟

双向流式支持：CosyVoice 2.0集成了离线和流建模技术。
快速首包合成：在保持高质量音频输出的同时，实现低至150毫秒的延迟。

高精度

发音改进：与CosyVoice 1.0相比，发音错误减少30%到50%。
基准成就：在Seed-TTS评估集的困难测试集上达到最低的字符错误率。

强稳定性

音色一致性：确保零样本和跨语言语音合成的音色可靠一致。
跨语言合成：与1.0版本相比有显著改进。

自然流畅度

韵律和音质增强：将MOS评估分数从5.4提高到5.53。
情感和方言灵活性：支持更精细的情感控制和方言口音调整。

开发者评价

CosyVoice2.0一经发布，部分开发者先进行体验。有开发者表示，它支持超精细的控制功能，语音合成声音更逼真自然。 Siliconcloud上线加速版CosyVoice2：150ms实时语音合成，支持混合语种和方言不过，也有用户表示，尽管被它出色的语音生成表现吸引，但部署成为了一大难题。　现在，Siliconcloud上线CosyVoice 2.0后，免去复杂部署，你只需轻松调用API，可以接入自己的应用里了。

Token工厂SiliconCloud Qwen2.5（7B）等20+模型免费用

作为一站式大模型云服务平台，SiliconCloud致力于为开发者提供极速响应、价格亲民、品类齐全、体验丝滑的模型API。除了CosyVoice2，SiliconCloud已上架包括QVQ-72B-Preview、DeepSeek-VL2、DeepSeek-V2.5-1210、mochi-1-preview、Llama-3.3-70B-Instruct、HunyuanVideo、fish-speech-1.5、QwQ-32B-Preview、Qwen2.5-Coder-32B-Instruct、InternVL2、Qwen2.5-7B/14B/32B/72B、FLUX.1、InternLM2.5-20B-Chat、BCE、BGE、SenseVoice-Small、GLM-4-9B-Chat在内的数十种开源大语言模型、图片/视频生成模型、语音模型、代码/数学模型以及向量与重排序模型。　　 Siliconcloud上线加速版CosyVoice2：150ms实时语音合成，支持混合语种和方言其中，Qwen2.5（7B）、Llama3.1（8B）等20+大模型API免费使用，让开发者与产品经理无需担心研发阶段和大规模推广所带来的算力成本，实现“Token 自由”。