Siliconcloud, 가속화된 CosyVoice2 출시: 150ms 실시간 음성 합성, 혼합 언어 및 방언 지원

69.8K 00

Siliconcloud上线加速版CosyVoice2：150ms实时语音合成，支持混合语种和方言

최근 알리 통이 연구소의 음성 팀이 음성 합성 모델을 공식적으로 출시했습니다.CosyVoice2. 이 모델은 텍스트와 음성의 양방향 스트리밍을 지원하고 다국어, 혼합 언어 및 방언을 지원하며 더 정확하고 안정적이며 더 빠르고 더 나은 음성 생성 기능을 제공합니다. 이제 실리콘 기반 흐름인 실리콘클라우드가 추론 가속 버전인 CosyVoice2-0.5B(가격 ￥105/M UTF-8바이트, 각 문자는 1~4바이트 차지)로 공식 출시되어 네트워크 전송 시간을 포함하여 모델 출력 지연 시간을 150ms로 낮춰 생성 AI 애플리케이션에 보다 효율적인 사용자 경험을 제공합니다. 실리콘클라우드의 다른 언어 합성 모델과 마찬가지로 CosyVoice2는 기본 제공되는 8가지 사전 설정 톤, 사용자 사전 설정 톤, 동적 톤, 사용자 지정 가능한 음성 속도, 오디오 게인 및 출력 샘플 속도를 지원합니다.

온라인 경험
https://cloud.siliconflow.cn/playground/text-to-speech/17885302679

API 문서

https://docs.siliconflow.cn/api-reference/audio/create-speech

실리콘클라우드의 추론 가속화 버전인 CosyVoice 2.0을 직접 체험해 보세요.

이전에 라이브 서비스 중인 SiliconCloud의알리 음성 인식 모델 SenseVoice-Small(무료 제공)개발자는 모델 API의 도움으로 오디오북, 스트리밍 오디오 출력, 가상 비서 및 기타 애플리케이션을 포함한 엔드투엔드 음성 상호작용 애플리케이션을 효율적으로 개발할 수 있습니다.

모델 기능 및 성능

CosyVoice2 은 통합된 스트리밍/비스트리밍 프레임워크를 사용하여 설계된 대규모 언어 모델 기반의 스트리밍 음성 합성 모델입니다. 이 모델은 유한 스칼라 양자화(FSQ)를 통해 음성 토큰의 코드북 활용도를 개선하고, 텍스트 음성 변환 언어 모델 아키텍처를 단순화하며, 다양한 합성 시나리오를 지원하는 청크 인식 인과 스트림 매칭 모델을 개발합니다. 스트리밍 모드에서 이 모델은 비스트리밍 모드와 거의 동일한 합성 품질을 유지하면서 150ms의 초저 지연 시간을 달성합니다.

또한 CosyVoice2는 감정, 말하기 스타일 및 세분화된 제어 명령에 대한 지원을 계속할 뿐만 아니라 중국어 명령을 처리하는 기능을 추가하여 기본 모델과 명령 모델의 통합에 상당한 진전을 이루었으며, 로봇 모방 기능 및 페파 피그의 말하기 스타일과 같은 역할극 기능도 도입했습니다.

특히 2.0 버전은 CosyVoice 버전 1.0에 비해 다음과 같은 장점이 있습니다:

다국어 지원

지원 언어: 중국어, 영어, 일본어, 한국어, 중국 방언(광동어, 사천어, 상하이어, 톈진어, 우한어 등)
교차 언어 및 혼합 언어: 교차 언어 및 코드 전환 시나리오에서 제로 샘플 음성 복제를 지원합니다.

초저지연

양방향 스트리밍 지원: CosyVoice 2.0은 오프라인 및 스트리밍 모델링 기술을 통합합니다.
빠른 첫 번째 패킷 합성: 고품질 오디오 출력을 유지하면서 150밀리초의 낮은 지연을 달성합니다.

매우 정확한

발음 개선: CosyVoice 1.0에 비해 발음 오류가 30%에서 50%로 감소했습니다.
벤치마크 성과: Seed-TTS 평가 세트의 어려운 테스트 세트에서 가장 낮은 문자 오류율을 달성하세요.

높은 안정성

톤 일관성: 제로 샘플 및 다국어 음성 합성을 위한 안정적인 톤 일관성을 보장합니다.
언어 간 합성: 버전 1.0에 비해 크게 개선되었습니다.

자연스러운 유창성

리듬 및 음색 향상: MOS 평가 점수를 5.4에서 5.53으로 높였습니다.
감정 및 방언 유연성: 세밀한 감정 제어와 방언 악센트 조정을 지원합니다.

개발자 평가

CosyVoice 2.0이 출시되자 일부 개발자들이 먼저 경험했습니다. 일부 개발자는 초미세 제어 기능과 더욱 사실적이고 자연스러운 음성 합성을 지원한다고 말했습니다. Siliconcloud上线加速版CosyVoice2：150ms实时语音合成，支持混合语种和方言 그러나 일부 사용자들은 뛰어난 음성 생성 성능에 매료되었음에도 불구하고 배포가 큰 어려움이 되었다고 말했습니다. 이제 실리콘클라우드에 CosyVoice 2.0이 출시되어 복잡한 배포가 필요 없어졌으므로 API를 쉽게 호출하여 자체 앱에 액세스할 수 있습니다.

토큰 팩토리 실리콘클라우드 Qwen 2.5(7B) 및 기타 20개 이상의 모델을 무료로 사용해보세요!

실리콘클라우드는 원스톱 대형 모델 클라우드 서비스 플랫폼으로서 개발자에게 매우 반응이 빠르고, 저렴하며, 완벽하고, 매끄러운 모델 API를 제공하기 위해 최선을 다하고 있습니다. 실리콘클라우드는 CosyVoice2 외에도 이미 QVQ-72B-Preview, DeepSeek-VL2, DeepSeek-. V2.5-1210, 떡-1-프리뷰, 라마-3.3-70B-인스트럭트, 훈위안비디오, 물고기-스피치-1.5, QwQ-32B-프리뷰, Qwen2.5-Coder-32B-인스트럭트, 인턴VL2. Qwen2.5-7B/14B/32B/72B, FLUX.1, InternLM2.5-20B-Chat, BCE, BGE, SenseVoice-Small, GLM-4-9B-Chat 및 수십 개의 오픈 소스 대규모 언어 모델, 사진/영상 생성 모델, 음성 모델, 코드/수학 모델, 벡터 및 재주문 모델을 지원합니다. Siliconcloud上线加速版CosyVoice2：150ms实时语音合成，支持混合语种和方言 그중 Qwen2.5(70억), Llama3.1(80억) 및 기타 20개 이상의 대형 모델 API를 무료로 사용할 수 있으므로 개발자와 제품 관리자는 연구 개발 단계의 산술적 비용과 대규모 프로모션에 대해 걱정할 필요가 없으며 "토큰 자유"를 실현할 수 있습니다.