GLM-TTS - 스마트 스펙트럼 AI의 오픈 소스 산업 등급 음성 합성 시스템

27.4K 00

GLM-TTS란?

GLM-TTS는 강력한 음성 합성 기능을 갖춘 오픈 소스 산업 등급 음성 합성 시스템입니다. 2단계 생성 아키텍처를 채택하여 첫 번째 단계에서는 텍스트를 음성 토큰 시퀀스로 변환하고 두 번째 단계에서는 토큰 시퀀스를 고품질 오디오로 변환합니다. 이 시스템은 3초 분량의 음성 샘플만으로 톤 복제를 지원하고 다중 보상 강화 학습을 통해 음성의 감정 표현과 자연스러움을 향상시킵니다.GLM-TTS는 발음 정확도, 음색 유사도 및 감정 표현에서 오픈 소스 모델 중 최고 수준에 도달하며, 예를 들어 seed-tts-eval 테스트 세트에서 문자 오류율(CER)은 0.89%, 음색 유사도(Sim)는 76.4%에 달합니다. (GLM-TTS는 방언 복제, 다중 감정 표현, 교육 평가에서의 세분화된 발음 제어 등 다양한 응용 시나리오를 지원합니다. 실시간 대화형 애플리케이션을 위해 스트리밍 추론이 지원됩니다. 사용자는 오디오닷에이아이와 위즈덤 스펙트럼 클리어 스피치 앱을 통해 온라인으로 체험하거나 오픈 플랫폼 API를 통해 비즈니스에 액세스할 수 있으며, GLM-TTS의 모델 가중치, 추론 스크립트 및 기타 리소스는 GitHub, Hugging Face 및 Magic Hitch 커뮤니티에서 오픈 소스화되어 개발자가 배포 및 2차 개발이 편리합니다.

GLM-TTS 기능적 특징

제로 샘플 음성 복제3초의 음성 샘플만으로 화자의 음색과 말하기 습관을 재현하여 개인화된 음성을 빠르게 생성합니다.
다중 보상 강화 학습문자 오류율, 음색 유사도, 감정 표현 및 웃음과 같은 다차원 보상 메커니즘을 통합하여 말의 자연스러움과 감정 표현력을 크게 향상시킵니다.
고품질 음성 합성생성된 음성은 자연스럽고 부드러우며, 상용 시스템과 비슷한 정확한 발음과 음질로 낭독, 더빙 및 기타 여러 시나리오에 적합합니다.
다국어 및 정서적 지원중국어와 영어의 혼합 텍스트를 지원하며, 텍스트 내용에 따라 감정 스타일을 자동으로 매칭하여 다양한 요구를 충족시킬 수 있습니다.
스트리밍 추론 및 실시간 상호작용실시간 스트리밍 오디오 생성을 지원하여 지능형 고객 서비스 및 음성 어시스턴트와 같은 온라인 대화형 애플리케이션에 적합합니다.
오픈 소스 및 유연한 배포모델 가중치, 추론 스크립트 및 기타 리소스는 GitHub, Hugging Face 및 Magic Hitch 커뮤니티에서 오픈소스로 제공되므로 개발자가 신속하게 배포하고 2차 개발을 진행할 수 있습니다.
정교한 발음 제어"음소 + 텍스트"의 하이브리드 입력을 통해 다음절 및 희귀 문자의 발음 문제를 해결하고 발음의 정확도를 향상시킵니다.

GLM-TTS의 핵심 이점

효율적인 톤 재현3초의 음성 샘플만으로 화자의 음색과 스타일을 정확하게 재현하여 개인화된 목소리를 빠르게 생성합니다.
풍부한 감정 표현다양한 감정 스타일을 지원하는 다중 보상 강화 학습을 통해 감정 표현과 말의 자연스러움을 크게 향상시킵니다.
고품질 음성 출력생성된 음성은 자연스럽고 부드러우며 정확한 발음과 음질로 상용 시스템에 필적하는 음질로 다양한 전문 시나리오에 적합합니다.
다국어 지원국제화된 애플리케이션의 요구 사항을 충족하기 위해 중국어와 영어 혼합 텍스트를 지원합니다.
실시간 대화형 기능스트리밍 추론을 지원하며 지능형 고객 서비스 및 음성 어시스턴트와 같은 실시간 대화형 애플리케이션에 적합합니다.
오픈 소스 및 사용 편의성모델 가중치 및 추론 스크립트 오픈 소스로 개발자가 빠르게 배포하고 2차 개발을 할 수 있습니다.
정교한 발음 제어음소 수준 입력을 통해 다의성 및 희귀 단어 발음 문제를 해결하여 발음 정확도를 향상시킵니다.
낮은 데이터 트레이닝우수한 성과를 달성하고 교육 비용을 크게 절감하려면 100,000시간의 데이터만 있으면 됩니다.
유연한 톤 사용자 지정LoRA 미세 조정 기술을 사용하여 고품질 톤을 빠르게 커스터마이징하고 개발 비용을 절감할 수 있습니다.