GLM-TTS - 스마트 스펙트럼 AI의 오픈 소스 산업 등급 음성 합성 시스템

최신 AI 리소스3주 전에 게시 됨 AI 공유 서클
10.7K 00
堆友AI

GLM-TTS란?

GLM-TTS는 강력한 음성 합성 기능을 갖춘 오픈 소스 산업 등급 음성 합성 시스템입니다. 2단계 생성 아키텍처를 채택하여 첫 번째 단계에서는 텍스트를 음성 토큰 시퀀스로 변환하고 두 번째 단계에서는 토큰 시퀀스를 고품질 오디오로 변환합니다. 이 시스템은 3초 분량의 음성 샘플만으로 톤 복제를 지원하고 다중 보상 강화 학습을 통해 음성의 감정 표현과 자연스러움을 향상시킵니다.GLM-TTS는 발음 정확도, 음색 유사도 및 감정 표현에서 오픈 소스 모델 중 최고 수준에 도달하며, 예를 들어 seed-tts-eval 테스트 세트에서 문자 오류율(CER)은 0.89%, 음색 유사도(Sim)는 76.4%에 달합니다. (GLM-TTS는 방언 복제, 다중 감정 표현, 교육 평가에서의 세분화된 발음 제어 등 다양한 응용 시나리오를 지원합니다. 실시간 대화형 애플리케이션을 위해 스트리밍 추론이 지원됩니다. 사용자는 오디오닷에이아이와 위즈덤 스펙트럼 클리어 스피치 앱을 통해 온라인으로 체험하거나 오픈 플랫폼 API를 통해 비즈니스에 액세스할 수 있으며, GLM-TTS의 모델 가중치, 추론 스크립트 및 기타 리소스는 GitHub, Hugging Face 및 Magic Hitch 커뮤니티에서 오픈 소스화되어 개발자가 배포 및 2차 개발이 편리합니다.

GLM-TTS - 智谱AI推出的开源工业级语音合成系统

GLM-TTS 기능적 특징

  • 제로 샘플 음성 복제3초의 음성 샘플만으로 화자의 음색과 말하기 습관을 재현하여 개인화된 음성을 빠르게 생성합니다.
  • 다중 보상 강화 학습문자 오류율, 음색 유사도, 감정 표현 및 웃음과 같은 다차원 보상 메커니즘을 통합하여 말의 자연스러움과 감정 표현력을 크게 향상시킵니다.
  • 고품질 음성 합성생성된 음성은 자연스럽고 부드러우며, 상용 시스템과 비슷한 정확한 발음과 음질로 낭독, 더빙 및 기타 여러 시나리오에 적합합니다.
  • 다국어 및 정서적 지원중국어와 영어의 혼합 텍스트를 지원하며, 텍스트 내용에 따라 감정 스타일을 자동으로 매칭하여 다양한 요구를 충족시킬 수 있습니다.
  • 스트리밍 추론 및 실시간 상호작용실시간 스트리밍 오디오 생성을 지원하여 지능형 고객 서비스 및 음성 어시스턴트와 같은 온라인 대화형 애플리케이션에 적합합니다.
  • 오픈 소스 및 유연한 배포모델 가중치, 추론 스크립트 및 기타 리소스는 GitHub, Hugging Face 및 Magic Hitch 커뮤니티에서 오픈소스로 제공되므로 개발자가 신속하게 배포하고 2차 개발을 진행할 수 있습니다.
  • 정교한 발음 제어"음소 + 텍스트"의 하이브리드 입력을 통해 다음절 및 희귀 문자의 발음 문제를 해결하고 발음의 정확도를 향상시킵니다.

GLM-TTS의 핵심 이점

  • 효율적인 톤 재현3초의 음성 샘플만으로 화자의 음색과 스타일을 정확하게 재현하여 개인화된 목소리를 빠르게 생성합니다.
  • 풍부한 감정 표현다양한 감정 스타일을 지원하는 다중 보상 강화 학습을 통해 감정 표현과 말의 자연스러움을 크게 향상시킵니다.
  • 고품질 음성 출력생성된 음성은 자연스럽고 부드러우며 정확한 발음과 음질로 상용 시스템에 필적하는 음질로 다양한 전문 시나리오에 적합합니다.
  • 다국어 지원국제화된 애플리케이션의 요구 사항을 충족하기 위해 중국어와 영어 혼합 텍스트를 지원합니다.
  • 실시간 대화형 기능스트리밍 추론을 지원하며 지능형 고객 서비스 및 음성 어시스턴트와 같은 실시간 대화형 애플리케이션에 적합합니다.
  • 오픈 소스 및 사용 편의성모델 가중치 및 추론 스크립트 오픈 소스로 개발자가 빠르게 배포하고 2차 개발을 할 수 있습니다.
  • 정교한 발음 제어음소 수준 입력을 통해 다의성 및 희귀 단어 발음 문제를 해결하여 발음 정확도를 향상시킵니다.
  • 낮은 데이터 트레이닝우수한 성과를 달성하고 교육 비용을 크게 절감하려면 100,000시간의 데이터만 있으면 됩니다.
  • 유연한 톤 사용자 지정LoRA 미세 조정 기술을 사용하여 고품질 톤을 빠르게 커스터마이징하고 개발 비용을 절감할 수 있습니다.

GLM-TTS의 공식 웹사이트는 무엇인가요?

  • GitHub 리포지토리:: https://github.com/zai-org/GLM-TTS
  • 허깅페이스 모델 라이브러리:: https://huggingface.co/zai-org/GLM-TTS

GLM-TTS의 대상 사용자

  • 음성 기술 개발자지능형 음성 비서 및 음성 상호작용 시스템과 같은 애플리케이션 개발에는 고품질 음성 합성 기술이 필요합니다.
  • 콘텐츠 크리에이터개인화된 음성을 빠르게 생성해야 하는 오디오북, 팟캐스트 및 오디오 콘텐츠를 제작합니다.
  • 교육 분야의 실무자교육용 소프트웨어, 온라인 강좌에 사용되며 생생한 음성 설명과 개인화된 음성 피드백을 제공합니다.
  • 고객 서비스지능형 고객 서비스 시스템을 구축하여 자연스럽고 원활한 음성 인터랙션 경험을 제공합니다.
  • 엔터테인먼트 산업애니메이션, 게임, 영화, TV 더빙을 제작하고 다양한 스타일의 음성 콘텐츠를 빠르게 생성할 수 있습니다.
  • 방언 및 소수 언어 연구자방언 복제 기능을 활용하여 방언과 소수 언어를 연구하고 보존하세요.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...