MOSS-TTSD - 칭화 연구소의 오픈 소스 이중 언어 대화 음성 생성 모델

MOSS-TTSD란?

MOSS-TTSD는 칭화대학교의 음성 및 언어 연구소에서 개발한 오픈 소스 음성 대화 모델입니다. MOSS-TTSD는 텍스트 대화 스크립트를 자연스럽고 유창하며 표현력이 풍부한 대화 음성으로 변환할 수 있으며 영어와 중국어로 이중 언어 생성을 지원합니다. 이 모델은 고급 의미 음성 신경망 오디오 코덱과 사전 학습된 대규모 언어 모델을 기반으로 하며, 100만 시간 이상의 1인 음성 데이터와 40만 시간 이상의 대화 음성 데이터를 학습용으로 결합했습니다.MOSS-TTSD는 제로 샘플 음성 복제를 지원하여 대화 스크립트를 기반으로 정확한 대화자 전환 음성을 생성하고 추가 샘플 없이 음색 복제를 달성합니다.MOSS-TTSD는 AI 팟캐스트에 적합하며 다양한 애플리케이션에서 사용할 수 있습니다. MOSS-TTSD는 AI 팟캐스트, 영화 및 TV 더빙, 긴 형식의 인터뷰, 뉴스 보도 및 전자상거래 라이브 방송 등에 적합하며 완전 오픈 소스이며 무료 상업적 사용을 지원합니다.

MOSS-TTSD - 清华实验室开源的双语对话语音生成模型

MOSS-TTSD의 주요 기능

  • 자연스럽고 부드러운 대화 음성 생성텍스트 대화를 자연스럽고 표현력 있는 음성으로 번역하여 대화의 리듬과 억양을 정확하게 포착하는 기능입니다.
  • 제로 샘플 멀티 스피커 톤 복제원활한 대화 전환을 위해 추가 음성 샘플 없이 대화 스크립트를 기반으로 다양한 대화 상대의 음색을 생성합니다.
  • 이중 언어 지원다국어 시나리오의 요구 사항을 충족하기 위해 중국어와 영어 모두에서 고품질 음성 생성을 지원합니다.
  • 긴 형식의 음성 생성저비트레이트 코덱을 사용하면 한 번에 최대 960초 분량의 음성을 생성할 수 있어 음성이 부자연스럽게 연결되는 것을 방지할 수 있습니다.
  • 오픈 소스 및 비즈니스 준비모델 가중치, 추론 코드 및 API 인터페이스는 완전히 오픈 소스이며 무료 상업적 사용을 지원하므로 개발자와 기업이 애플리케이션을 신속하게 배포할 수 있습니다.

MOSS-TTSD 공식 웹사이트 주소

  • 프로젝트 웹사이트:: https://www.open-moss.com/en/moss-ttsd/
  • 깃허브 리포지토리:: https://github.com/OpenMOSS/MOSS-TTSD
  • 허깅페이스 모델 라이브러리:: https://huggingface.co/fnlp/MOSS-TTSD-v0.5
  • 온라인 경험 데모:: https://huggingface.co/spaces/fnlp/MOSS-TTSD

MOSS-TTSD 사용 방법

  • 환경 준비::
    • NVIDIA 드라이버 설치최신 버전의 NVIDIA 드라이버와 CUDA 툴킷이 설치되어 있는지 확인합니다.
    • Python 및 종속성 설치::
pip install torch torchvision torchaudio transformers soundfile
  • 모델 가져오기: 허깅 페이스에서 모델 다운로드::
git clone https://huggingface.co/fnlp/MOSS-TTSD-v0.5
  • 모델 로드 및 음성 생성
from transformers import AutoModelForTextToSpeech, AutoTokenizer
import soundfile as sf

# 加载模型和分词器
model_name = "fnlp/MOSS-TTSD-v0.5"
model = AutoModelForTextToSpeech.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 输入文本
text = "你好,这是一个测试对话。"
inputs = tokenizer(text, return_tensors="pt")

# 生成语音
audio = model.generate(**inputs)

# 保存语音文件
sf.write("output.wav", audio.numpy(), model.config.sampling_rate)
  • 운영 환경 점검GPU 지원 확인::
import torch
print(torch.cuda.is_available())

MOSS-TTSD의 핵심 이점

  • 자연스럽고 부드러운 음성 생성텍스트 대화를 대화의 운율과 억양을 정확하게 포착하여 자연스럽고 유창하며 표현력 있는 음성으로 변환하는 기능입니다.
  • 멀티 토커 톤 복제제로 샘플 톤 복제는 자연스러운 대화 전환을 위해 추가 음성 샘플 없이 다양한 대화 상대의 톤을 생성할 수 있도록 지원됩니다.
  • 이중 언어 지원다국어 시나리오의 요구 사항을 충족하기 위해 중국어와 영어 모두에서 고품질 음성 생성을 지원합니다.
  • 효율적인 데이터 처리 및 사전 교육훈련용 대규모 음성 데이터와 결합하여 생성된 음성의 높은 품질과 효율성을 보장하는 최적화된 훈련 프레임워크를 기반으로 합니다.
  • 오픈 소스 및 비즈니스 준비이 모델은 완전한 오픈 소스이며 무료 상업적 사용을 지원하므로 개발자가 신속하게 배포하고 적용할 수 있습니다.
  • 광범위한 애플리케이션 시나리오AI 팟캐스트, 영화 및 TV 더빙, 긴 형식의 인터뷰, 뉴스 보도 및 전자상거래 라이브 스트리밍에 적합합니다.
  • 기술 혁신혁신적인 음성 이산 인코더인 XY-Tokenizer와 낮은 비트 전송률 코덱을 기반으로 음성 생성의 성능과 효율성을 향상시킵니다.

MOSS-TTSD의 대상 사용자

  • 콘텐츠 크리에이터AI 팟캐스트, 비디오 보이스오버, 뉴스캐스트 등을 제작할 때 사용하면 자연스럽고 부드러운 대화 음성을 빠르게 생성할 수 있습니다.
  • 영화 및 TV 제작팀영화 및 텔레비전 제작을 위한 대사 더빙을 수행하며, 멀티 스피커 톤 복제를 지원하여 제작 효율성을 높입니다.
  • 뉴스 미디어자연스러운 대화형 음성 뉴스 캐스트를 생성하여 뉴스의 매력과 가독성을 높일 수 있습니다.
  • 전자 상거래 실무자라이브 이커머스 방송에서 디지털 인간 대화 밴드왜건을 통해 시청자의 참여를 유도하고 상호 작용을 강화하세요.
  • 기술 개발자오픈 소스 모델을 통한 2차 개발, 다양한 음성 애플리케이션과의 통합 및 기능 확장.
© 저작권 정책
AiPPT

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...