MOSS-TTSD - 칭화 연구소의 오픈 소스 이중 언어 대화 음성 생성 모델

47.1K 00

MOSS-TTSD란?

MOSS-TTSD는 칭화대학교의 음성 및 언어 연구소에서 개발한 오픈 소스 음성 대화 모델입니다. MOSS-TTSD는 텍스트 대화 스크립트를 자연스럽고 유창하며 표현력이 풍부한 대화 음성으로 변환할 수 있으며 영어와 중국어로 이중 언어 생성을 지원합니다. 이 모델은 고급 의미 음성 신경망 오디오 코덱과 사전 학습된 대규모 언어 모델을 기반으로 하며, 100만 시간 이상의 1인 음성 데이터와 40만 시간 이상의 대화 음성 데이터를 학습용으로 결합했습니다.MOSS-TTSD는 제로 샘플 음성 복제를 지원하여 대화 스크립트를 기반으로 정확한 대화자 전환 음성을 생성하고 추가 샘플 없이 음색 복제를 달성합니다.MOSS-TTSD는 AI 팟캐스트에 적합하며 다양한 애플리케이션에서 사용할 수 있습니다. MOSS-TTSD는 AI 팟캐스트, 영화 및 TV 더빙, 긴 형식의 인터뷰, 뉴스 보도 및 전자상거래 라이브 방송 등에 적합하며 완전 오픈 소스이며 무료 상업적 사용을 지원합니다.

MOSS-TTSD의 주요 기능

자연스럽고 부드러운 대화 음성 생성텍스트 대화를 자연스럽고 표현력 있는 음성으로 번역하여 대화의 리듬과 억양을 정확하게 포착하는 기능입니다.
제로 샘플 멀티 스피커 톤 복제원활한 대화 전환을 위해 추가 음성 샘플 없이 대화 스크립트를 기반으로 다양한 대화 상대의 음색을 생성합니다.
이중 언어 지원다국어 시나리오의 요구 사항을 충족하기 위해 중국어와 영어 모두에서 고품질 음성 생성을 지원합니다.
긴 형식의 음성 생성저비트레이트 코덱을 사용하면 한 번에 최대 960초 분량의 음성을 생성할 수 있어 음성이 부자연스럽게 연결되는 것을 방지할 수 있습니다.
오픈 소스 및 비즈니스 준비모델 가중치, 추론 코드 및 API 인터페이스는 완전히 오픈 소스이며 무료 상업적 사용을 지원하므로 개발자와 기업이 애플리케이션을 신속하게 배포할 수 있습니다.

MOSS-TTSD 공식 웹사이트 주소

프로젝트 웹사이트:: https://www.open-moss.com/en/moss-ttsd/
깃허브 리포지토리:: https://github.com/OpenMOSS/MOSS-TTSD
허깅페이스 모델 라이브러리:: https://huggingface.co/fnlp/MOSS-TTSD-v0.5
온라인 경험 데모:: https://huggingface.co/spaces/fnlp/MOSS-TTSD

MOSS-TTSD 사용 방법

환경 준비::
- NVIDIA 드라이버 설치최신 버전의 NVIDIA 드라이버와 CUDA 툴킷이 설치되어 있는지 확인합니다.
- Python 및 종속성 설치::

pip install torch torchvision torchaudio transformers soundfile

모델 가져오기: 허깅 페이스에서 모델 다운로드::

git clone https://huggingface.co/fnlp/MOSS-TTSD-v0.5

모델 로드 및 음성 생성

from transformers import AutoModelForTextToSpeech, AutoTokenizer
import soundfile as sf

# 加载模型和分词器
model_name = "fnlp/MOSS-TTSD-v0.5"
model = AutoModelForTextToSpeech.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 输入文本
text = "你好，这是一个测试对话。"
inputs = tokenizer(text, return_tensors="pt")

# 生成语音
audio = model.generate(**inputs)

# 保存语音文件
sf.write("output.wav", audio.numpy(), model.config.sampling_rate)

운영 환경 점검GPU 지원 확인::

import torch
print(torch.cuda.is_available())

MOSS-TTSD의 핵심 이점

자연스럽고 부드러운 음성 생성텍스트 대화를 대화의 운율과 억양을 정확하게 포착하여 자연스럽고 유창하며 표현력 있는 음성으로 변환하는 기능입니다.
멀티 토커 톤 복제제로 샘플 톤 복제는 자연스러운 대화 전환을 위해 추가 음성 샘플 없이 다양한 대화 상대의 톤을 생성할 수 있도록 지원됩니다.
이중 언어 지원다국어 시나리오의 요구 사항을 충족하기 위해 중국어와 영어 모두에서 고품질 음성 생성을 지원합니다.
효율적인 데이터 처리 및 사전 교육훈련용 대규모 음성 데이터와 결합하여 생성된 음성의 높은 품질과 효율성을 보장하는 최적화된 훈련 프레임워크를 기반으로 합니다.
오픈 소스 및 비즈니스 준비이 모델은 완전한 오픈 소스이며 무료 상업적 사용을 지원하므로 개발자가 신속하게 배포하고 적용할 수 있습니다.
광범위한 애플리케이션 시나리오AI 팟캐스트, 영화 및 TV 더빙, 긴 형식의 인터뷰, 뉴스 보도 및 전자상거래 라이브 스트리밍에 적합합니다.
기술 혁신혁신적인 음성 이산 인코더인 XY-Tokenizer와 낮은 비트 전송률 코덱을 기반으로 음성 생성의 성능과 효율성을 향상시킵니다.

MOSS-TTSD의 대상 사용자

콘텐츠 크리에이터AI 팟캐스트, 비디오 보이스오버, 뉴스캐스트 등을 제작할 때 사용하면 자연스럽고 부드러운 대화 음성을 빠르게 생성할 수 있습니다.
영화 및 TV 제작팀영화 및 텔레비전 제작을 위한 대사 더빙을 수행하며, 멀티 스피커 톤 복제를 지원하여 제작 효율성을 높입니다.
뉴스 미디어자연스러운 대화형 음성 뉴스 캐스트를 생성하여 뉴스의 매력과 가독성을 높일 수 있습니다.
전자 상거래 실무자라이브 이커머스 방송에서 디지털 인간 대화 밴드왜건을 통해 시청자의 참여를 유도하고 상호 작용을 강화하세요.
기술 개발자오픈 소스 모델을 통한 2차 개발, 다양한 음성 애플리케이션과의 통합 및 기능 확장.