ChatTTS: 실제 사람이 말하는 목소리를 모방하는 음성 생성 모델(ChatTTS 원클릭 가속 패키지)

64.3K 00

일반 소개

ChatTTS는 대화 시나리오를 위해 설계된 생성형 음성 모델입니다. 자연스럽고 표현력이 풍부한 음성을 생성하고, 여러 언어와 여러 화자를 지원하며, 대화형 대화에 적합합니다. 이 모델은 웃음, 일시 정지, 감탄사 등 세분화된 리듬을 예측하고 제어하여 대부분의 오픈 소스 음성 합성 모델보다 성능이 뛰어나며, 주로 학문적 목적으로 추가 연구 및 개발을 지원하기 위해 사전 학습된 모델을 제공합니다.

기능 목록

다국어 지원중국어와 영어가 지원되며 향후 더 많은 언어가 지원될 예정입니다.
멀티토커 지원여러 화자의 음성을 생성할 수 있어 대화형 대화에 적합합니다.
세밀한 리듬 제어웃음, 일시 정지, 감탄사 등의 리듬을 예측하고 제어할 수 있습니다.
사전 교육 모델추가 연구 및 개발을 지원하기 위해 40,000시간의 사전 학습된 모델을 제공합니다.
오픈 소스이 코드는 학술 및 연구용으로 GitHub에서 오픈 소스로 제공됩니다.

도움말 사용

설치 프로세스

프로젝트 코드 복제::

git clone https://github.com/2noise/ChatTTS.git

종속성 설치::

cd ChatTTS
pip install -r requirements.txt

사전 학습된 모델 다운로드허깅페이스 또는 모델스코프에서 사전 학습된 모델을 다운로드하여 지정된 디렉터리에 배치합니다.

사용법

모델 로드::

from chattts import ChatTTS
model = ChatTTS.load_model('path/to/pretrained/model')

음성 생성::

text = "你好，欢迎使用ChatTTS！"
audio = model.synthesize(text)

오디오 파일 저장::

with open('output.wav', 'wb') as f:
f.write(audio)

세부 기능 작동

텍스트 입력중국어와 영어 텍스트 혼합 입력을 지원합니다.
리듬 제어웃음, 일시 정지, 감탄사 등의 운율 기능은 매개변수를 설정하여 제어할 수 있습니다.
톤 제어미리 설정된 톤 시드 값 또는 톤 코드로 생성된 톤을 제어할 수 있습니다.
감정 조절감정 변동성 및 관련성 매개변수를 설정하여 생성된 음성의 감정적 특성을 제어합니다.
스트리밍 출력복잡한 대화 시나리오를 위한 긴 오디오 생성 및 분할 역할 읽기를 지원합니다.

샘플 코드(컴퓨팅)

from chattts import ChatTTS
# 加载模型
model = ChatTTS.load_model('path/to/pretrained/model')
# 设置文本和韵律参数
text = "你好，欢迎使用ChatTTS！"
params = {
'laugh': True,
'pause': True,
'interjection': True
}
# 生成语音
audio = model.synthesize(text, params)
# 保存音频文件
with open('output.wav', 'wb') as f:
f.write(audio)

ChatTTS 클라이언트

빠른 경험

웹 주소	유형학
원본 웹	오리지널 웹 경험
포지 웹	향상된 경험 제공
Linux	파이썬 설치 관리자
샘플	톤 씨앗의 예
복제	톤 복제 경험

기능 향상

스포츠 이벤트	밝은 지점
jianchang512/ChatTTS-ui	타사 애플리케이션에서 호출할 수 있는 API 인터페이스 제공
6drf21e/ChatTTS_colab	긴 오디오 생성 및 분할 역할 읽기를 지원하는 스트리밍 출력 제공
lenML/ChatTTS-Forge	추가 큐 워드로 보컬 향상 및 배경 소음 감소 기능 제공
CCmahua/ChatTTS-향상됨	SRT 파일의 일괄 파일 처리 및 내보내기를 지원합니다.
HKoon/ChatTTS-OpenVoice	fit OpenVoice 사운드 복제 수행

기능 확장

스포츠 이벤트	밝은 지점
6drf21e/ChatTTS_스피커	톤 문자 표시 및 안정성 평가
AIFSH/ComfyUI-ChatTTS	ComfyUi 버전을 워크플로 노드로 도입할 수 있습니다.
머티리얼섀도우/ChatTTS-매니저	톤 관리 시스템과 웹UI 인터페이스가 제공됩니다.

ChatTTSPlus 가속 원클릭 설치 패키지

ChatTTSPlus는 원본에 TensorRT 가속, 음성 복제 및 모바일 모델 배포를 추가한 ChatTTS의 확장 버전입니다. 사용이 간편하고, Windows 원클릭 설치 프로그램을 제공하며, TensorRT로 3배 이상의 성능 향상(Windows 3060 GPU에서 28 토큰/초에서 110 토큰/초)을 달성했습니다. LoRA를 사용한 음성 복제를 지원하며 모바일 배포를 위한 모델 압축 및 가속 기술을 개발하고 있습니다.ChatTTSPlus는 다양한 시나리오를 위한 강력하고 사용하기 쉬운 음성 합성 도구로, 특히 고성능 및 음성 복제 기능이 필요한 애플리케이션에 강점을 가지고 있습니다.

주소: https://github.com/warmshao/ChatTTSPlus