ChatTTS: 실제 사람이 말하는 목소리를 모방하는 음성 생성 모델(ChatTTS 원클릭 가속 패키지)

최신 AI 리소스6개월 전 업데이트 AI 공유 서클
2.3K 00

일반 소개

ChatTTS는 대화 시나리오를 위해 설계된 생성형 음성 모델입니다. 자연스럽고 표현력이 풍부한 음성을 생성하고, 여러 언어와 여러 화자를 지원하며, 대화형 대화에 적합합니다. 이 모델은 웃음, 일시 정지, 감탄사 등 세분화된 리듬을 예측하고 제어하여 대부분의 오픈 소스 음성 합성 모델보다 성능이 뛰어나며, 주로 학문적 목적으로 추가 연구 및 개발을 지원하기 위해 사전 학습된 모델을 제공합니다.

 

ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)

 

ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)

 

기능 목록

  • 다국어 지원중국어와 영어가 지원되며 향후 더 많은 언어가 지원될 예정입니다.
  • 멀티토커 지원여러 화자의 음성을 생성할 수 있어 대화형 대화에 적합합니다.
  • 세밀한 리듬 제어웃음, 일시 정지, 감탄사 등의 리듬을 예측하고 제어할 수 있습니다.
  • 사전 교육 모델추가 연구 및 개발을 지원하기 위해 40,000시간의 사전 학습된 모델을 제공합니다.
  • 오픈 소스이 코드는 학술 및 연구용으로 GitHub에서 오픈 소스로 제공됩니다.

 

도움말 사용

설치 프로세스

  1. 프로젝트 코드 복제::
    git clone https://github.com/2noise/ChatTTS.git
    
  2. 종속성 설치::
    cd ChatTTS
    pip install -r requirements.txt
    
  3. 사전 학습된 모델 다운로드허깅페이스 또는 모델스코프에서 사전 학습된 모델을 다운로드하여 지정된 디렉터리에 배치합니다.

사용법

  1. 모델 로드::
    from chattts import ChatTTS
    model = ChatTTS.load_model('path/to/pretrained/model')
    
  2. 음성 생성::
    text = "你好,欢迎使用ChatTTS!"
    audio = model.synthesize(text)
    
  3. 오디오 파일 저장::
    with open('output.wav', 'wb') as f:
    f.write(audio)
    

세부 기능 작동

  • 텍스트 입력중국어와 영어 텍스트 혼합 입력을 지원합니다.
  • 리듬 제어웃음, 일시 정지, 감탄사 등의 운율 기능은 매개변수를 설정하여 제어할 수 있습니다.
  • 톤 제어미리 설정된 톤 시드 값 또는 톤 코드로 생성된 톤을 제어할 수 있습니다.
  • 감정 조절감정 변동성 및 관련성 매개변수를 설정하여 생성된 음성의 감정적 특성을 제어합니다.
  • 스트리밍 출력복잡한 대화 시나리오를 위한 긴 오디오 생성 및 분할 역할 읽기를 지원합니다.

샘플 코드(컴퓨팅)

from chattts import ChatTTS
# 加载模型
model = ChatTTS.load_model('path/to/pretrained/model')
# 设置文本和韵律参数
text = "你好,欢迎使用ChatTTS!"
params = {
'laugh': True,
'pause': True,
'interjection': True
}
# 生成语音
audio = model.synthesize(text, params)
# 保存音频文件
with open('output.wav', 'wb') as f:
f.write(audio)

 

ChatTTS 클라이언트

빠른 경험

웹 주소유형학
원본 웹오리지널 웹 경험
포지 웹향상된 경험 제공
Linux파이썬 설치 관리자
샘플톤 씨앗의 예
복제톤 복제 경험

 

기능 향상

스포츠 이벤트밝은 지점
jianchang512/ChatTTS-ui타사 애플리케이션에서 호출할 수 있는 API 인터페이스 제공
6drf21e/ChatTTS_colab긴 오디오 생성 및 분할 역할 읽기를 지원하는 스트리밍 출력 제공
lenML/ChatTTS-Forge추가 큐 워드로 보컬 향상 및 배경 소음 감소 기능 제공
CCmahua/ChatTTS-향상됨SRT 파일의 일괄 파일 처리 및 내보내기를 지원합니다.
HKoon/ChatTTS-OpenVoicefit OpenVoice 사운드 복제 수행

 

기능 확장

스포츠 이벤트밝은 지점
6drf21e/ChatTTS_스피커톤 문자 표시 및 안정성 평가
AIFSH/ComfyUI-ChatTTSComfyUi 버전을 워크플로 노드로 도입할 수 있습니다.
머티리얼섀도우/ChatTTS-매니저톤 관리 시스템과 웹UI 인터페이스가 제공됩니다.

 

ChatTTSPlus 가속 원클릭 설치 패키지

ChatTTSPlus는 원본에 TensorRT 가속, 음성 복제 및 모바일 모델 배포를 추가한 ChatTTS의 확장 버전입니다. 사용이 간편하고, Windows 원클릭 설치 프로그램을 제공하며, TensorRT로 3배 이상의 성능 향상(Windows 3060 GPU에서 28 토큰/초에서 110 토큰/초)을 달성했습니다. LoRA를 사용한 음성 복제를 지원하며 모바일 배포를 위한 모델 압축 및 가속 기술을 개발하고 있습니다.ChatTTSPlus는 다양한 시나리오를 위한 강력하고 사용하기 쉬운 음성 합성 도구로, 특히 고성능 및 음성 복제 기능이 필요한 애플리케이션에 강점을 가지고 있습니다.

주소: https://github.com/warmshao/ChatTTSPlus

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...