ChatTTS: un modelo de generación de voz que imita la voz de una persona real hablando (paquete de aceleración ChatTTS one-click)

Introducción general

ChatTTS es un modelo generativo del habla diseñado para escenarios de diálogo. Genera un habla natural y expresiva, admite varios idiomas y varios hablantes, y es apto para diálogos interactivos. El modelo supera a la mayoría de los modelos de síntesis del habla de código abierto al predecir y controlar características rítmicas precisas como risas, pausas e interjecciones.

 

ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)

 

ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)

 

Lista de funciones

  • Soporte multilingüeIdiomas disponibles: chino e inglés, y en el futuro se ampliarán los idiomas disponibles.
  • Soporte para varios interlocutoresLa capacidad de generar voces de varios interlocutores lo hace adecuado para diálogos interactivos.
  • Control rítmico preciso: Los rasgos rítmicos como la risa, las pausas y las interjecciones pueden predecirse y controlarse.
  • Modelo de preentrenamientoEl sistema de preentrenamiento: proporciona 40.000 horas de modelos preentrenados para facilitar la investigación y el desarrollo.
  • código abiertoEl código está abierto en GitHub para uso académico y de investigación.

 

Utilizar la ayuda

Proceso de instalación

  1. Clonación del código del proyecto::
    git clone https://github.com/2noise/ChatTTS.git
    
  2. Instalación de dependencias::
    cd ChatTTS
    pip install -r requirements.txt
    
  3. Descargar modelo preentrenadoDescarga el modelo preentrenado de HuggingFace o ModelScope y colócalo en el directorio especificado.

Utilización

  1. Modelos de carga::
    from chattts import ChatTTS
    model = ChatTTS.load_model('path/to/pretrained/model')
    
  2. Generar discurso::
    text = "你好,欢迎使用ChatTTS!"
    audio = model.synthesize(text)
    
  3. Guardar archivos de audio::
    with open('output.wav', 'wb') as f:
    f.write(audio)
    

Funcionamiento detallado

  • entrada de texto: Admite la introducción mixta de texto chino e inglés.
  • Control rítmico: Las características de la rima, como la risa, las pausas y las interjecciones, se controlan estableciendo parámetros.
  • control de tonoEl tono generado puede controlarse mediante un valor de semilla de tono preestablecido o un código de tono.
  • control emocionalControl de las características emocionales del discurso generado mediante la configuración de los parámetros de volatilidad y relevancia de la emoción.
  • salida de streaming: Admite la generación de audio de larga duración y la lectura basada en caracteres para escenarios de diálogo complejos.

código de ejemplo (informática)

from chattts import ChatTTS
# 加载模型
model = ChatTTS.load_model('path/to/pretrained/model')
# 设置文本和韵律参数
text = "你好,欢迎使用ChatTTS!"
params = {
'laugh': True,
'pause': True,
'interjection': True
}
# 生成语音
audio = model.synthesize(text, params)
# 保存音频文件
with open('output.wav', 'wb') as f:
f.write(audio)

 

Cliente ChatTTS

Experiencia rápida

dirección webtipología
Web originalExperiencia web original
Fragua WebForjar una experiencia mejorada
LinuxInstalador de Python
MuestrasEjemplos de semillas tonales
ClonaciónExperiencia en clonación de tonos

 

mejora funcional

evento deportivopunto brillante
jianchang512/ChatTTS-uiProporciona una interfaz API que puede llamarse en aplicaciones de terceros.
6drf21e/ChatTTS_colabProporciona salida de streaming con soporte para generación de audio de larga duración y lectura dividida
lenML/ChatTTS-ForgeProporciona realce vocal y reducción del ruido de fondo con palabras clave adicionales
CCmahua/ChatTTS-MejoradoAdmite el procesamiento por lotes y la exportación de archivos SRT.
HKoon/ChatTTS-OpenVoiceajuste OpenVoice Clonación de sonidos

 

Ampliación de funciones

evento deportivopunto brillante
6drf21e/ChatTTS_AltavozMarcado del carácter tonal y evaluación de la estabilidad
AIFSH/ComfyUI-ChatTTSComfyUi versión, que puede introducirse como nodo de flujo de trabajo
MaterialShadow/ChatTTS-managerSe proporciona un sistema de gestión de tonos y una interfaz WebUI.

 

Paquete de instalación acelerada con un solo clic de ChatTTSPlus

ChatTTSPlus es una versión ampliada de ChatTTS que añade al original aceleración TensorRT, clonación de voz e implementación de modelos móviles. Es fácil de usar, ofrece un instalador de un solo clic para Windows y consigue una mejora del rendimiento de más del triple con TensorRT (de 28 tokens/s a 110 tokens/s en GPUs Windows 3060). Es compatible con la clonación del habla mediante LoRA y está desarrollando técnicas de compresión y aceleración de modelos para su despliegue móvil.ChatTTSPlus es una herramienta de síntesis del habla potente y fácil de usar para una amplia gama de escenarios, con puntos fuertes particulares en aplicaciones que requieren un alto rendimiento y capacidades de clonación del habla.

Dirección: https://github.com/warmshao/ChatTTSPlus

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...