ChatTTS: un modelo de generación de voz que imita la voz de una persona real hablando (paquete de aceleración ChatTTS one-click)
Últimos recursos sobre IAActualizado hace 7 meses Círculo de intercambio de inteligencia artificial 13.6K 00
Introducción general
ChatTTS es un modelo generativo del habla diseñado para escenarios de diálogo. Genera un habla natural y expresiva, admite varios idiomas y varios hablantes, y es apto para diálogos interactivos. El modelo supera a la mayoría de los modelos de síntesis del habla de código abierto al predecir y controlar características rítmicas precisas como risas, pausas e interjecciones.


Lista de funciones
- Soporte multilingüeIdiomas disponibles: chino e inglés, y en el futuro se ampliarán los idiomas disponibles.
- Soporte para varios interlocutoresLa capacidad de generar voces de varios interlocutores lo hace adecuado para diálogos interactivos.
- Control rítmico preciso: Los rasgos rítmicos como la risa, las pausas y las interjecciones pueden predecirse y controlarse.
- Modelo de preentrenamientoEl sistema de preentrenamiento: proporciona 40.000 horas de modelos preentrenados para facilitar la investigación y el desarrollo.
- código abiertoEl código está abierto en GitHub para uso académico y de investigación.
Utilizar la ayuda
Proceso de instalación
- Clonación del código del proyecto::
git clone https://github.com/2noise/ChatTTS.git
- Instalación de dependencias::
cd ChatTTS pip install -r requirements.txt
- Descargar modelo preentrenadoDescarga el modelo preentrenado de HuggingFace o ModelScope y colócalo en el directorio especificado.
Utilización
- Modelos de carga::
from chattts import ChatTTS model = ChatTTS.load_model('path/to/pretrained/model')
- Generar discurso::
text = "你好,欢迎使用ChatTTS!" audio = model.synthesize(text)
- Guardar archivos de audio::
with open('output.wav', 'wb') as f: f.write(audio)
Funcionamiento detallado
- entrada de texto: Admite la introducción mixta de texto chino e inglés.
- Control rítmico: Las características de la rima, como la risa, las pausas y las interjecciones, se controlan estableciendo parámetros.
- control de tonoEl tono generado puede controlarse mediante un valor de semilla de tono preestablecido o un código de tono.
- control emocionalControl de las características emocionales del discurso generado mediante la configuración de los parámetros de volatilidad y relevancia de la emoción.
- salida de streaming: Admite la generación de audio de larga duración y la lectura basada en caracteres para escenarios de diálogo complejos.
código de ejemplo (informática)
from chattts import ChatTTS
# 加载模型
model = ChatTTS.load_model('path/to/pretrained/model')
# 设置文本和韵律参数
text = "你好,欢迎使用ChatTTS!"
params = {
'laugh': True,
'pause': True,
'interjection': True
}
# 生成语音
audio = model.synthesize(text, params)
# 保存音频文件
with open('output.wav', 'wb') as f:
f.write(audio)
Cliente ChatTTS
Experiencia rápida
dirección web | tipología |
---|---|
Web original | Experiencia web original |
Fragua Web | Forjar una experiencia mejorada |
Linux | Instalador de Python |
Muestras | Ejemplos de semillas tonales |
Clonación | Experiencia en clonación de tonos |
mejora funcional
evento deportivo | punto brillante |
---|---|
jianchang512/ChatTTS-ui | Proporciona una interfaz API que puede llamarse en aplicaciones de terceros. |
6drf21e/ChatTTS_colab | Proporciona salida de streaming con soporte para generación de audio de larga duración y lectura dividida |
lenML/ChatTTS-Forge | Proporciona realce vocal y reducción del ruido de fondo con palabras clave adicionales |
CCmahua/ChatTTS-Mejorado | Admite el procesamiento por lotes y la exportación de archivos SRT. |
HKoon/ChatTTS-OpenVoice | ajuste OpenVoice Clonación de sonidos |
Ampliación de funciones
evento deportivo | punto brillante |
---|---|
6drf21e/ChatTTS_Altavoz | Marcado del carácter tonal y evaluación de la estabilidad |
AIFSH/ComfyUI-ChatTTS | ComfyUi versión, que puede introducirse como nodo de flujo de trabajo |
MaterialShadow/ChatTTS-manager | Se proporciona un sistema de gestión de tonos y una interfaz WebUI. |
Paquete de instalación acelerada con un solo clic de ChatTTSPlus
ChatTTSPlus es una versión ampliada de ChatTTS que añade al original aceleración TensorRT, clonación de voz e implementación de modelos móviles. Es fácil de usar, ofrece un instalador de un solo clic para Windows y consigue una mejora del rendimiento de más del triple con TensorRT (de 28 tokens/s a 110 tokens/s en GPUs Windows 3060). Es compatible con la clonación del habla mediante LoRA y está desarrollando técnicas de compresión y aceleración de modelos para su despliegue móvil.ChatTTSPlus es una herramienta de síntesis del habla potente y fácil de usar para una amplia gama de escenarios, con puntos fuertes particulares en aplicaciones que requieren un alto rendimiento y capacidades de clonación del habla.
Dirección: https://github.com/warmshao/ChatTTSPlus
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...