ChatTTS: un modelo de generación de voz que imita la voz de una persona real hablando (paquete de aceleración ChatTTS one-click)
 Últimos recursos sobre IAActualizado hace 9 meses Círculo de intercambio de inteligencia artificial 31K 00
Introducción general
ChatTTS es un modelo generativo del habla diseñado para escenarios de diálogo. Genera un habla natural y expresiva, admite varios idiomas y varios hablantes, y es apto para diálogos interactivos. El modelo supera a la mayoría de los modelos de síntesis del habla de código abierto al predecir y controlar características rítmicas precisas como risas, pausas e interjecciones.


Lista de funciones
- Soporte multilingüeIdiomas disponibles: chino e inglés, y en el futuro se ampliarán los idiomas disponibles.
- Soporte para varios interlocutoresLa capacidad de generar voces de varios interlocutores lo hace adecuado para diálogos interactivos.
- Control rítmico preciso: Los rasgos rítmicos como la risa, las pausas y las interjecciones pueden predecirse y controlarse.
- Modelo de preentrenamientoEl sistema de preentrenamiento: proporciona 40.000 horas de modelos preentrenados para facilitar la investigación y el desarrollo.
- código abiertoEl código está abierto en GitHub para uso académico y de investigación.
Utilizar la ayuda
Proceso de instalación
- Clonación del código del proyecto::
git clone https://github.com/2noise/ChatTTS.git
- Instalación de dependencias::
cd ChatTTS pip install -r requirements.txt
- Descargar modelo preentrenadoDescarga el modelo preentrenado de HuggingFace o ModelScope y colócalo en el directorio especificado.
Utilización
- Modelos de carga::
from chattts import ChatTTS model = ChatTTS.load_model('path/to/pretrained/model')
- Generar discurso::
text = "你好,欢迎使用ChatTTS!" audio = model.synthesize(text)
- Guardar archivos de audio::
with open('output.wav', 'wb') as f: f.write(audio)
Funcionamiento detallado
- entrada de texto: Admite la introducción mixta de texto chino e inglés.
- Control rítmico: Las características de la rima, como la risa, las pausas y las interjecciones, se controlan estableciendo parámetros.
- control de tonoEl tono generado puede controlarse mediante un valor de semilla de tono preestablecido o un código de tono.
- control emocionalControl de las características emocionales del discurso generado mediante la configuración de los parámetros de volatilidad y relevancia de la emoción.
- salida de streaming: Admite la generación de audio de larga duración y la lectura basada en caracteres para escenarios de diálogo complejos.
código de ejemplo (informática)
from chattts import ChatTTS
# 加载模型
model = ChatTTS.load_model('path/to/pretrained/model')
# 设置文本和韵律参数
text = "你好,欢迎使用ChatTTS!"
params = {
'laugh': True,
'pause': True,
'interjection': True
}
# 生成语音
audio = model.synthesize(text, params)
# 保存音频文件
with open('output.wav', 'wb') as f:
f.write(audio)
Cliente ChatTTS
Experiencia rápida
| dirección web | tipología | 
|---|---|
| Web original | Experiencia web original | 
| Fragua Web | Forjar una experiencia mejorada | 
| Linux | Instalador de Python | 
| Muestras | Ejemplos de semillas tonales | 
| Clonación | Experiencia en clonación de tonos | 
mejora funcional
| evento deportivo | punto brillante | 
|---|---|
| jianchang512/ChatTTS-ui | Proporciona una interfaz API que puede llamarse en aplicaciones de terceros. | 
| 6drf21e/ChatTTS_colab | Proporciona salida de streaming con soporte para generación de audio de larga duración y lectura dividida | 
| lenML/ChatTTS-Forge | Proporciona realce vocal y reducción del ruido de fondo con palabras clave adicionales | 
| CCmahua/ChatTTS-Mejorado | Admite el procesamiento por lotes y la exportación de archivos SRT. | 
| HKoon/ChatTTS-OpenVoice | ajuste OpenVoice Clonación de sonidos | 
Ampliación de funciones
| evento deportivo | punto brillante | 
|---|---|
| 6drf21e/ChatTTS_Altavoz | Marcado del carácter tonal y evaluación de la estabilidad | 
| AIFSH/ComfyUI-ChatTTS | ComfyUi versión, que puede introducirse como nodo de flujo de trabajo | 
| MaterialShadow/ChatTTS-manager | Se proporciona un sistema de gestión de tonos y una interfaz WebUI. | 
Paquete de instalación acelerada con un solo clic de ChatTTSPlus
ChatTTSPlus es una versión ampliada de ChatTTS que añade al original aceleración TensorRT, clonación de voz e implementación de modelos móviles. Es fácil de usar, ofrece un instalador de un solo clic para Windows y consigue una mejora del rendimiento de más del triple con TensorRT (de 28 tokens/s a 110 tokens/s en GPUs Windows 3060). Es compatible con la clonación del habla mediante LoRA y está desarrollando técnicas de compresión y aceleración de modelos para su despliegue móvil.ChatTTSPlus es una herramienta de síntesis del habla potente y fácil de usar para una amplia gama de escenarios, con puntos fuertes particulares en aplicaciones que requieren un alto rendimiento y capacidades de clonación del habla.
Dirección: https://github.com/warmshao/ChatTTSPlus
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial  Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...





 Español
Español  简体中文
简体中文  English
English  日本語
日本語  한국어
한국어  Русский
Русский