IndexTTS: Herramienta de conversión de texto a voz con mezcla de chino e inglés

Últimos recursos sobre IAPublicado hace 11 meses Círculo de intercambio de inteligencia artificial

111.9K 00

Introducción general

IndexTTS es una herramienta de conversión de texto a voz (TTS) de código abierto alojada en GitHub y desarrollada por el equipo de index-tts. Se basa en las tecnologías XTTS y Tortoise, y proporciona una síntesis de voz eficiente y de alta calidad mediante la mejora del diseño de los módulos. indexTTS ha sido entrenado con decenas de miles de horas de datos, y soporta tanto chino como inglés, y funciona especialmente bien en escenarios chinos. Corrige los errores de pronunciación mediante pinyin y controla las pausas en el habla. El equipo ha optimizado la calidad del sonido, la estabilidad de la formación y la similitud tímbrica, y afirma que supera a sistemas TTS populares como XTTS y CosyVoice2. Para conocer todas sus funciones, puede ponerse en contacto con la dirección de correo electrónico oficial.

Lista de funciones

Admite la introducción del pinyin chino y corrige los errores de pronunciación de los caracteres polifónicos.
Control de la posición de las pausas mediante signos de puntuación.
Mejore la calidad de audio con BigVGAN2.
Integración del codificador condicional conformador para mejorar la estabilidad de la formación y la similitud tímbrica.
Admite la síntesis del habla con muestra cero y puede generar un habla específica sin entrenamiento previo.
Maneja textos mixtos en chino e inglés.

Utilizar la ayuda

Cómo instalar

IndexTTS es actualmente un proyecto de código abierto en GitHub, pero no hay ningún instalador directo o servicio en línea disponible oficialmente. Para utilizarlo, necesitas crear tu propio entorno. Estos son los pasos de instalación:

Preparar el entorno
- Asegúrate de que tu ordenador tiene Python 3.8 o posterior.
- Instala Git para descargar código.
- Se requiere soporte de GPU (por ejemplo, tarjeta gráfica NVIDIA) para acelerar el procesamiento, se recomienda CUDA.
Descargar código
Introdúzcalo en un terminal o línea de comandos:

git clone https://github.com/index-tts/index-tts.git

Esto descargará el código IndexTTS localmente.

Instalación de dependencias

Vaya a la carpeta del proyecto:
```
cd index-tts
```
Instale las bibliotecas necesarias. Dado que no existe ninguna <code>requirements.txt</code> se recomienda instalar las dependencias comunes de TTS como PyTorch, NumPy y Torchaudio. puede probar:
```
pip install torch torchaudio numpy
```
Si hay una dependencia específica, es necesario hacer referencia a la declaración de importación en el código para instalarla manualmente.

Obtener modelos preentrenados

El modelo de preentrenamiento IndexTTS no es directamente de código abierto. Debe ponerse en contacto con nosotros por correo electrónico <code>xuanwu@bilibili.com</code> Obtener el archivo del modelo.
Una vez recibido el modelo, coloca los archivos en el directorio del proyecto (consulta la respuesta oficial para conocer la ruta exacta).

Proyectos en curso

Asumiendo que el modelo está en su lugar, ejecute el script principal (el nombre del archivo puede ser <code>main.py</code> (o nombre similar, es necesario comprobar el código para confirmar):
```
python main.py
```
Si hay requisitos de parámetros (por ejemplo, texto de entrada o archivos de configuración), debe ajustar el comando de acuerdo con la documentación oficial.

Cómo utilizar las principales funciones

Tras la instalación, la función principal de IndexTTS es generar voz. A continuación se explica su funcionamiento:

Generar discurso

texto introducido
Busque la sección de entrada de texto en el código (que puede ser un parámetro de script o una entrada de interfaz). Por ejemplo:

python main.py --text "你好，这是测试文本。"

El texto de entrada puede ser en chino, inglés o de contenido mixto.

Corrección del pinyin Pronunciación

Si tiene problemas con los caracteres polifónicos, introduzca directamente el pinyin. Por ejemplo:

python main.py --text "xing2 hang2"  # 纠正为“银行”而不是“星航”

El sistema generará la pronunciación correcta basándose en el pinyin.

Paradas de control

Cuando se añaden signos de puntuación al texto, IndexTTS los reconoce automáticamente y ajusta las pausas. Ejemplo:

python main.py --text "你好，世界。这是一个测试。"

"," y ". permitirán que la voz haga pausas de forma natural, imitando el ritmo del habla real.

audio de salida

El discurso generado suele guardarse como archivo WAV. Compruebe el directorio del proyecto después de ejecutarlo, puede haber algo como <code>output.wav</code> del documento.
Puede abrir el archivo con el reproductor o especificar la ruta de salida en el código:

python main.py --text "测试" --output "my_audio.wav"

Funciones destacadas Procedimiento de funcionamiento

Síntesis de voz de muestra cero

IndexTTS admite la síntesis de muestra cero y puede imitar sonidos no entrenados.
Cómo hacerlo: proporcione un audio de referencia (el formato suele ser WAV). Suponiendo que el código lo soporte:

python main.py --text "hola" --ref_audio "referencia.wav"

El sistema analiza el timbre del audio de referencia para generar un sonido similar.

Salida de audio de alta calidad

IndexTTS está optimizado para la calidad de sonido con BigVGAN2. No se necesitan ajustes adicionales, y el audio de salida es mucho más claro que el TTS normal siempre que los modelos se carguen correctamente.
Asegúrate de que tu hardware admite la aceleración por GPU; de lo contrario, el procesamiento se ralentizará.

advertencia

Si la ejecución informa de un error, compruebe que PyTorch es compatible con su GPU.
La documentación oficial puede estar incompleta, por lo que recomendamos comprobar <code>README.md</code> o comentarios de código.
Para un ajuste más profundo de los parámetros, puede estudiar la configuración de Conformer y BigVGAN2 (se requieren conocimientos de programación y principios de TTS).

escenario de aplicación

Ayudas educativas
Los profesores pueden utilizar IndexTTS para convertir textos en voz y ayudar a los alumnos a practicar la comprensión oral. La función de corrección Pinyin también enseña la pronunciación correcta.
creación de contenidos
Los presentadores o los propietarios de UP pueden utilizarlo para generar locuciones, especialmente para contenidos de vídeo que requieran una mezcla de chino e inglés.
Desarrollo de asistentes de voz
Los desarrolladores pueden utilizar IndexTTS para crear un servicio de atención al cliente inteligente que imite una voz humana real y proporcione una experiencia de diálogo natural.
aprendizaje de idiomas
Los alumnos pueden utilizarlo para practicar la pronunciación transcribiendo palabras o frases en voz alta, escuchándolas e imitándolas una y otra vez.

CONTROL DE CALIDAD

¿Qué idiomas admite IndexTTS?
Soporta principalmente chino e inglés y puede manejar texto mixto. La compatibilidad con otros idiomas es desconocida y debe probarse.
¿Cómo consigo la plena funcionalidad?
Contacto por correo requerido <code>xuanwu@bilibili.com</code>Obtenga modelos preentrenados y descripciones detalladas.
¿Qué potencia de ordenador necesito para ejecutarlo?
Se recomienda una GPU (por ejemplo, tarjeta gráfica NVIDIA), una CPU también funcionará pero es lenta. Al menos 8 GB de RAM.
¿Es gratis?
El código es abierto y gratuito, pero su uso comercial puede estar limitado, por lo que es necesario consultar al responsable.