IndexTTS: Herramienta de conversión de texto a voz con mezcla de chino e inglés
Últimos recursos sobre IAPublicado hace 5 meses Círculo de intercambio de inteligencia artificial 1.8K 00
Introducción general
IndexTTS es una herramienta de conversión de texto a voz (TTS) de código abierto alojada en GitHub y desarrollada por el equipo de index-tts. Se basa en las tecnologías XTTS y Tortoise, y proporciona una síntesis de voz eficiente y de alta calidad mediante la mejora del diseño de los módulos. indexTTS ha sido entrenado con decenas de miles de horas de datos, y soporta tanto chino como inglés, y funciona especialmente bien en escenarios chinos. Corrige los errores de pronunciación mediante pinyin y controla las pausas en el habla. El equipo ha optimizado la calidad del sonido, la estabilidad de la formación y la similitud tímbrica, y afirma que supera a sistemas TTS populares como XTTS y CosyVoice2. Para conocer todas sus funciones, puede ponerse en contacto con la dirección de correo electrónico oficial.

Lista de funciones
- Admite la introducción del pinyin chino y corrige los errores de pronunciación de los caracteres polifónicos.
- Control de la posición de las pausas mediante signos de puntuación.
- Mejore la calidad de audio con BigVGAN2.
- Integración del codificador condicional conformador para mejorar la estabilidad de la formación y la similitud tímbrica.
- Admite la síntesis del habla con muestra cero y puede generar un habla específica sin entrenamiento previo.
- Maneja textos mixtos en chino e inglés.
Utilizar la ayuda
Cómo instalar
IndexTTS es actualmente un proyecto de código abierto en GitHub, pero no hay ningún instalador directo o servicio en línea disponible oficialmente. Para utilizarlo, necesitas crear tu propio entorno. Estos son los pasos de instalación:
- Preparar el entorno
- Asegúrate de que tu ordenador tiene Python 3.8 o posterior.
- Instala Git para descargar código.
- Se requiere soporte de GPU (por ejemplo, tarjeta gráfica NVIDIA) para acelerar el procesamiento, se recomienda CUDA.
- Descargar código
Introdúzcalo en un terminal o línea de comandos:
git clone https://github.com/index-tts/index-tts.git
Esto descargará el código IndexTTS localmente.
- Instalación de dependencias
- Vaya a la carpeta del proyecto:
cd index-tts
- Instale las bibliotecas necesarias. Dado que no existe ninguna
<code>requirements.txt</code>
se recomienda instalar las dependencias comunes de TTS como PyTorch, NumPy y Torchaudio. puede probar:pip install torch torchaudio numpy
- Si hay una dependencia específica, es necesario hacer referencia a la declaración de importación en el código para instalarla manualmente.
- Obtener modelos preentrenados
- El modelo de preentrenamiento IndexTTS no es directamente de código abierto. Debe ponerse en contacto con nosotros por correo electrónico
<code>xuanwu@bilibili.com</code>
Obtener el archivo del modelo. - Una vez recibido el modelo, coloca los archivos en el directorio del proyecto (consulta la respuesta oficial para conocer la ruta exacta).
- Proyectos en curso
- Asumiendo que el modelo está en su lugar, ejecute el script principal (el nombre del archivo puede ser
<code>main.py</code>
(o nombre similar, es necesario comprobar el código para confirmar):python main.py
- Si hay requisitos de parámetros (por ejemplo, texto de entrada o archivos de configuración), debe ajustar el comando de acuerdo con la documentación oficial.
Cómo utilizar las principales funciones
Tras la instalación, la función principal de IndexTTS es generar voz. A continuación se explica su funcionamiento:
Generar discurso
- texto introducido
Busque la sección de entrada de texto en el código (que puede ser un parámetro de script o una entrada de interfaz). Por ejemplo:
python main.py --text "你好,这是测试文本。"
El texto de entrada puede ser en chino, inglés o de contenido mixto.
Corrección del pinyin Pronunciación
- Si tiene problemas con los caracteres polifónicos, introduzca directamente el pinyin. Por ejemplo:
python main.py --text "xing2 hang2" # 纠正为“银行”而不是“星航”
- El sistema generará la pronunciación correcta basándose en el pinyin.
Paradas de control
- Cuando se añaden signos de puntuación al texto, IndexTTS los reconoce automáticamente y ajusta las pausas. Ejemplo:
python main.py --text "你好,世界。这是一个测试。"
- "," y ". permitirán que la voz haga pausas de forma natural, imitando el ritmo del habla real.
audio de salida
- El discurso generado suele guardarse como archivo WAV. Compruebe el directorio del proyecto después de ejecutarlo, puede haber algo como
<code>output.wav</code>
del documento. - Puede abrir el archivo con el reproductor o especificar la ruta de salida en el código:
python main.py --text "测试" --output "my_audio.wav"
Funciones destacadas Procedimiento de funcionamiento
Síntesis de voz de muestra cero
- IndexTTS admite la síntesis de muestra cero y puede imitar sonidos no entrenados.
- Cómo hacerlo: proporcione un audio de referencia (el formato suele ser WAV). Suponiendo que el código lo soporte:
python main.py --text "hola" --ref_audio "referencia.wav"
- El sistema analiza el timbre del audio de referencia para generar un sonido similar.
Salida de audio de alta calidad
- IndexTTS está optimizado para la calidad de sonido con BigVGAN2. No se necesitan ajustes adicionales, y el audio de salida es mucho más claro que el TTS normal siempre que los modelos se carguen correctamente.
- Asegúrate de que tu hardware admite la aceleración por GPU; de lo contrario, el procesamiento se ralentizará.
advertencia
- Si la ejecución informa de un error, compruebe que PyTorch es compatible con su GPU.
- La documentación oficial puede estar incompleta, por lo que recomendamos comprobar
<code>README.md</code>
o comentarios de código. - Para un ajuste más profundo de los parámetros, puede estudiar la configuración de Conformer y BigVGAN2 (se requieren conocimientos de programación y principios de TTS).
escenario de aplicación
- Ayudas educativas
Los profesores pueden utilizar IndexTTS para convertir textos en voz y ayudar a los alumnos a practicar la comprensión oral. La función de corrección Pinyin también enseña la pronunciación correcta. - creación de contenidos
Los presentadores o los propietarios de UP pueden utilizarlo para generar locuciones, especialmente para contenidos de vídeo que requieran una mezcla de chino e inglés. - Desarrollo de asistentes de voz
Los desarrolladores pueden utilizar IndexTTS para crear un servicio de atención al cliente inteligente que imite una voz humana real y proporcione una experiencia de diálogo natural. - aprendizaje de idiomas
Los alumnos pueden utilizarlo para practicar la pronunciación transcribiendo palabras o frases en voz alta, escuchándolas e imitándolas una y otra vez.
CONTROL DE CALIDAD
- ¿Qué idiomas admite IndexTTS?
Soporta principalmente chino e inglés y puede manejar texto mixto. La compatibilidad con otros idiomas es desconocida y debe probarse. - ¿Cómo consigo la plena funcionalidad?
Contacto por correo requerido<code>xuanwu@bilibili.com</code>
Obtenga modelos preentrenados y descripciones detalladas. - ¿Qué potencia de ordenador necesito para ejecutarlo?
Se recomienda una GPU (por ejemplo, tarjeta gráfica NVIDIA), una CPU también funcionará pero es lenta. Al menos 8 GB de RAM. - ¿Es gratis?
El código es abierto y gratuito, pero su uso comercial puede estar limitado, por lo que es necesario consultar al responsable.
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Artículos relacionados
Sin comentarios...