IndexTTS: Herramienta de conversión de texto a voz con mezcla de chino e inglés

Introducción general

IndexTTS es una herramienta de conversión de texto a voz (TTS) de código abierto alojada en GitHub y desarrollada por el equipo de index-tts. Se basa en las tecnologías XTTS y Tortoise, y proporciona una síntesis de voz eficiente y de alta calidad mediante la mejora del diseño de los módulos. indexTTS ha sido entrenado con decenas de miles de horas de datos, y soporta tanto chino como inglés, y funciona especialmente bien en escenarios chinos. Corrige los errores de pronunciación mediante pinyin y controla las pausas en el habla. El equipo ha optimizado la calidad del sonido, la estabilidad de la formación y la similitud tímbrica, y afirma que supera a sistemas TTS populares como XTTS y CosyVoice2. Para conocer todas sus funciones, puede ponerse en contacto con la dirección de correo electrónico oficial.

IndexTTS:支持中英文混合的文本转语音工具

 

Lista de funciones

  • Admite la introducción del pinyin chino y corrige los errores de pronunciación de los caracteres polifónicos.
  • Control de la posición de las pausas mediante signos de puntuación.
  • Mejore la calidad de audio con BigVGAN2.
  • Integración del codificador condicional conformador para mejorar la estabilidad de la formación y la similitud tímbrica.
  • Admite la síntesis del habla con muestra cero y puede generar un habla específica sin entrenamiento previo.
  • Maneja textos mixtos en chino e inglés.

 

Utilizar la ayuda

Cómo instalar

IndexTTS es actualmente un proyecto de código abierto en GitHub, pero no hay ningún instalador directo o servicio en línea disponible oficialmente. Para utilizarlo, necesitas crear tu propio entorno. Estos son los pasos de instalación:

  1. Preparar el entorno
    • Asegúrate de que tu ordenador tiene Python 3.8 o posterior.
    • Instala Git para descargar código.
    • Se requiere soporte de GPU (por ejemplo, tarjeta gráfica NVIDIA) para acelerar el procesamiento, se recomienda CUDA.
  2. Descargar código
    Introdúzcalo en un terminal o línea de comandos:
git clone https://github.com/index-tts/index-tts.git

Esto descargará el código IndexTTS localmente.

  1. Instalación de dependencias
  • Vaya a la carpeta del proyecto:
    cd index-tts
    
  • Instale las bibliotecas necesarias. Dado que no existe ninguna <code>requirements.txt</code> se recomienda instalar las dependencias comunes de TTS como PyTorch, NumPy y Torchaudio. puede probar:
    pip install torch torchaudio numpy
    
  • Si hay una dependencia específica, es necesario hacer referencia a la declaración de importación en el código para instalarla manualmente.
  1. Obtener modelos preentrenados
  • El modelo de preentrenamiento IndexTTS no es directamente de código abierto. Debe ponerse en contacto con nosotros por correo electrónico <code>xuanwu@bilibili.com</code> Obtener el archivo del modelo.
  • Una vez recibido el modelo, coloca los archivos en el directorio del proyecto (consulta la respuesta oficial para conocer la ruta exacta).
  1. Proyectos en curso
  • Asumiendo que el modelo está en su lugar, ejecute el script principal (el nombre del archivo puede ser <code>main.py</code> (o nombre similar, es necesario comprobar el código para confirmar):
    python main.py
    
  • Si hay requisitos de parámetros (por ejemplo, texto de entrada o archivos de configuración), debe ajustar el comando de acuerdo con la documentación oficial.

Cómo utilizar las principales funciones

Tras la instalación, la función principal de IndexTTS es generar voz. A continuación se explica su funcionamiento:

Generar discurso

  • texto introducido
    Busque la sección de entrada de texto en el código (que puede ser un parámetro de script o una entrada de interfaz). Por ejemplo:
python main.py --text "你好,这是测试文本。"

El texto de entrada puede ser en chino, inglés o de contenido mixto.

Corrección del pinyin Pronunciación

  • Si tiene problemas con los caracteres polifónicos, introduzca directamente el pinyin. Por ejemplo:
python main.py --text "xing2 hang2"  # 纠正为“银行”而不是“星航”
  • El sistema generará la pronunciación correcta basándose en el pinyin.

Paradas de control

  • Cuando se añaden signos de puntuación al texto, IndexTTS los reconoce automáticamente y ajusta las pausas. Ejemplo:
python main.py --text "你好,世界。这是一个测试。"
  • "," y ". permitirán que la voz haga pausas de forma natural, imitando el ritmo del habla real.

audio de salida

  • El discurso generado suele guardarse como archivo WAV. Compruebe el directorio del proyecto después de ejecutarlo, puede haber algo como <code>output.wav</code> del documento.
  • Puede abrir el archivo con el reproductor o especificar la ruta de salida en el código:
python main.py --text "测试" --output "my_audio.wav"

Funciones destacadas Procedimiento de funcionamiento

Síntesis de voz de muestra cero

  • IndexTTS admite la síntesis de muestra cero y puede imitar sonidos no entrenados.
  • Cómo hacerlo: proporcione un audio de referencia (el formato suele ser WAV). Suponiendo que el código lo soporte:

python main.py --text "hola" --ref_audio "referencia.wav"

  • El sistema analiza el timbre del audio de referencia para generar un sonido similar.

Salida de audio de alta calidad

  • IndexTTS está optimizado para la calidad de sonido con BigVGAN2. No se necesitan ajustes adicionales, y el audio de salida es mucho más claro que el TTS normal siempre que los modelos se carguen correctamente.
  • Asegúrate de que tu hardware admite la aceleración por GPU; de lo contrario, el procesamiento se ralentizará.

advertencia

  • Si la ejecución informa de un error, compruebe que PyTorch es compatible con su GPU.
  • La documentación oficial puede estar incompleta, por lo que recomendamos comprobar <code>README.md</code> o comentarios de código.
  • Para un ajuste más profundo de los parámetros, puede estudiar la configuración de Conformer y BigVGAN2 (se requieren conocimientos de programación y principios de TTS).

 

escenario de aplicación

  1. Ayudas educativas
    Los profesores pueden utilizar IndexTTS para convertir textos en voz y ayudar a los alumnos a practicar la comprensión oral. La función de corrección Pinyin también enseña la pronunciación correcta.
  2. creación de contenidos
    Los presentadores o los propietarios de UP pueden utilizarlo para generar locuciones, especialmente para contenidos de vídeo que requieran una mezcla de chino e inglés.
  3. Desarrollo de asistentes de voz
    Los desarrolladores pueden utilizar IndexTTS para crear un servicio de atención al cliente inteligente que imite una voz humana real y proporcione una experiencia de diálogo natural.
  4. aprendizaje de idiomas
    Los alumnos pueden utilizarlo para practicar la pronunciación transcribiendo palabras o frases en voz alta, escuchándolas e imitándolas una y otra vez.

 

CONTROL DE CALIDAD

  1. ¿Qué idiomas admite IndexTTS?
    Soporta principalmente chino e inglés y puede manejar texto mixto. La compatibilidad con otros idiomas es desconocida y debe probarse.
  2. ¿Cómo consigo la plena funcionalidad?
    Contacto por correo requerido <code>xuanwu@bilibili.com</code>Obtenga modelos preentrenados y descripciones detalladas.
  3. ¿Qué potencia de ordenador necesito para ejecutarlo?
    Se recomienda una GPU (por ejemplo, tarjeta gráfica NVIDIA), una CPU también funcionará pero es lenta. Al menos 8 GB de RAM.
  4. ¿Es gratis?
    El código es abierto y gratuito, pero su uso comercial puede estar limitado, por lo que es necesario consultar al responsable.
© declaración de copyright
AiPPT

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...