IMS Toucan: herramienta de conversión de texto a voz multilingüe (compatible con más de 7000 idiomas), rápida y controlable.

Introducción general

IMS Toucan es un avanzado kit de herramientas de conversión de texto a voz (TTS) desarrollado por el Instituto de Procesamiento del Lenguaje Natural (IMS) de la Universidad de Stuttgart (Alemania). Compatible con más de 7.000 idiomas, es rápido, controlable y requiere pocos recursos informáticos. IMS Toucan está diseñado para ofrecer soluciones eficaces de síntesis de voz para la investigación, la enseñanza y las aplicaciones reales. El conjunto de herramientas permite a los usuarios entrenar, utilizar y enseñar las técnicas de síntesis de voz más avanzadas. IMS Toucan ofrece un amplio conjunto de módulos funcionales y una interfaz de control flexible que permite a los usuarios generar resultados de voz de alta calidad bajo demanda.

IMS Toucan:快速可控的多语言(支持7000+语言)文本转语音工具

Demostración: https://huggingface.co/spaces/Flux9665/MassivelyMultilingualTTS

 

Lista de funciones

  • Soporte multilingüe: Admite la síntesis de texto a voz en más de 7000 idiomas.
  • Síntesis rápida: Velocidad eficiente de generación de voz para aplicaciones en tiempo real.
  • controlableEl usuario controla con precisión el tono, el ritmo y el timbre de la voz.
  • baja potencia de cálculoNo requiere recursos informáticos significativos para funcionar y se adapta a una amplia gama de entornos de hardware.
  • Presentación interactivaLa demostración en línea permite a los usuarios experimentar directamente la función de síntesis de voz.
  • código abierto: Una completa base de código fuente abierto para facilitar el desarrollo secundario y la personalización.
  • Modelo de preentrenamiento: Proporciona modelos de síntesis de voz preentrenados que los usuarios pueden utilizar directamente o ajustar con mayor precisión.

 

Utilizar la ayuda

Proceso de instalación

  1. requisito fundamentalSe recomienda la versión 3.10 de Python. Asegúrese de instalar las siguientes dependencias: libsndfile1, espeak-ng, ffmpeg, libasound-dev, libportaudio2, libsqlite3-dev.
  2. almacén de clonesClone el repositorio de IMS Toucan en una máquina local (se recomiendan GPUs con CUDA para el entrenamiento del modelo; no se requieren GPUs para la inferencia).
   git clone https://github.com/DigitalPhonetics/IMS-Toucan.git
cd IMS-Toucan
  1. Creación de un entorno virtualCree y active un entorno virtual para instalar las dependencias básicas.
   python -m venv <path_to_env>
source <path_to_env>/bin/activate
pip install --no-cache-dir -r requirements.txt
  1. Ejecutar el script de demostraciónUna vez completada la instalación, puede ejecutar el siguiente script con fines de demostración.
   python run_advanced_GUI_demo.py

Función Flujo de operaciones

  1. texto a vozIntroduzca el texto en la interfaz interactiva, seleccione el idioma y los parámetros de voz y pulse el botón Generar para generar la voz.
  2. control por voz: Arrastrando los controles deslizantes de tono y duración, los usuarios pueden ajustar con precisión el tono y el ritmo del discurso generado.
  3. sustitución del hablaEl usuario puede cambiar a un modelo de habla diferente manteniendo los mismos parámetros de habla.
  4. formación de modelosLos usuarios pueden entrenar nuevos modelos de habla utilizando sus propios conjuntos de datos. Para más información, consulte los scripts de entrenamiento y la documentación del repositorio.

Funciones destacadas

  • Soporte multilingüeIMS Toucan admite más de 7.000 idiomas, lo que permite a los usuarios seleccionar diferentes idiomas para la síntesis de voz según sea necesario.
  • Síntesis eficazIMS Toucan puede generar voz de alta calidad con rapidez, incluso en entornos con pocos recursos informáticos.
  • Control flexibleEl usuario puede controlar con precisión los parámetros de la voz a través de la interfaz interactiva para generar la salida de voz que cumpla los requisitos.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...