TangoFlux: ¡Una rápida herramienta de conversión de texto a doblaje que genera 30 segundos de audio largo en 3 segundos!

Introducción general

TangoFlux es un eficaz modelo de generación de texto a audio (TTA) desarrollado por DeCLaRe Lab. El modelo es capaz de generar hasta 30 segundos de audio estéreo a 44,1 kHz en tan solo 3,7 s. TangoFlux utiliza técnicas de coincidencia de flujos y optimización de preferencias por orden de aplausos (CRPO) para mejorar la alineación de TTA mediante la generación y optimización de datos de preferencias. El modelo obtiene buenos resultados tanto en pruebas objetivas como subjetivas, y todo el código y los modelos son de código abierto para apoyar futuras investigaciones sobre la generación de TTA.

TangoFlux:快速文本到配音转换工具,3秒钟生成30秒长音频

Experiencia: https://huggingface.co/spaces/declare-lab/TangoFlux

 

La Universidad de Tecnología y Diseño de Singapur (SUTD) y NVIDIA han presentado TangoFlux, un modelo de generación de texto a audio (TTA) altamente eficiente con aproximadamente 115 millones de parámetros que puede generar hasta 44,1 kHz de audio en sólo 3,7 segundos en una sola GPU A40. Con aproximadamente 515 millones de parámetros, el modelo es capaz de generar hasta 30 segundos de audio a 44,1 kHz en sólo 3,7 segundos en una sola GPU A40. TangoFlux no sólo tiene una velocidad de generación ultrarrápida, sino también mejor calidad de audio que los modelos de audio de código abierto como Stable Audio.

Compare TANGoFLux con otros modelos de generación de texto a audio de código abierto de última generación: TANGoFLux no sólo genera aproximadamente el doble de rápido que los modelos más rápidos, sino que también consigue una mejor calidad de audio (medida por las puntuaciones CLAP y FD), todo ello con menos parámetros entrenables.

TangoFlux:快速文本到配音转换工具,3秒钟生成30秒长音频

 

TangoFlux, titulado "Ultra-Fast and Faithful Text-to-Audio Generation via Stream Matching and Clap-Ranked Preference Optimisation", consta de bloques FluxTransformer, que son Transformadores de Difusión (DiT) y Transformadores de Difusión Multimodal (MMDiT) que condicionan las pistas textuales y las incrustaciones de duración para generar hasta 30 segundos de audio a 44,1 kHz. Se trata del transformador de difusión (DiT) y el transformador de difusión multimodal (MMDiT), que están condicionados por pistas textuales e incrustaciones de duración para generar audio de 44,1 kHz de hasta 30 segundos de duración.TangoFlux aprende trayectorias de flujo rectificadas de las representaciones latentes del audio codificado por un autoencodificador variable (VAE).El proceso de entrenamiento de TangoFlux consta de tres fases: preentrenamiento, ajuste fino y optimización de las preferencias mediante CRPO. En concreto, la CRPO genera de forma iterativa nuevos datos sintéticos y construye pares de preferencias utilizando pérdidas DPO para la optimización de preferencias para la coincidencia de flujos.

TangoFlux:快速文本到配音转换工具,3秒钟生成30秒长音频

 

Lista de funciones

  • Generación rápida de audio: Genera hasta 30 segundos de audio de alta calidad en 3,7 segundos.
  • Tecnología Stream Matching: Generación de audio mediante FluxTransformer y transformadores de difusión multimodal.
  • Optimización CRPO: Mejora la calidad de la generación de audio generando y optimizando los datos de preferencia.
  • Formación en varias etapasConsta de tres fases: preentrenamiento, ajuste y optimización de preferencias.
  • código abiertoTodos los códigos y modelos son de código abierto para facilitar la investigación.

 

Utilizar la ayuda

Proceso de instalación

  1. Configuración del entorno: Asegúrese de que Python 3.7 y superior está instalado, y que las librerías de dependencia necesarias están instaladas.
  2. almacén de clonesEjecutar en un terminal git clone https://github.com/declare-lab/TangoFlux.git Almacén de clonación.
  3. Instalación de dependencias: Vaya al directorio del proyecto y ejecute pip install -r requirements.txt Instale todas las dependencias.

Proceso de utilización

  1. formación de modelos::
    • Acelerador de configuración: Ejecutar accelerate config y siga las instrucciones para configurar el entorno de ejecución.
    • Configure la ruta del archivo de entrenamiento: en la opción configs/tangoflux_config.yaml Especifique la ruta del archivo de entrenamiento y los hiperparámetros del modelo en el campo
    • Ejecute el script de entrenamiento: Utilice el siguiente comando para iniciar el entrenamiento:
     CUDA_VISIBLE_DEVICES=0,1 accelerate launch --config_file='configs/accelerator_config.yaml' src/train.py --checkpointing_steps="best" --save_every=5 --config='configs/tangoflux_config.yaml'
    
    • Formación de RPD: Modifique el archivo de formación para incluir los campos "elegido", "rechazado", "leyenda" y "duración" y ejecute el siguiente comando:
     CUDA_VISIBLE_DEVICES=0,1 accelerate launch --config_file='configs/accelerator_config.yaml' src/train_dpo.py --checkpointing_steps="best" --save_every=5 --config='configs/tangoflux_config.yaml'
    
  2. razonamiento modelizado::
    • Descargar modelo: Asegúrese de que ha descargado el modelo TangoFlux.
    • Generar audio: Utilice el siguiente código para generar audio a partir de un mensaje de texto:
     import torchaudio
    from tangoflux import TangoFluxInference
    from IPython.display import Audio
    model = TangoFluxInference(name='declare-lab/TangoFlux')
    audio = model.generate("生成音频的文本提示", duration=10)
    Audio(audio, rate=44100)
    

Funcionamiento detallado

  • Generación de texto a audioIntroduzca un texto, defina la duración del audio generado (de 1 a 30 segundos) y el modelo generará el audio de alta calidad correspondiente.
  • sesgo hacia la optimización: Gracias a la tecnología CRPO, el modelo es capaz de generar un audio más acorde con las preferencias del usuario.
  • Formación en varias etapasSe compone de tres fases: preentrenamiento, ajuste fino y optimización de las preferencias para garantizar la calidad y la coherencia del audio generado por el modelo.

advertencia

  • requisitos de hardwareSe recomienda utilizar una GPU con mayor capacidad de cálculo (por ejemplo, A40) para obtener un rendimiento óptimo.
  • Preparación de datos: Garantizar la diversidad y la calidad de los datos de formación para mejorar la generación de modelos.

Con estos pasos, los usuarios pueden empezar rápidamente a utilizar TangoFlux para la conversión de texto a audio de alta calidad. Las instrucciones detalladas de instalación y uso garantizan que los usuarios puedan completar con éxito el proceso de entrenamiento e inferencia del modelo.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...