TangoFlux: ¡Una rápida herramienta de conversión de texto a doblaje que genera 30 segundos de audio largo en 3 segundos!

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

61.7K 00

Introducción general

TangoFlux es un eficaz modelo de generación de texto a audio (TTA) desarrollado por DeCLaRe Lab. El modelo es capaz de generar hasta 30 segundos de audio estéreo a 44,1 kHz en tan solo 3,7 s. TangoFlux utiliza técnicas de coincidencia de flujos y optimización de preferencias por orden de aplausos (CRPO) para mejorar la alineación de TTA mediante la generación y optimización de datos de preferencias. El modelo obtiene buenos resultados tanto en pruebas objetivas como subjetivas, y todo el código y los modelos son de código abierto para apoyar futuras investigaciones sobre la generación de TTA.

Experiencia: https://huggingface.co/spaces/declare-lab/TangoFlux

La Universidad de Tecnología y Diseño de Singapur (SUTD) y NVIDIA han presentado TangoFlux, un modelo de generación de texto a audio (TTA) altamente eficiente con aproximadamente 115 millones de parámetros que puede generar hasta 44,1 kHz de audio en sólo 3,7 segundos en una sola GPU A40. Con aproximadamente 515 millones de parámetros, el modelo es capaz de generar hasta 30 segundos de audio a 44,1 kHz en sólo 3,7 segundos en una sola GPU A40. TangoFlux no sólo tiene una velocidad de generación ultrarrápida, sino también mejor calidad de audio que los modelos de audio de código abierto como Stable Audio.

Compare TANGoFLux con otros modelos de generación de texto a audio de código abierto de última generación: TANGoFLux no sólo genera aproximadamente el doble de rápido que los modelos más rápidos, sino que también consigue una mejor calidad de audio (medida por las puntuaciones CLAP y FD), todo ello con menos parámetros entrenables.

TangoFlux, titulado "Ultra-Fast and Faithful Text-to-Audio Generation via Stream Matching and Clap-Ranked Preference Optimisation", consta de bloques FluxTransformer, que son Transformadores de Difusión (DiT) y Transformadores de Difusión Multimodal (MMDiT) que condicionan las pistas textuales y las incrustaciones de duración para generar hasta 30 segundos de audio a 44,1 kHz. Se trata del transformador de difusión (DiT) y el transformador de difusión multimodal (MMDiT), que están condicionados por pistas textuales e incrustaciones de duración para generar audio de 44,1 kHz de hasta 30 segundos de duración.TangoFlux aprende trayectorias de flujo rectificadas de las representaciones latentes del audio codificado por un autoencodificador variable (VAE).El proceso de entrenamiento de TangoFlux consta de tres fases: preentrenamiento, ajuste fino y optimización de las preferencias mediante CRPO. En concreto, la CRPO genera de forma iterativa nuevos datos sintéticos y construye pares de preferencias utilizando pérdidas DPO para la optimización de preferencias para la coincidencia de flujos.

Lista de funciones

Generación rápida de audio: Genera hasta 30 segundos de audio de alta calidad en 3,7 segundos.
Tecnología Stream Matching: Generación de audio mediante FluxTransformer y transformadores de difusión multimodal.
Optimización CRPO: Mejora la calidad de la generación de audio generando y optimizando los datos de preferencia.
Formación en varias etapasConsta de tres fases: preentrenamiento, ajuste y optimización de preferencias.
código abiertoTodos los códigos y modelos son de código abierto para facilitar la investigación.

Utilizar la ayuda

Proceso de instalación

Configuración del entorno: Asegúrese de que Python 3.7 y superior está instalado, y que las librerías de dependencia necesarias están instaladas.
almacén de clonesEjecutar en un terminal git clone https://github.com/declare-lab/TangoFlux.git Almacén de clonación.
Instalación de dependencias: Vaya al directorio del proyecto y ejecute pip install -r requirements.txt Instale todas las dependencias.

Proceso de utilización

formación de modelos::
- Acelerador de configuración: Ejecutar accelerate config y siga las instrucciones para configurar el entorno de ejecución.
- Configure la ruta del archivo de entrenamiento: en la opción configs/tangoflux_config.yaml Especifique la ruta del archivo de entrenamiento y los hiperparámetros del modelo en el campo
- Ejecute el script de entrenamiento: Utilice el siguiente comando para iniciar el entrenamiento:
```
 CUDA_VISIBLE_DEVICES=0,1 accelerate launch --config_file='configs/accelerator_config.yaml' src/train.py --checkpointing_steps="best" --save_every=5 --config='configs/tangoflux_config.yaml'
```
- Formación de RPD: Modifique el archivo de formación para incluir los campos "elegido", "rechazado", "leyenda" y "duración" y ejecute el siguiente comando:
```
 CUDA_VISIBLE_DEVICES=0,1 accelerate launch --config_file='configs/accelerator_config.yaml' src/train_dpo.py --checkpointing_steps="best" --save_every=5 --config='configs/tangoflux_config.yaml'
```

razonamiento modelizado::

Descargar modelo: Asegúrese de que ha descargado el modelo TangoFlux.
Generar audio: Utilice el siguiente código para generar audio a partir de un mensaje de texto:

 import torchaudio
from tangoflux import TangoFluxInference
from IPython.display import Audio
model = TangoFluxInference(name='declare-lab/TangoFlux')
audio = model.generate("生成音频的文本提示", duration=10)
Audio(audio, rate=44100)

Funcionamiento detallado

Generación de texto a audioIntroduzca un texto, defina la duración del audio generado (de 1 a 30 segundos) y el modelo generará el audio de alta calidad correspondiente.
sesgo hacia la optimización: Gracias a la tecnología CRPO, el modelo es capaz de generar un audio más acorde con las preferencias del usuario.
Formación en varias etapasSe compone de tres fases: preentrenamiento, ajuste fino y optimización de las preferencias para garantizar la calidad y la coherencia del audio generado por el modelo.

advertencia

requisitos de hardwareSe recomienda utilizar una GPU con mayor capacidad de cálculo (por ejemplo, A40) para obtener un rendimiento óptimo.
Preparación de datos: Garantizar la diversidad y la calidad de los datos de formación para mejorar la generación de modelos.

Con estos pasos, los usuarios pueden empezar rápidamente a utilizar TangoFlux para la conversión de texto a audio de alta calidad. Las instrucciones detalladas de instalación y uso garantizan que los usuarios puedan completar con éxito el proceso de entrenamiento e inferencia del modelo.

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

OmniParser: capturas de pantalla de la interfaz de usuario convertidas en elementos estructurados para facilitar la comprensión y manipulación de modelos de gran tamaño.

Últimos recursos sobre IA # AI Java Proyecto de código abierto

hace 1 año

054.4K

Qwen3-Next, el último modelo básico lanzado por Ali Tongyi

Últimos recursos sobre IA

hace 6 meses

031.4K

Together Open Deep Research：生成带索引的深度研究报告

Together Open Deep Research: generación de informes indexados de investigación profunda

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Generar un informe de investigación en profundidad

hace 11 meses

050.4K

LoLLMS WebUI: interfaz fácil de usar para grandes sistemas multimodales lingüísticos (despliegue de múltiples terminales con un solo clic)

Últimos recursos sobre IA # AI Aplicación de chat localizada

hace 1 año

053.6K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

TangoFlux: ¡Una rápida herramienta de conversión de texto a doblaje que genera 30 segundos de audio largo en 3 segundos!

Introducción general

Lista de funciones