MMAudio: generación de efectos sonoros sincronizados y bandas sonoras para secuencias de vídeo, herramienta de coformación multimodal vídeo-audio.

Últimos recursos sobre IAActualizado hace 1 año Círculo de intercambio de inteligencia artificial

66.5K 00

Introducción general

MMAudio es un proyecto de código abierto cuyo objetivo es generar audio sincronizado de alta calidad mediante el entrenamiento multimodal conjunto. Desarrollado por Ho Kei Cheng et al. en la Universidad China de Hong Kong, su principal función es generar audio sincronizado a partir de vídeo y/o texto. La principal innovación de MMAudio radica en su método de entrenamiento conjunto multimodal, capaz de entrenar una amplia gama de conjuntos de datos de audio-vídeo y audio-texto. Además, el módulo de sincronización puede alinear el audio generado con los fotogramas de vídeo. El proyecto aún está en construcción, pero la funcionalidad de inferencia de caso único ya funciona y se añadirá código de entrenamiento. En el sitio web de openart se pueden buscar flujos de trabajo relacionados.

Lista de funciones

Generación de vídeo a audio: Genera audio sincronizado en función del vídeo entrante.
Generación de texto a audio: Genera audio basado en el texto de entrada.
Formación multimodal conjuntaFormación conjunta en conjuntos de datos de audio-vídeo y audio-texto.
módulo de sincronización: Alinea el audio generado con el fotograma de vídeo.
código abiertoSe proporciona el código fuente abierto completo para facilitar el desarrollo secundario por parte de los usuarios.
Modelo de preentrenamientoEl programa ofrece una amplia gama de modelos preentrenados que el usuario puede utilizar directamente.
Guión de demostraciónProporcionar una variedad de scripts de demostración para facilitar a los usuarios empezar a trabajar rápidamente.

Utilizar la ayuda

Proceso de instalación

Preparación medioambientalSe recomienda el entorno miniforge. Asegúrese de instalar Python 3.9+ y PyTorch 2.5.1+ y los correspondientes torchvision/torchaudio.
Instalación de dependenciasEjecute el siguiente comando para instalar las dependencias necesarias:

   pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 --upgrade

almacén de clonesClone el repositorio MMAudio usando el siguiente comando:

   git clone https://github.com/hkchengrex/MMAudio.git

Instalación de MMAudioVaya al directorio MMAudio y ejecute el comando install:

   cd MMAudio
pip install -e .

Utilización

Ejecutar el script de demostraciónMMAudio proporciona varios scripts de demostración que permiten a los usuarios ejecutar el modelo por defecto large_44k con los siguientes comandos:

   python demo.py

Entrada de vídeo o textoIntroduzca un archivo de vídeo o un texto y MMAudio generará el audio sincronizado correspondiente.
Ver resultadosEl audio generado se sincronizará con los fotogramas de vídeo de entrada y podrá ser visualizado y utilizado directamente por el usuario.

Flujo detallado de funcionamiento de las funciones

Generación de vídeo a audio: Utilice el archivo de vídeo como entrada, ejecute el script de demostración y MMAudio generará automáticamente el audio sincronizado con el vídeo.
Generación de texto a audio: Toma el texto como entrada, ejecuta el script correspondiente, y MMAudio generará el audio correspondiente.
Formación multimodal conjuntaLos usuarios pueden realizar un co-entrenamiento multimodal en sus propios conjuntos de datos basándose en el código de entrenamiento proporcionado para mejorar la generación de modelos.
módulo de sincronización: El módulo alinea automáticamente el audio generado con el fotograma de vídeo para garantizar la sincronización de audio y vídeo.

advertencia

Requisitos medioambientales: Actualmente sólo se ha probado en sistemas Ubuntu, otros sistemas pueden requerir una configuración adicional.
versión de dependenciaAsegúrese de que las versiones de las dependencias instaladas coinciden con los requisitos del proyecto para evitar problemas de compatibilidad.
Modelo de preentrenamientoModelos preentrenados: Los modelos preentrenados se descargarán automáticamente al ejecutar el script de demostración, o los usuarios pueden descargarlos manualmente y colocarlos en un directorio especificado.

Con estos pasos, los usuarios pueden instalar y utilizar rápidamente MMAudio para generar audio sincronizado de alta calidad. La ayuda de uso detallada y los scripts de demostración ayudarán a los usuarios a comprender y manejar mejor la herramienta.