Introdução geral
O MMAudio é um projeto de código aberto que visa a gerar áudio sincronizado de alta qualidade por meio de treinamento multimodal conjunto. Desenvolvido por Ho Kei Cheng et al. na Universidade Chinesa de Hong Kong, a principal função do projeto é gerar áudio sincronizado com base em entradas de vídeo e/ou texto. A principal inovação do MMAudio está em sua abordagem de treinamento conjunto multimodal, que é capaz de treinar em uma ampla variedade de conjuntos de dados de áudio-vídeo e áudio-texto. Além disso, o módulo de sincronização pode alinhar o áudio gerado com os quadros de vídeo. O projeto ainda está em construção, mas a funcionalidade de inferência de caso único já está funcionando e o código de treinamento será adicionado.
Lista de funções
- Geração de vídeo para áudioGera áudio sincronizado com base no vídeo de entrada.
- Geração de texto para áudioGeração de áudio com base no texto de entrada.
- Treinamento multimodal conjuntoTreinamento conjunto em conjuntos de dados de áudio-vídeo e áudio-texto.
- módulo de sincronizaçãoAlinha o áudio gerado com o quadro de vídeo.
- código abertoCódigo-fonte aberto completo: O código-fonte aberto completo é fornecido para facilitar o desenvolvimento secundário pelos usuários.
- Modelo de pré-treinamentoModelos pré-treinados: Uma ampla gama de modelos pré-treinados é fornecida, podendo ser usada diretamente pelo usuário.
- Script de demonstraçãoForneça uma variedade de scripts de demonstração para facilitar o início rápido dos usuários.
Usando a Ajuda
Processo de instalação
- Preparação ambientalRecomendamos o ambiente miniforge. Certifique-se de instalar o Python 3.9+ e o PyTorch 2.5.1+ e o torchvision/torchaudio correspondente.
- Instalação de dependênciasExecute o seguinte comando para instalar as dependências necessárias:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 --upgrade
- armazém de clonesClone o repositório MMAudio usando o seguinte comando:
git clone https://github.com/hkchengrex/MMAudio.git
- Instalação do MMAudio: Vá para o diretório do MMAudio e execute o comando de instalação:
cd MMAudio
pip install -e .
Uso
- Executar o script de demonstraçãoO MMAudio fornece vários scripts de demonstração que permitem aos usuários executar o modelo padrão large_44k com os seguintes comandos:
python demo.py
- Entrada de vídeo ou textoInsira um arquivo de vídeo ou texto conforme necessário e o MMAudio gerará o áudio sincronizado correspondente.
- Exibir resultadosO áudio gerado será sincronizado com os quadros de vídeo de entrada e poderá ser visualizado e usado diretamente pelo usuário.
Fluxo de operação detalhado da função
- Geração de vídeo para áudioUse o arquivo de vídeo como entrada, execute o script de demonstração e o MMAudio gerará automaticamente o áudio sincronizado com o vídeo.
- Geração de texto para áudioMMAudio: Pegue o texto como entrada, execute o script correspondente e o MMAudio gerará o áudio correspondente.
- Treinamento multimodal conjuntoOs usuários podem realizar o co-treinamento multimodal em seus próprios conjuntos de dados com base no código de treinamento fornecido para aprimorar a geração de modelos.
- módulo de sincronizaçãoO módulo alinha automaticamente o áudio gerado com o quadro de vídeo para garantir a sincronização de áudio e vídeo.
advertência
- Requisitos ambientaisAtualmente testado apenas em sistemas Ubuntu, outros sistemas podem exigir configuração adicional.
- versão de dependênciaVerifique se as versões das dependências instaladas correspondem aos requisitos do projeto para evitar problemas de compatibilidade.
- Modelo de pré-treinamentoModelos pré-treinados: os modelos pré-treinados serão baixados automaticamente ao executar o script de demonstração, ou os usuários podem baixá-los manualmente e colocá-los em um diretório especificado.
Com essas etapas, os usuários podem instalar e usar rapidamente o MMAudio para gerar áudio sincronizado de alta qualidade. A ajuda detalhada sobre o uso e os scripts de demonstração ajudarão os usuários a entender e operar melhor a ferramenta.