Aprendizagem pessoal com IA
e orientação prática

MMAudio: geração de efeitos sonoros e trilhas sonoras sincronizadas para filmagens de vídeo, ferramenta de treinamento conjunto multimodal de vídeo para áudio

Introdução geral

O MMAudio é um projeto de código aberto que visa a gerar áudio sincronizado de alta qualidade por meio de treinamento multimodal conjunto. Desenvolvido por Ho Kei Cheng et al. na Universidade Chinesa de Hong Kong, a principal função do projeto é gerar áudio sincronizado com base em entradas de vídeo e/ou texto. A principal inovação do MMAudio está em sua abordagem de treinamento conjunto multimodal, que é capaz de treinar em uma ampla variedade de conjuntos de dados de áudio-vídeo e áudio-texto. Além disso, o módulo de sincronização pode alinhar o áudio gerado com os quadros de vídeo. O projeto ainda está em construção, mas a funcionalidade de inferência de caso único já está funcionando e o código de treinamento será adicionado.

MMAudio: uma ferramenta de treinamento conjunto multimodal para gerar vídeo de alta qualidade para áudio-1


 

Lista de funções

  • Geração de vídeo para áudioGera áudio sincronizado com base no vídeo de entrada.
  • Geração de texto para áudioGeração de áudio com base no texto de entrada.
  • Treinamento multimodal conjuntoTreinamento conjunto em conjuntos de dados de áudio-vídeo e áudio-texto.
  • módulo de sincronizaçãoAlinha o áudio gerado com o quadro de vídeo.
  • código abertoCódigo-fonte aberto completo: O código-fonte aberto completo é fornecido para facilitar o desenvolvimento secundário pelos usuários.
  • Modelo de pré-treinamentoModelos pré-treinados: Uma ampla gama de modelos pré-treinados é fornecida, podendo ser usada diretamente pelo usuário.
  • Script de demonstraçãoForneça uma variedade de scripts de demonstração para facilitar o início rápido dos usuários.

 

Usando a Ajuda

Processo de instalação

  1. Preparação ambientalRecomendamos o ambiente miniforge. Certifique-se de instalar o Python 3.9+ e o PyTorch 2.5.1+ e o torchvision/torchaudio correspondente.
  2. Instalação de dependênciasExecute o seguinte comando para instalar as dependências necessárias:
   pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 --upgrade
  1. armazém de clonesClone o repositório MMAudio usando o seguinte comando:
   git clone https://github.com/hkchengrex/MMAudio.git
  1. Instalação do MMAudio: Vá para o diretório do MMAudio e execute o comando de instalação:
   cd MMAudio
pip install -e .

Uso

  1. Executar o script de demonstraçãoO MMAudio fornece vários scripts de demonstração que permitem aos usuários executar o modelo padrão large_44k com os seguintes comandos:
   python demo.py
  1. Entrada de vídeo ou textoInsira um arquivo de vídeo ou texto conforme necessário e o MMAudio gerará o áudio sincronizado correspondente.
  2. Exibir resultadosO áudio gerado será sincronizado com os quadros de vídeo de entrada e poderá ser visualizado e usado diretamente pelo usuário.

Fluxo de operação detalhado da função

  • Geração de vídeo para áudioUse o arquivo de vídeo como entrada, execute o script de demonstração e o MMAudio gerará automaticamente o áudio sincronizado com o vídeo.
  • Geração de texto para áudioMMAudio: Pegue o texto como entrada, execute o script correspondente e o MMAudio gerará o áudio correspondente.
  • Treinamento multimodal conjuntoOs usuários podem realizar o co-treinamento multimodal em seus próprios conjuntos de dados com base no código de treinamento fornecido para aprimorar a geração de modelos.
  • módulo de sincronizaçãoO módulo alinha automaticamente o áudio gerado com o quadro de vídeo para garantir a sincronização de áudio e vídeo.

advertência

  • Requisitos ambientaisAtualmente testado apenas em sistemas Ubuntu, outros sistemas podem exigir configuração adicional.
  • versão de dependênciaVerifique se as versões das dependências instaladas correspondem aos requisitos do projeto para evitar problemas de compatibilidade.
  • Modelo de pré-treinamentoModelos pré-treinados: os modelos pré-treinados serão baixados automaticamente ao executar o script de demonstração, ou os usuários podem baixá-los manualmente e colocá-los em um diretório especificado.

Com essas etapas, os usuários podem instalar e usar rapidamente o MMAudio para gerar áudio sincronizado de alta qualidade. A ajuda detalhada sobre o uso e os scripts de demonstração ajudarão os usuários a entender e operar melhor a ferramenta.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " MMAudio: geração de efeitos sonoros e trilhas sonoras sincronizadas para filmagens de vídeo, ferramenta de treinamento conjunto multimodal de vídeo para áudio

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil