Introdução geral
O Wav2Lip é uma ferramenta de geração de sincronização labial de alta precisão e de código aberto, projetada para sincronizar com precisão áudio arbitrário com sincronização labial em vídeo. Lançada na ACM Multimedia 2020 por Rudrabha Mukhopadhyay et al, a ferramenta utiliza técnicas avançadas de IA para permitir a sincronização labial de alta qualidade em diversos ambientes. Adequado para pesquisa, uso acadêmico e pessoal, o Wav2Lip é fornecido com código de treinamento completo, código de inferência e modelos pré-treinados.
Wav2Lip em Sincronização O Labs oferece hospedagem gratuita.
Notas de colaboração:
https://colab.research.google.com/drive/1IjFW1cLevs6Ouyu4Yht4mnR4yeuMqO7Y#scrollTo=Qgo-oaI3JU2u
https://colab.research.google.com/drive/1tZpDWXz49W6wDcTprANRGLo2D_EbD5J8?usp=sharing
Lista de funções
- Sincronização labial de alta precisão: sincronize com precisão qualquer áudio com a sincronização labial no vídeo.
- Suporte a vários idiomas: funciona com uma variedade de idiomas e sons, incluindo faces CGI e sons sintetizados.
- Código aberto e gratuito: o código é totalmente público, e os usuários podem usá-lo e modificá-lo livremente.
- Demonstração interativa: fornece uma demonstração on-line em que os usuários podem carregar arquivos de vídeo e áudio para experimentar.
- Modelos de pré-treinamento: forneça uma variedade de modelos de pré-treinamento, para que os usuários possam usar diretamente ou no treinamento secundário.
- Código de treinamento completo: inclui o código de treinamento para o Discriminador de sincronização da boca e o modelo Wav2Lip.
Usando a Ajuda
Processo de instalação
- Armazém de clonagem :
cópia bash
git clonehttps://github.com/Rudrabha/Wav2Lip
- Instalar dependências :
cópia bash
pip install -r requirements.txt
- Download do modelo pré-treinado: faça o download do modelo pré-treinado para o diretório especificado, por exemplo
face_detection/detection/sfd/s3fd.pth
. - Execute o código de inferência:
cópia bash
python inference.py --caminho_do_ponto_de_verificação <ckpt> --rosto <video.mp4> --áudio <e-áudio-fonte>
Processo de uso
- Acesso ao servidor local: abrir no navegador
http://localhost:3000
. - Dica de entrada: Digite a descrição da imagem que você deseja gerar na caixa de entrada e a imagem será gerada em tempo real.
- Visualização e download de imagens: As imagens geradas são exibidas na página e um botão de download será adicionado em uma versão futura.
- Use o Modo de consistência : Ative o Modo de consistência para gerar imagens consistentes, mantendo o fundo ou os objetos principais consistentes.
- View Image History (Exibir histórico de imagens): Use o recurso Image History (Histórico de imagens) para exibir todas as imagens geradas e navegar entre elas.
Recursos avançados
- Dicas aprimoradas: otimize os resultados gerados com opções de dicas aprimoradas.
- Select Model : Selecione diferentes modelos de IA de acordo com suas necessidades.
- Desenvolvimento personalizado: como o Wav2Lip é de código aberto, os usuários podem fazer o desenvolvimento secundário de acordo com suas próprias necessidades.