Aprendizagem pessoal com IA
e orientação prática
豆包Marscode1

EchoMimic: retratos orientados por áudio para gerar vídeos falados (instalador acelerado do EchoMimicV2)

Introdução geral

O EchoMimic é um projeto de código aberto que tem como objetivo gerar animações realistas de retratos, impulsionadas pelo áudio. Desenvolvido pela divisão Terminal Technologies do Ant Group, o projeto utiliza condições de pontos de marcação editáveis para gerar vídeos de retratos dinâmicos combinando áudio e pontos de marcação facial. O EchoMimic foi amplamente comparado em vários conjuntos de dados públicos e proprietários, demonstrando seu desempenho superior em avaliações quantitativas e qualitativas.

A versão EchoMimicV2 otimiza a velocidade de inferência e adiciona ações por gestos, recomendado.


EchoMimic:音频驱动的逼真肖像动画-1

Endereço de demonstração: https://www.modelscope.cn/studios/BadToBest/BadToBest V2: https://huggingface.co/spaces/fffiloni/echomimic-v2

 

Lista de funções

  • Animação do driver de áudioGeração de animações realistas de retratos com entrada de áudio.
  • Animação orientada por pontos de marcaçãoGeração de animações estáveis de retratos usando pontos de marcadores faciais.
  • Driver de áudio + marcadorCombinação de áudio e marcadores faciais selecionados para gerar animações de retratos mais naturais.
  • Suporte a vários idiomasSuporte a entrada de áudio em chinês, inglês e outros idiomas.
  • Raciocínio eficienteModelos e pipelines otimizados melhoram significativamente a velocidade de inferência.

 

Usando a Ajuda

Processo de instalação

  1. Código de download::
    git clone https://github.com/BadToBest/EchoMimic
    cd EchoMimic
    
  2. Configuração do ambiente Python::
    • Recomenda-se usar o conda para criar um ambiente virtual:
      conda create -n echomimic python=3.8
      conda activate echomimic
      
    • Instale os pacotes de dependência:
      pip install -r requirements.txt
      
  3. Faça download e descompacte o ffmpeg-static::
    • Baixe o ffmpeg-static, descompacte-o e defina a variável de ambiente:
      export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static
      
  4. Faça o download dos pesos pré-treinamento::
    • Faça o download dos pesos de modelo pré-treinados apropriados de acordo com a descrição do projeto.

Processo de uso

  1. Execução da interface da Web::
    • Inicie a interface da Web:
      python webgui.py
      
    • Visite o servidor local para visualizar a interface e fazer upload de arquivos de áudio para geração de animação.
  2. raciocínio de linha de comando::
    • Use os seguintes comandos para a geração de animação de retrato acionada por áudio:
      python infer_audio2vid.py --audio_path /path/to/audio --output_path /path/to/output
      
    • Raciocínio em conjunto com sinais:
      python infer_audio2vid_pose.py --audio_path /path/to/audio --landmark_path /path/to/landmark --output_path /path/to/output
      
  3. Otimização de modelos::
    • O uso do modelo e do pipeline otimizados pode melhorar significativamente a velocidade de inferência, por exemplo, de 7 min/240 fps para 50 seg/240 fps em GPUs V100.

advertência

  • Certifique-se de que a versão do Python e a versão do CUDA usadas sejam compatíveis com os requisitos do projeto.
  • Se você encontrar problemas durante o uso, poderá consultar o arquivo README do projeto ou enviar um problema no GitHub para obter ajuda.

 

Instalador do Windows com um clique

首席AI分享圈Este conteúdo foi ocultado pelo autor. Digite o código de verificação para visualizar o conteúdo
Captcha:
Preste atenção ao número público do WeChat deste site, responda "CAPTCHA, um tipo de teste de desafio-resposta (computação)", obtenha o código de verificação. Pesquise no WeChat por "Chefe do Círculo de Compartilhamento de IA"ou"Aparência-AI"ou WeChat escaneando o lado direito do código QR pode prestar atenção a esse número público do WeChat do site.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " EchoMimic: retratos orientados por áudio para gerar vídeos falados (instalador acelerado do EchoMimicV2)
pt_BRPortuguês do Brasil