EchoMimic: fotos de retratos com áudio geram vídeos falantes (instalador acelerado do EchoMimicV2)

🚀 O DeepSeek está lento? Este site é gratuito! DeepSeek-R1 de sangue puroO sistema é suave e pode ser conectado em rede! Uso ilimitado!

Introdução geral

O EchoMimic é um projeto de código aberto que tem como objetivo gerar animações realistas de retratos, impulsionadas pelo áudio. Desenvolvido pela divisão Terminal Technologies do Ant Group, o projeto utiliza condições de pontos de marcação editáveis para gerar vídeos de retratos dinâmicos combinando áudio e pontos de marcação facial. O EchoMimic foi amplamente comparado em vários conjuntos de dados públicos e proprietários, demonstrando seu desempenho superior em avaliações quantitativas e qualitativas.

A versão EchoMimicV2 otimiza a velocidade de inferência e adiciona ações por gestos, recomendado.

EchoMimic: Animação de retrato realista orientada por áudio-1

Endereço de demonstração: https://www.modelscope.cn/studios/BadToBest/BadToBest V2: https://huggingface.co/spaces/fffiloni/echomimic-v2

Lista de funções

Animação do driver de áudioGeração de animações realistas de retratos com entrada de áudio.
Animação orientada por pontos de marcaçãoGeração de animações estáveis de retratos usando pontos de marcadores faciais.
Driver de áudio + marcadorCombinação de áudio e marcadores faciais selecionados para gerar animações de retratos mais naturais.
Suporte a vários idiomasSuporte a entrada de áudio em chinês, inglês e outros idiomas.
Raciocínio eficienteModelos e pipelines otimizados melhoram significativamente a velocidade de inferência.

Usando a Ajuda

Processo de instalação

Código de download::

git clone https://github.com/BadToBest/EchoMimic
cd EchoMimic

Configuração do ambiente Python::
- Recomenda-se usar o conda para criar um ambiente virtual:
```
conda create -n echomimic python=3.8
conda activate echomimic
```
- Instale os pacotes de dependência:
```
pip install -r requirements.txt
```
Faça download e descompacte o ffmpeg-static::
- Baixe o ffmpeg-static, descompacte-o e defina a variável de ambiente:
```
export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static
```
Faça o download dos pesos pré-treinamento::
- Faça o download dos pesos de modelo pré-treinados apropriados de acordo com a descrição do projeto.

Processo de uso

Execução da interface da Web::
- Inicie a interface da Web:
```
python webgui.py
```
- Visite o servidor local para visualizar a interface e fazer upload de arquivos de áudio para geração de animação.

raciocínio de linha de comando::

Use os seguintes comandos para a geração de animação de retrato acionada por áudio:
```
python infer_audio2vid.py --audio_path /path/to/audio --output_path /path/to/output
```

Raciocínio em conjunto com sinais:

python infer_audio2vid_pose.py --audio_path /path/to/audio --landmark_path /path/to/landmark --output_path /path/to/output

Otimização de modelos::
- O uso do modelo e do pipeline otimizados pode melhorar significativamente a velocidade de inferência, por exemplo, de 7 min/240 fps para 50 seg/240 fps em GPUs V100.

advertência

Certifique-se de que a versão do Python e a versão do CUDA usadas sejam compatíveis com os requisitos do projeto.
Se você encontrar problemas durante o uso, poderá consultar o arquivo README do projeto ou enviar um problema no GitHub para obter ajuda.

Instalador do Windows com um clique

Chefe do Círculo de Compartilhamento de IA

Este conteúdo foi ocultado pelo autor. Digite o código de verificação para visualizar o conteúdo

Preste atenção ao número público do WeChat deste site, responda "CAPTCHA, um tipo de teste de desafio-resposta (computação)", obtenha o código de verificação. Pesquise no WeChat por "Chefe do Círculo de Compartilhamento de IA"ou"Aparência-AI"ou WeChat escaneando o lado direito do código QR pode prestar atenção a esse número público do WeChat do site.

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco

EchoMimic: retratos orientados por áudio para gerar vídeos falados (instalador acelerado do EchoMimicV2)

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

Processo de uso

advertência

Instalador do Windows com um clique

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Gerador de imagens FLUX.1 (suporta entrada em chinês)

Novos lançamentos

Artigos populares

Hot Tags.

Chefe do Círculo de Compartilhamento de IA