EchoMimic: retratos orientados por áudio para gerar vídeos falados (instalador acelerado do EchoMimicV2)

Recursos mais recentes de IAAtualizado há 8 meses Círculo de compartilhamento de IA

20.1K 00

Introdução geral

O EchoMimic é um projeto de código aberto que tem como objetivo gerar animações realistas de retratos, impulsionadas pelo áudio. Desenvolvido pela divisão Terminal Technologies do Ant Group, o projeto utiliza condições de pontos de marcação editáveis para gerar vídeos de retratos dinâmicos combinando áudio e pontos de marcação facial. O EchoMimic foi amplamente comparado em vários conjuntos de dados públicos e proprietários, demonstrando seu desempenho superior em avaliações quantitativas e qualitativas.

A versão EchoMimicV2 otimiza a velocidade de inferência e adiciona ações por gestos, recomendado.

EchoMimic：音频驱动人像照片生成说话视频（EchoMimicV2加速版安装包）

Endereço de demonstração: https://www.modelscope.cn/studios/BadToBest/BadToBest V2: https://huggingface.co/spaces/fffiloni/echomimic-v2

Lista de funções

Animação do driver de áudioGeração de animações realistas de retratos com entrada de áudio.
Animação orientada por pontos de marcaçãoGeração de animações estáveis de retratos usando pontos de marcadores faciais.
Driver de áudio + marcadorCombinação de áudio e marcadores faciais selecionados para gerar animações de retratos mais naturais.
Suporte a vários idiomasSuporte a entrada de áudio em chinês, inglês e outros idiomas.
Raciocínio eficienteModelos e pipelines otimizados melhoram significativamente a velocidade de inferência.

Usando a Ajuda

Processo de instalação

Código de download::

git clone https://github.com/BadToBest/EchoMimic
cd EchoMimic

Configuração do ambiente Python::
- Recomenda-se usar o conda para criar um ambiente virtual:
```
conda create -n echomimic python=3.8
conda activate echomimic
```
- Instale os pacotes de dependência:
```
pip install -r requirements.txt
```
Faça download e descompacte o ffmpeg-static::
- Baixe o ffmpeg-static, descompacte-o e defina a variável de ambiente:
```
export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static
```
Faça o download dos pesos pré-treinamento::
- Faça o download dos pesos de modelo pré-treinados apropriados de acordo com a descrição do projeto.

Processo de uso

Execução da interface da Web::
- Inicie a interface da Web:
```
python webgui.py
```
- Visite o servidor local para visualizar a interface e fazer upload de arquivos de áudio para geração de animação.

raciocínio de linha de comando::

Use os seguintes comandos para a geração de animação de retrato acionada por áudio:
```
python infer_audio2vid.py --audio_path /path/to/audio --output_path /path/to/output
```

Raciocínio em conjunto com sinais:

python infer_audio2vid_pose.py --audio_path /path/to/audio --landmark_path /path/to/landmark --output_path /path/to/output

Otimização de modelos::
- O uso do modelo e do pipeline otimizados pode melhorar significativamente a velocidade de inferência, por exemplo, de 7 min/240 fps para 50 seg/240 fps em GPUs V100.

advertência

Certifique-se de que a versão do Python e a versão do CUDA usadas sejam compatíveis com os requisitos do projeto.
Se você encontrar problemas durante o uso, poderá consultar o arquivo README do projeto ou enviar um problema no GitHub para obter ajuda.

Instalador do Windows com um clique

Link: https://pan.quark.cn/s/cc973b142d41
Código do extrato: 5T57

Download do EchoMimicV2 Accelerated

Quark: https://pan.quark.cn/s/12acd147a758

Baidu: https://pan.baidu.com/s/1z8tiuGtN29luQ7Cg2zHJ8Q?pwd=9e8x

Direitos autorais do artigo Círculo de compartilhamento de IA A todos, favor não reproduzir sem permissão.

Fairies - Agente de IA de uso geral com recursos avançados de multitarefa

Recursos mais recentes de IA

4 meses atrás

017K

rStar2-Agent - modelo de inferência de IA eficiente e de código aberto da Microsoft

Recursos mais recentes de IA

2 semanas atrás

010K

J1 Assistant: Faça o download do J1 Assistant para experimentar uma nova forma interativa de assistente de IA por voz

Recursos mais recentes de IA # Assistente de eficiência de vida de IA

9 meses atrás

019.3K

Airweave: permitindo que os aplicativos integrem rapidamente bases de conhecimento para pesquisas inteligentes

Recursos mais recentes de IA # Projeto de código aberto AI Java # Recuperação de conhecimento e estrutura RAG

8 meses atrás

017.7K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

EchoMimic: retratos orientados por áudio para gerar vídeos falados (instalador acelerado do EchoMimicV2)

Introdução geral

Lista de funções