Aprendizagem pessoal com IA
e orientação prática
讯飞绘镜

Hallo2: geração orientada por áudio de vídeos de retratos sincronizados com os lábios e com a expressão (instalação com um clique para Windows)

Introdução geral

O Hallo2 é um projeto de código aberto desenvolvido em conjunto pela Universidade de Fudan e pelo Baidu para gerar animações de retratos de alta resolução por meio de geração orientada por áudio. O projeto utiliza técnicas avançadas de alinhamento temporal e Generative Adversarial Networks (GAN) para obter uma resolução de 4K e até 1 hora de geração de vídeo. O Hallo2 também oferece suporte a avisos de texto para aumentar a diversidade e a capacidade de controle do conteúdo gerado.

O Hallo3 foi lançado, permitindo o condicionamento de áudio por meio da introdução de um mecanismo de atenção cruzada que capta com eficácia a complexa relação entre os sinais de áudio e as expressões faciais, alcançando uma sincronização labial notável.

Observe que o Hallo3 tem os seguintes requisitos simples para os dados de entrada para inferência:

  • Imagem de referência: a imagem de referência deve ter uma relação de aspecto de 1:1 ou 3:2.
  • Áudio do driver: o áudio do driver deve estar no formato WAV.
  • Idioma do áudio: o áudio deve estar em inglês, pois o conjunto de dados de treinamento do modelo contém apenas esse idioma.
  • Clareza do áudio: certifique-se de que os vocais estejam claros no áudio; música de fundo é aceitável.

Hallo2:音频驱动生成长持续时间和高分辨率的肖像动画视频-1


 

Lista de funções

  • Geração de animação orientada por áudioGerar a animação de retrato correspondente com a entrada de um arquivo de áudio.
  • Suporte a alta resoluçãoSuporte para geração de vídeos com resolução 4K para garantir uma qualidade de imagem nítida.
  • Geração de vídeos longosPode gerar conteúdo de vídeo de até 1 hora de duração.
  • Aprimoramento do alerta de textoControle de expressões e ações de retratos gerados por meio de rótulos de texto semânticos.
  • código abertoCódigo-fonte completo e modelos pré-treinados são fornecidos para facilitar o desenvolvimento secundário.
  • Suporte a várias plataformasSuporte à execução em várias plataformas, como Windows, Linux, etc.

 

Usando a Ajuda

Processo de instalação

  1. Requisitos do sistema::
    • Sistema operacional: Ubuntu 20.04/22.04
    • GPU: placa de vídeo compatível com CUDA 11.8 (por exemplo, A100)
  2. Criação de um ambiente virtual::
    conda create -n hallo python=3.10
    conda activate hallo
    
  3. Instalação de dependências::
    pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118
    pip install -r requirements.txt
    sudo apt-get install ffmpeg
    
  4. Download do modelo pré-treinado::
    git lfs install
    git clone https://huggingface.co/fudan-generative-ai/hallo2 pretrained_models
    

Processo de uso

  1. Preparação para inserir dados::
    • Faça o download e prepare o modelo pré-treinado necessário.
    • Prepare a imagem de origem e os arquivos de áudio do driver.
  2. Execução de scripts de inferência::
    python scripts/inference.py --source_image path/to/image --driving_audio path/to/audio
    
  3. Exibir resultados gerados::
    • O arquivo de vídeo gerado será salvo no diretório de saída especificado e poderá ser visualizado em qualquer reprodutor de vídeo.

Etapas detalhadas

  1. Código de download::
    git clone https://github.com/fudan-generative-vision/hallo2
    cd hallo2
    
  2. Criar e ativar um ambiente virtual::
    conda create -n hallo python=3.10
    conda activate hallo
    
  3. Instale os pacotes Python necessários::
    pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118
    pip install -r requirements.txt
    
  4. Instalar o ffmpeg::
    sudo apt-get install ffmpeg
    
  5. Download do modelo pré-treinado::
    git lfs install
    git clone https://huggingface.co/fudan-generative-ai/hallo2 pretrained_models
    
  6. Execução de scripts de inferência::
    python scripts/inference.py --source_image path/to/image --driving_audio path/to/audio
    
  7. Exibir resultados gerados::
    • O arquivo de vídeo gerado será salvo no diretório de saída especificado e poderá ser visualizado em qualquer reprodutor de vídeo.

 

Hallo2: instalador do Windows com um clique

首席AI分享圈Este conteúdo foi ocultado pelo autor. Digite o código de verificação para visualizar o conteúdo
Captcha:
Preste atenção ao número público do WeChat deste site, responda "CAPTCHA, um tipo de teste de desafio-resposta (computação)", obtenha o código de verificação. Pesquise no WeChat por "Chefe do Círculo de Compartilhamento de IA"ou"Aparência-AI"ou WeChat escaneando o lado direito do código QR pode prestar atenção a esse número público do WeChat do site.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Hallo2: geração orientada por áudio de vídeos de retratos sincronizados com os lábios e com a expressão (instalação com um clique para Windows)
pt_BRPortuguês do Brasil