Introdução geral
O Hallo2 é um projeto de código aberto desenvolvido em conjunto pela Universidade de Fudan e pelo Baidu para gerar animações de retratos de alta resolução por meio de geração orientada por áudio. O projeto utiliza técnicas avançadas de alinhamento temporal e Generative Adversarial Networks (GAN) para obter uma resolução de 4K e até 1 hora de geração de vídeo. O Hallo2 também oferece suporte a avisos de texto para aumentar a diversidade e a capacidade de controle do conteúdo gerado.
Lista de funções
- Geração de animação orientada por áudioGerar a animação de retrato correspondente com a entrada de um arquivo de áudio.
- Suporte a alta resoluçãoSuporte para geração de vídeos com resolução 4K para garantir uma qualidade de imagem nítida.
- Geração de vídeos longosPode gerar conteúdo de vídeo de até 1 hora de duração.
- Aprimoramento do alerta de textoControle de expressões e ações de retratos gerados por meio de rótulos de texto semânticos.
- código abertoCódigo-fonte completo e modelos pré-treinados são fornecidos para facilitar o desenvolvimento secundário.
- Suporte a várias plataformasSuporte à execução em várias plataformas, como Windows, Linux, etc.
Usando a Ajuda
Processo de instalação
- Requisitos do sistema::
- Sistema operacional: Ubuntu 20.04/22.04
- GPU: placa de vídeo compatível com CUDA 11.8 (por exemplo, A100)
- Criação de um ambiente virtual::
conda create -n hallo python=3.10 conda activate hallo
- Instalação de dependências::
pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118 pip install -r requirements.txt sudo apt-get install ffmpeg
- Download do modelo pré-treinado::
git lfs install git clone https://huggingface.co/fudan-generative-ai/hallo2 pretrained_models
Processo de uso
- Preparação para inserir dados::
- Faça o download e prepare o modelo pré-treinado necessário.
- Prepare a imagem de origem e os arquivos de áudio do driver.
- Execução de scripts de inferência::
python scripts/inference.py --source_image path/to/image --driving_audio path/to/audio
- Exibir resultados gerados::
- O arquivo de vídeo gerado será salvo no diretório de saída especificado e poderá ser visualizado em qualquer reprodutor de vídeo.
Etapas detalhadas
- Código de download::
git clone https://github.com/fudan-generative-vision/hallo2 cd hallo2
- Criar e ativar um ambiente virtual::
conda create -n hallo python=3.10 conda activate hallo
- Instale os pacotes Python necessários::
pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118 pip install -r requirements.txt
- Instalar o ffmpeg::
sudo apt-get install ffmpeg
- Download do modelo pré-treinado::
git lfs install git clone https://huggingface.co/fudan-generative-ai/hallo2 pretrained_models
- Execução de scripts de inferência::
python scripts/inference.py --source_image path/to/image --driving_audio path/to/audio
- Exibir resultados gerados::
- O arquivo de vídeo gerado será salvo no diretório de saída especificado e poderá ser visualizado em qualquer reprodutor de vídeo.