Hallo2 : génération audio de vidéos de portraits synchronisées avec les lèvres et l'expression (installation en un clic pour Windows)

Introduction générale

Hallo2 est un projet open source développé conjointement par l'Université de Fudan et Baidu pour générer des animations de portraits en haute résolution par le biais de la génération audio. Le projet utilise des réseaux adversoriels génératifs (GAN) avancés et des techniques d'alignement temporel pour atteindre une résolution 4K et générer jusqu'à une heure de vidéo.

Hallo3发布,通过引入交叉注意力机制实现音频条件,有效地捕捉音频信号与面部表情之间的复杂关系,实现了显著的唇同步。

需要注意:Hallo3对推理的输入数据有以下简单要求:

  • 参考图像:参考图像的长宽比必须是1:1或3:2。
  • 驱动音频:驱动音频必须是WAV格式。
  • 音频语言:音频必须是英语,因为模型的训练数据集仅包含这种语言。
  • 音频清晰度:确保音频中的人声清晰;背景音乐是可以接受的。
Hallo2:音频驱动生成口型/表情同步的肖像视频(Windows一键安装)

 

Liste des fonctions

  • 音频驱动动画生成:通过输入音频文件生成对应的人像动画。
  • Support haute résolution:支持生成4K分辨率的视频,保证画质清晰。
  • Génération de vidéos longues:可以生成长达1小时的视频内容。
  • 文本提示增强:通过语义文本标签控制生成的人像表情和动作。
  • source ouverte:提供完整的源代码和预训练模型,方便用户进行二次开发。
  • Support multiplateforme:支持在Windows、Linux等多平台上运行。

 

Utiliser l'aide

Processus d'installation

  1. exigences du système: :
    • 操作系统:Ubuntu 20.04/22.04
    • GPU:支持CUDA 11.8的显卡(如A100)
  2. Créer un environnement virtuel: :
    conda create -n hallo python=3.10
    conda activate hallo
    
  3. Installation des dépendances: :
    pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118
    pip install -r requirements.txt
    sudo apt-get install ffmpeg
    
  4. Télécharger le modèle pré-entraîné: :
    git lfs install
    git clone https://huggingface.co/fudan-generative-ai/hallo2 pretrained_models
    

Processus d'utilisation

  1. Préparation de la saisie des données: :
    • 下载并准备好所需的预训练模型。
    • 准备好源图像和驱动音频文件。
  2. Exécution de scripts d'inférence: :
    python scripts/inference.py --source_image path/to/image --driving_audio path/to/audio
    
  3. Voir les résultats générés: :
    • 生成的视频文件将保存在指定的输出目录中,可以使用任意视频播放器进行查看。

Étapes détaillées

  1. Télécharger le code: :
    git clone https://github.com/fudan-generative-vision/hallo2
    cd hallo2
    
  2. Créer et activer un environnement virtuel: :
    conda create -n hallo python=3.10
    conda activate hallo
    
  3. 安装必要的Python包: :
    pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118
    pip install -r requirements.txt
    
  4. 安装ffmpeg: :
    sudo apt-get install ffmpeg
    
  5. Télécharger le modèle pré-entraîné: :
    git lfs install
    git clone https://huggingface.co/fudan-generative-ai/hallo2 pretrained_models
    
  6. Exécution de scripts d'inférence: :
    python scripts/inference.py --source_image path/to/image --driving_audio path/to/audio
    
  7. Voir les résultats générés: :
    • 生成的视频文件将保存在指定的输出目录中,可以使用任意视频播放器进行查看。

 

Hallo2:Windows 一键安装包

https://pan.quark.cn/s/aa9fc15a786f
提取码:51XY

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...