AI个人学习
和实操指南

Hallo2:音频驱动生成口型/表情同步的肖像视频(Windows一键安装)

综合介绍

Hallo2 是由复旦大学和百度联合开发的一个开源项目,旨在通过音频驱动生成高分辨率的人像动画。该项目利用先进的生成对抗网络(GAN)和时间对齐技术,实现了4K分辨率和长达1小时的视频生成。Hallo2 还支持通过文本提示增强生成内容的多样性和可控性。

Hallo3发布,通过引入交叉注意力机制实现音频条件,有效地捕捉音频信号与面部表情之间的复杂关系,实现了显著的唇同步。

需要注意:Hallo3对推理的输入数据有以下简单要求:

  • 参考图像:参考图像的长宽比必须是1:1或3:2。
  • 驱动音频:驱动音频必须是WAV格式。
  • 音频语言:音频必须是英语,因为模型的训练数据集仅包含这种语言。
  • 音频清晰度:确保音频中的人声清晰;背景音乐是可以接受的。

Hallo2:音频驱动生成长持续时间和高分辨率的肖像动画视频-1


 

功能列表

  • 音频驱动动画生成:通过输入音频文件生成对应的人像动画。
  • 高分辨率支持:支持生成4K分辨率的视频,保证画质清晰。
  • 长视频生成:可以生成长达1小时的视频内容。
  • 文本提示增强:通过语义文本标签控制生成的人像表情和动作。
  • 开源代码:提供完整的源代码和预训练模型,方便用户进行二次开发。
  • 多平台支持:支持在Windows、Linux等多平台上运行。

 

使用帮助

安装流程

  1. 系统要求
    • 操作系统:Ubuntu 20.04/22.04
    • GPU:支持CUDA 11.8的显卡(如A100)
  2. 创建虚拟环境
    conda create -n hallo python=3.10
    conda activate hallo
    
  3. 安装依赖
    pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118
    pip install -r requirements.txt
    sudo apt-get install ffmpeg
    
  4. 下载预训练模型
    git lfs install
    git clone https://huggingface.co/fudan-generative-ai/hallo2 pretrained_models
    

使用流程

  1. 准备输入数据
    • 下载并准备好所需的预训练模型。
    • 准备好源图像和驱动音频文件。
  2. 运行推理脚本
    python scripts/inference.py --source_image path/to/image --driving_audio path/to/audio
    
  3. 查看生成结果
    • 生成的视频文件将保存在指定的输出目录中,可以使用任意视频播放器进行查看。

详细操作步骤

  1. 下载代码
    git clone https://github.com/fudan-generative-vision/hallo2
    cd hallo2
    
  2. 创建并激活虚拟环境
    conda create -n hallo python=3.10
    conda activate hallo
    
  3. 安装必要的Python包
    pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118
    pip install -r requirements.txt
    
  4. 安装ffmpeg
    sudo apt-get install ffmpeg
    
  5. 下载预训练模型
    git lfs install
    git clone https://huggingface.co/fudan-generative-ai/hallo2 pretrained_models
    
  6. 运行推理脚本
    python scripts/inference.py --source_image path/to/image --driving_audio path/to/audio
    
  7. 查看生成结果
    • 生成的视频文件将保存在指定的输出目录中,可以使用任意视频播放器进行查看。

 

Hallo2:Windows 一键安装包

首席AI分享圈此处内容已经被作者隐藏,请输入验证码查看内容
验证码:
请关注本站微信公众号,回复“验证码”,获取验证码。在微信里搜索“首席AI分享圈”或者“Looks-AI”或者微信扫描右侧二维码都可以关注本站微信公众号。

未经允许不得转载:首席AI分享圈 » Hallo2:音频驱动生成口型/表情同步的肖像视频(Windows一键安装)

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文