综合介绍
Hallo2 是由复旦大学和百度联合开发的一个开源项目,旨在通过音频驱动生成高分辨率的人像动画。该项目利用先进的生成对抗网络(GAN)和时间对齐技术,实现了4K分辨率和长达1小时的视频生成。Hallo2 还支持通过文本提示增强生成内容的多样性和可控性。
Hallo3发布,通过引入交叉注意力机制实现音频条件,有效地捕捉音频信号与面部表情之间的复杂关系,实现了显著的唇同步。
需要注意:Hallo3对推理的输入数据有以下简单要求:
参考图像:参考图像的长宽比必须是1:1或3:2。 驱动音频:驱动音频必须是WAV格式。 音频语言:音频必须是英语,因为模型的训练数据集仅包含这种语言。 音频清晰度:确保音频中的人声清晰;背景音乐是可以接受的。
功能列表
- 音频驱动动画生成:通过输入音频文件生成对应的人像动画。
- 高分辨率支持:支持生成4K分辨率的视频,保证画质清晰。
- 长视频生成:可以生成长达1小时的视频内容。
- 文本提示增强:通过语义文本标签控制生成的人像表情和动作。
- 开源代码:提供完整的源代码和预训练模型,方便用户进行二次开发。
- 多平台支持:支持在Windows、Linux等多平台上运行。
使用帮助
安装流程
- 系统要求:
- 操作系统:Ubuntu 20.04/22.04
- GPU:支持CUDA 11.8的显卡(如A100)
- 创建虚拟环境:
conda create -n hallo python=3.10 conda activate hallo
- 安装依赖:
pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118 pip install -r requirements.txt sudo apt-get install ffmpeg
- 下载预训练模型:
git lfs install git clone https://huggingface.co/fudan-generative-ai/hallo2 pretrained_models
使用流程
- 准备输入数据:
- 下载并准备好所需的预训练模型。
- 准备好源图像和驱动音频文件。
- 运行推理脚本:
python scripts/inference.py --source_image path/to/image --driving_audio path/to/audio
- 查看生成结果:
- 生成的视频文件将保存在指定的输出目录中,可以使用任意视频播放器进行查看。
详细操作步骤
- 下载代码:
git clone https://github.com/fudan-generative-vision/hallo2 cd hallo2
- 创建并激活虚拟环境:
conda create -n hallo python=3.10 conda activate hallo
- 安装必要的Python包:
pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118 pip install -r requirements.txt
- 安装ffmpeg:
sudo apt-get install ffmpeg
- 下载预训练模型:
git lfs install git clone https://huggingface.co/fudan-generative-ai/hallo2 pretrained_models
- 运行推理脚本:
python scripts/inference.py --source_image path/to/image --driving_audio path/to/audio
- 查看生成结果:
- 生成的视频文件将保存在指定的输出目录中,可以使用任意视频播放器进行查看。