综合介绍
Hallo2 是由复旦大学和百度联合开发的一个开源项目,旨在通过音频驱动生成高分辨率的人像动画。该项目利用先进的生成对抗网络(GAN)和时间对齐技术,实现了4K分辨率和长达1小时的视频生成。Hallo2 还支持通过文本提示增强生成内容的多样性和可控性。
功能列表
- 音频驱动动画生成:通过输入音频文件生成对应的人像动画。
- 高分辨率支持:支持生成4K分辨率的视频,保证画质清晰。
- 长视频生成:可以生成长达1小时的视频内容。
- 文本提示增强:通过语义文本标签控制生成的人像表情和动作。
- 开源代码:提供完整的源代码和预训练模型,方便用户进行二次开发。
- 多平台支持:支持在Windows、Linux等多平台上运行。
使用帮助
安装流程
- 系统要求:
- 操作系统:Ubuntu 20.04/22.04
- GPU:支持CUDA 11.8的显卡(如A100)
- 创建虚拟环境:
conda create -n hallo python=3.10 conda activate hallo
- 安装依赖:
pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118 pip install -r requirements.txt sudo apt-get install ffmpeg
- 下载预训练模型:
git lfs install git clone https://huggingface.co/fudan-generative-ai/hallo2 pretrained_models
使用流程
- 准备输入数据:
- 下载并准备好所需的预训练模型。
- 准备好源图像和驱动音频文件。
- 运行推理脚本:
python scripts/inference.py --source_image path/to/image --driving_audio path/to/audio
- 查看生成结果:
- 生成的视频文件将保存在指定的输出目录中,可以使用任意视频播放器进行查看。
详细操作步骤
- 下载代码:
git clone https://github.com/fudan-generative-vision/hallo2 cd hallo2
- 创建并激活虚拟环境:
conda create -n hallo python=3.10 conda activate hallo
- 安装必要的Python包:
pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118 pip install -r requirements.txt
- 安装ffmpeg:
sudo apt-get install ffmpeg
- 下载预训练模型:
git lfs install git clone https://huggingface.co/fudan-generative-ai/hallo2 pretrained_models
- 运行推理脚本:
python scripts/inference.py --source_image path/to/image --driving_audio path/to/audio
- 查看生成结果:
- 生成的视频文件将保存在指定的输出目录中,可以使用任意视频播放器进行查看。