Hallo2：音频驱动生成口型/表情同步的肖像视频（Windows一键安装）

66.8K 00

综合介绍

Hallo2 是由复旦大学和百度联合开发的一个开源项目，旨在通过音频驱动生成高分辨率的人像动画。该项目利用先进的生成对抗网络（GAN）和时间对齐技术，实现了4K分辨率和长达1小时的视频生成。Hallo2 还支持通过文本提示增强生成内容的多样性和可控性。

Hallo3发布，通过引入交叉注意力机制实现音频条件，有效地捕捉音频信号与面部表情之间的复杂关系，实现了显著的唇同步。
需要注意:Hallo3对推理的输入数据有以下简单要求：
参考图像：参考图像的长宽比必须是1:1或3:2。
驱动音频：驱动音频必须是WAV格式。
音频语言：音频必须是英语，因为模型的训练数据集仅包含这种语言。
音频清晰度：确保音频中的人声清晰；背景音乐是可以接受的。

功能列表

音频驱动动画生成：通过输入音频文件生成对应的人像动画。
高分辨率支持：支持生成4K分辨率的视频，保证画质清晰。
长视频生成：可以生成长达1小时的视频内容。
文本提示增强：通过语义文本标签控制生成的人像表情和动作。
开源代码：提供完整的源代码和预训练模型，方便用户进行二次开发。
多平台支持：支持在Windows、Linux等多平台上运行。

使用帮助

安装流程

系统要求：
- 操作系统：Ubuntu 20.04/22.04
- GPU：支持CUDA 11.8的显卡（如A100）

创建虚拟环境：

conda create -n hallo python=3.10
conda activate hallo

安装依赖：

pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118
pip install -r requirements.txt
sudo apt-get install ffmpeg

下载预训练模型：

git lfs install
git clone https://huggingface.co/fudan-generative-ai/hallo2 pretrained_models

使用流程

准备输入数据：
- 下载并准备好所需的预训练模型。
- 准备好源图像和驱动音频文件。

运行推理脚本：

python scripts/inference.py --source_image path/to/image --driving_audio path/to/audio

查看生成结果：
- 生成的视频文件将保存在指定的输出目录中，可以使用任意视频播放器进行查看。

详细操作步骤

下载代码：

git clone https://github.com/fudan-generative-vision/hallo2
cd hallo2

创建并激活虚拟环境：

conda create -n hallo python=3.10
conda activate hallo

安装必要的Python包：

pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118
pip install -r requirements.txt

安装ffmpeg：
```
sudo apt-get install ffmpeg
```

下载预训练模型：

git lfs install
git clone https://huggingface.co/fudan-generative-ai/hallo2 pretrained_models

运行推理脚本：

python scripts/inference.py --source_image path/to/image --driving_audio path/to/audio

查看生成结果：
- 生成的视频文件将保存在指定的输出目录中，可以使用任意视频播放器进行查看。

Hallo2：Windows 一键安装包

https://pan.quark.cn/s/aa9fc15a786f
提取码：51XY

最新AI资源 # AI数字人

文章版权归 AI分享圈所有，未经允许请勿转载。

BytePlus - 字节跳动推出的企业级智能云服务平台

Bannerbear：自动生成社交媒体图片和电商横幅的工具

最新AI资源 # AI营销

1年前

074.7K

Lumina-DiMOO - 上海AI Lab联合华为昇腾开源的多模态大模型

职达AI简历 - AI简历生成与优化平台，精准分析问题、提供优化建议

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

Hallo2：音频驱动生成口型/表情同步的肖像视频（Windows一键安装）

综合介绍

功能列表

使用帮助

安装流程

使用流程

详细操作步骤

Hallo2：Windows 一键安装包

川虎Chat：本地部署多功能插件的聊天Web工具

Flux Pro Art：让每个人安全、公开访问 Flux Pro 全系模型

相关文章

BytePlus - 字节跳动推出的企业级智能云服务平台

Bannerbear：自动生成社交媒体图片和电商横幅的工具

Lumina-DiMOO - 上海AI Lab联合华为昇腾开源的多模态大模型

职达AI简历 - AI简历生成与优化平台，精准分析问题、提供优化建议

暂无评论

最新收录

最新文章

Hallo2：音频驱动生成口型/表情同步的肖像视频（Windows一键安装）

综合介绍

功能列表

使用帮助

安装流程

使用流程

详细操作步骤

Hallo2：Windows 一键安装包

川虎Chat：本地部署多功能插件的聊天Web工具

Flux Pro Art：让每个人安全、公开访问 Flux Pro 全系模型

相关文章

BytePlus - 字节跳动推出的企业级智能云服务平台

Bannerbear：自动生成社交媒体图片和电商横幅的工具

Lumina-DiMOO - 上海AI Lab联合华为昇腾开源的多模态大模型

职达AI简历 - AI简历生成与优化平台，精准分析问题、提供优化建议

暂无评论

AI工具精选

最新收录

最新文章