综合介绍
DH_live 是一个基于少样本学习的实时直播数字人项目,旨在为用户提供流畅互动的直播体验。该项目支持 NVIDIA 30 和 40 系列显卡,能够以 25+ fps 的速度实时运行。用户可以通过简单的步骤创建和使用数字人,实现音频驱动的视频生成和实时互动。
功能列表
- 实时性能:支持 NVIDIA 30 和 40 系列显卡,提供流畅的实时互动体验。
- few-shot 学习:系统能够从少量示例中学习,生成逼真的响应。
- 视频准备:使用 data_preparation 脚本准备视频数据。
- 音频驱动:支持通过音频文件驱动数字人,生成同步视频。
- 实时麦克风输入:支持通过麦克风进行实时操作。
使用帮助
环境创建与模型文件解压
- 创建虚拟环境并激活:
conda create -n dh_live python=3.12 conda activate dh_live
- 安装依赖:
pip install torch --index-url https://download.pytorch.org/whl/cu124 pip install -r requirements.txt
- 解压模型文件:
- Linux:
cd checkpoint cat render.pth.gz.001 render.pth.gz.002 > render.pth.gz gzip -d -c render.pth.gz > render.pth
- Windows: 使用 7zip 或 WinRAR 解压 checkpoint 文件。
- Linux:
视频准备
- 使用
data_preparation.py
脚本准备视频:python data_preparation.py YOUR_VIDEO_PATH
结果将存储在
./video_data
目录中。
使用音频文件运行
- 确保音频文件为 .wav 格式,采样率为 16kHz,16 位单声道。
- 运行 demo 脚本:
python demo.py video_data/test video_data/audio0.wav 1.mp4
实时运行
- 使用麦克风进行实时操作:
python demo_avatar.py
常见问题
- 模型文件解压失败:请确保所有分卷文件完整并正确解压。
- 音频文件格式不正确:请使用符合要求的 .wav 文件。