AI个人学习
和实操指南
豆包Marscode1

SVLS:SadTalker增强版,使用人像视频生成数字人

综合介绍

SadTalker-Video-Lip-Sync 是一个基于 SadTalkers 实现的视频唇形合成工具。该项目通过语音驱动生成唇形,并使用可配置的面部区域增强方式来提高生成唇形的清晰度。项目还采用 DAIN 插帧算法对生成视频进行补帧,使唇形动作过渡更加流畅、真实和自然。用户可以通过简单的命令行操作,快速生成高质量的唇形视频,适用于各种视频制作和编辑需求。

SVLS:SadTalker增强版,使用人像视频生成数字人-1

SadTalker 原版


SVLS:SadTalker增强版,使用人像视频生成数字人-1

SadTalker 增强版

 

功能列表

  • 语音驱动唇形生成:通过音频文件驱动视频中的唇形动作。
  • 面部区域增强:可配置唇形或全脸区域的画面增强,提高视频清晰度。
  • DAIN 插帧:使用深度学习算法对视频进行补帧,提升视频流畅度。
  • 多种增强选项:支持无增强、唇形增强和全脸增强三种模式。
  • 预训练模型:提供多种预训练模型,方便用户快速上手。
  • 简单命令行操作:通过命令行参数配置和运行,操作简便。

 

使用帮助

环境准备

  1. 安装必要的依赖:
   pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113
conda install ffmpeg
pip install -r requirements.txt
  1. 如果需要使用 DAIN 模型进行补帧,还需安装 Paddle:
   python -m pip install paddlepaddle-gpu==2.3.2.post112 -f https://www.paddlepaddle.org.cn/whl/linux/mkl/avx/stable.html

项目结构

  • checkpoints:存放预训练模型
  • dian_output:存放 DAIN 插帧输出
  • examples:示例音频和视频文件
  • results:生成结果
  • src:源代码
  • sync_show:合成效果展示
  • third_part:第三方库
  • inference.py:推理脚本
  • README.md:项目说明文件

模型推理

使用以下命令进行模型推理:

python inference.py --driven_audio <audio.wav> --source_video <video.mp4> --enhancer <none, lip, face> --use_DAIN --time_step 0.5
  • --driven_audio:输入音频文件
  • --source_video:输入视频文件
  • --enhancer:增强模式(none, lip, face)
  • --use_DAIN:是否使用 DAIN 插帧
  • --time_step:插帧频率(默认0.5,即25fps->50fps)

合成效果

生成的视频效果展示在 ./sync_show 目录下:

  • original.mp4:原始视频
  • sync_none.mp4:无任何增强的合成效果
  • none_dain_50fps.mp4:只使用 DAIN 模型将25fps添帧到50fps
  • lip_dain_50fps.mp4:对唇形区域进行增强+DAIN 模型将25fps添帧到50fps
  • face_dain_50fps.mp4:对全脸区域进行增强+DAIN 模型将25fps添帧到50fps

预训练模型

预训练模型下载路径:

  • 百度网盘:链接 提取码:klfv
  • 谷歌网盘:链接
未经允许不得转载:首席AI分享圈 » SVLS:SadTalker增强版,使用人像视频生成数字人
zh_CN简体中文