VideoReTalking：音频驱动的嘴唇同步和视频编辑系统

最新AI资源1年前更新 AI分享圈

56K 00

综合介绍

VideoReTalking是一款创新的系统，允许用户根据输入音频生成唇形同步的面部视频，即使有不同的情绪，也能产生高质量且嘴唇同步的输出视频。系统将这一目标分解为三个连续任务：带有典型表情的面部视频生成、音频驱动的嘴唇同步和面部增强以提高照片的真实感。它使用基于学习的方法处理所有三个步骤，在没有用户干预的情况下可以顺序进行。通过提供的链接探索VideoReTalking及其在音频驱动的嘴唇同步谈话头视频编辑中的应用。

VideoReTalking：音频驱动的嘴唇同步和视频编辑系统

(不清晰，需要二次增强视频画质，对中文唇形同步略差)

功能列表

面部视频生成：根据输入音频生成带有典型表情的面部视频。
音频驱动的嘴唇同步：根据给定的音频生成嘴唇同步的视频。
面部增强：通过身份识别感知的面部增强网络和后处理提高合成面部的照片真实感。

使用帮助

下载预训练的模型并放在`./checkpoints`中。
运行`python3 inference.py`进行视频的快速推理。
可以通过添加参数`--exp_img`或`--up_face`来控制表情。

在线体验地址

replicate体验地址

VideoReTalking Colab 运行地址

最新AI资源 # AI开源项目 # 口型同步

© 版权声明

文章版权归 AI分享圈所有，未经允许请勿转载。

相关文章

RF-DETR：实时视觉对象检测开源模型

RF-DETR：实时视觉对象检测开源模型

最新AI资源 # AI开源项目 # 视觉目标检测

1年前

096K

glhf.chat：运行几乎(所有)开源大模型，免费使用GPU资源和API服务（测试期）

glhf.chat：运行几乎(所有)开源大模型，免费使用GPU资源和API服务（测试期）

最新AI资源 # AI开放服务 # 免费大模型API

1年前

072.6K

FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型

FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型

7个月前

039.9K

Sketch-Gen：生成高质量线稿和草图，反推图像提示词，一键安装包

Sketch-Gen：生成高质量线稿和草图，反推图像提示词，一键安装包

最新AI资源 # AI图像生成辅助工具 # AI开源项目

1年前

064.6K

暂无评论

您必须登录才能参与评论！

none

暂无评论...