综合介绍
TANGO 是一个开源的共语手势视频生成工具,旨在将音频与视频中的手势进行精准同步。该工具由东京大学和 CyberAgent AI Lab 联合开发,利用先进的 AI 技术,能够在各种环境下实现高质量的手势生成。TANGO 适用于研究、学术和个人用途,提供了完整的训练代码、推理代码和预训练模型。
功能列表
- 高精度手势同步 :将任意音频与视频中的手势进行精准同步。
- 多语言支持 :适用于各种语言和声音,包括 CGI 面孔和合成声音。
- 开源和免费 :代码完全公开,用户可以自由使用和修改。
- 交互式演示 :提供在线演示,用户可以上传视频和音频文件进行体验。
- 预训练模型 :提供多种预训练模型,用户可以直接使用或进行二次训练。
- 完整的训练代码 :包括手势同步判别器和 TANGO 模型的训练代码。
使用帮助
安装流程
- 克隆仓库 :
bash复制
git clonehttps://github.com/CyberAgentAILab/TANGO
- 安装依赖 :
bash复制
pip install -r requirements.txt
- 下载预训练模型 :将预训练模型下载到指定目录,例如
face_detection/detection/sfd/s3fd.pth
。 - 运行推理代码 :
bash复制
python inference.py --checkpoint_path <ckpt> --face <video.mp4> --audio <an-audio-source>
使用流程
- 访问本地服务器 :在浏览器中打开
http://localhost:3000
。 - 上传视频和音频 :在输入框中上传你想同步的音频和视频文件。
- 进行手势同步 :点击「同步」按钮,系统会自动进行手势同步处理。
- 查看和下载结果 :同步完成后,可以预览结果并下载同步后的视频文件。
- 使用交互式演示 :在「演示」页面上传视频和音频文件,实时体验手势同步效果。
- 管理项目 :在「我的项目」页面查看和管理所有上传的项目,支持版本控制和协作。
高级功能
- 智能手势同步 :利用 AI 提供的智能手势同步,提高视频内容的表现力。
- 多语言支持 :根据项目需求选择不同的语言和声音。
- 自定义开发 :由于 TANGO 是开源的,用户可以根据自己的需求进行二次开发。