TANGO: una herramienta de vídeo retrato gestual coordinado generado por la voz de una persona digital de cuerpo entero
Últimos recursos sobre IAActualizado hace 7 meses Círculo de intercambio de inteligencia artificial 2.5K 00
Introducción general
TANGO (Co-Speech Gesture Video Reenactment with Hierarchical Audio-Motion Embedding and Diffusion Interpolation) 是由东京大学和CyberAgent AI实验室联合开发的开源协同语音手势视频生成框架。该项目利用分层音频-动作嵌入空间和扩散插值技术,能够根据输入的语音自动生成自然、流畅且同步的人物手势视频。TANGO通过创新的动作图检索方法,首先在隐式分层音频-动作嵌入空间中检索与目标语音最匹配的参考视频片段,然后使用扩散模型进行动作插值,实现了高质量的手势动作生成。该项目不仅推进了AI驱动的人机交互研究,也为虚拟主播、数字人等应用提供了重要的技术支持。
当前开源的 TANGO 只支持最长 8s 音频,使用前,需对音频文件做分段处理!
配合语音唇形同步工具,实现完整数字人项目:Sync 、Wav2Lip 、Ultralight Digital Human 。完整的工作流是:Ultralight Digital Human 对口型,TANGO 生成肢体动作,FaceFusion 换脸,完美!

在线体验:https://huggingface.co/spaces/H-Liu1997/TANGO
Lista de funciones
- 高精度手势同步 :将任意音频与视频中的手势进行精准同步。
- Compatibilidad multilingüe: funciona con una gran variedad de idiomas y sonidos, incluidas caras CGI y sonidos sintetizados.
- Código abierto y gratuito : El código es totalmente público, y los usuarios son libres de utilizarlo y modificarlo.
- Demostración interactiva: Ofrece una demostración en línea en la que los usuarios pueden cargar archivos de vídeo y audio para experimentar.
- Modelos de preentrenamiento: Proporcionan una variedad de modelos de preentrenamiento, que los usuarios pueden utilizar directamente o como entrenamiento secundario.
- 完整的训练代码 :包括手势同步判别器和 TANGO 模型的训练代码。
Utilizar la ayuda
1. Configuración medioambiental
1.1 Requisitos básicos:
- Python版本:3.9.20
- CUDA版本:11.8
- 磁盘空间:至少35GB(用于存储模型和预计算图)
1.2 Pasos de la instalación:
# 克隆项目仓库
git clone https://github.com/CyberAgentAILab/TANGO.git
cd TANGO
git clone https://github.com/justinjohn0306/Wav2Lip.git
git clone https://github.com/dajes/frame-interpolation-pytorch.git
# 创建虚拟环境(可选)
conda create -n tango python==3.9.20
conda activate tango
# 安装依赖
pip install -r ./pre-requirements.txt
pip install -r ./requirements.txt
2. Flujo de utilización
2.1 Inicio rápido:
- Ejecute el script de razonamiento:
python app.py
首次运行时,系统会自动下载必要的检查点文件和预计算图。生成大约8秒的视频需要约3分钟处理时间。
2.2 自定义角色创建:
- 如需为新角色创建动作图谱:
python create_graph.py
其中,项目默认会生成带有 TANGO 水印的视频,类似下面这样:

本质上是调用本地的 ffmpeg 将原视频和水印图片合成了新视频。
如果不想要水印,可修改app.py
中:
gr.Video(value="./datasets/cached_audio/demo1.mp4", label="Demo 0", , watermark="./datasets/watermark.png") # 修改为 gr.Video(value="./datasets/cached_audio/demo1.mp4", label="Demo 0")
非本地主机可访问,需修改:
demo.launch(server_name="0.0.0.0", server_port=7860)
再次打开,可以发现加载的视频中无水印。
最终生成的视频没有音频,需要手动把音频合成进去
/usr/bin/ffmpeg -i outputs/gradio/test_0/xxx.mp4 -i gen_audio.wav -c:v libx264 -c:a aac result_wav.mp4
可以发现:肢体动作没什么问题,口型完全对不上。
这不, Ultralight Digital Human 就派上用场了?
Proceso de utilización
- Acceso al servidor local: Abrir en el navegador
http://localhost:3000
. - 上传视频和音频 :在输入框中上传你想同步的音频和视频文件。
- 进行手势同步 :点击「同步」按钮,系统会自动进行手势同步处理。
- 查看和下载结果 :同步完成后,可以预览结果并下载同步后的视频文件。
- 使用交互式演示 :在「演示」页面上传视频和音频文件,实时体验手势同步效果。
- 管理项目 :在「我的项目」页面查看和管理所有上传的项目,支持版本控制和协作。
Funciones avanzadas
- 智能手势同步 :利用 AI 提供的智能手势同步,提高视频内容的表现力。
- 多语言支持 :根据项目需求选择不同的语言和声音。
- 自定义开发 :由于 TANGO 是开源的,用户可以根据自己的需求进行二次开发。
© declaración de copyright
文章版权归 Círculo de intercambio de inteligencia artificial 所有,未经允许请勿转载。
Artículos relacionados
Sin comentarios...