TANGO: инструмент для создания видео портретов с координированными жестами и полным телом цифрового человека

Последние ресурсы по искусственному интеллектуОбновлено 12 месяцев назад Круг обмена ИИ

52.1K 00

Общее введение

TANGO (Co-Speech Gesture Video Reenactment with Hierarchical Audio-Motion Embedding and Diffusion Interpolation) - это совместная разработка Токийского университета и CyberAgent AI Labs с открытым исходным кодом. фреймворк для совместного создания видеороликов с жестами и речью. Проект использует иерархическое пространство встраивания аудио-движений и диффузионную интерполяцию для автоматического создания естественных, плавных и синхронизированных видео с жестами персонажей на основе входной речи. TANGO достигает высокого качества генерации жестов и действий с помощью инновационного метода поиска графа действий, который сначала извлекает эталонный видеоклип, наиболее близко соответствующий целевой речи в неявном иерархическом пространстве встраивания аудио-движений, а затем использует диффузионную модель для интерполяции действий. генерация действий. Этот проект не только развивает исследования в области взаимодействия человека и компьютера на основе ИИ, но и обеспечивает важную техническую поддержку для таких приложений, как виртуальные якоря и цифровые люди.

Текущий TANGO с открытым исходным кодом поддерживает только аудио длительностью до 8 с, поэтому перед использованием необходимо выполнить сегментацию аудиофайла!
Работайте с инструментом Voice Lip Sync для создания полного проекта цифрового человека: Sync ,Wav2Lip Ultralight Digital Human. Полный рабочий процесс: Ultralight Digital Human для контрапункта, TANGO для генерации движений тела, FaceFusion для изменения лиц, идеально!

Опыт работы в Интернете: https://huggingface.co/spaces/H-Liu1997/TANGO

Список функций

Высокоточная синхронизация жестов: точная синхронизация любого звука с жестами на видео.
Поддержка нескольких языков: Работает с различными языками и звуками, включая CGI-лица и синтезированные звуки.
Открытый исходный код и свобода: код полностью публичен, и пользователи могут свободно использовать и изменять его.
Интерактивная демонстрация: предоставляет онлайн-демонстрацию, в которую пользователи могут загружать видео- и аудиофайлы для ознакомления.
Модели предварительного обучения: Предоставляются различные модели предварительного обучения, которые пользователи могут использовать непосредственно или для вторичного обучения.
Полный обучающий код: включает обучающий код для дискриминатора синхронизации жестов и модели TANGO.

Использование помощи

1. конфигурация окружающей среды

1.1 Основные требования:

Версия Python: 3.9.20
Версия CUDA: 11.8
Дисковое пространство: не менее 35 ГБ (для хранения моделей и предварительно рассчитанных диаграмм)

1.2 Этапы установки:

# 克隆项目仓库
git clone https://github.com/CyberAgentAILab/TANGO.git
cd TANGO
git clone https://github.com/justinjohn0306/Wav2Lip.git
git clone https://github.com/dajes/frame-interpolation-pytorch.git

# 创建虚拟环境（可选）
conda create -n tango python==3.9.20
conda activate tango

# 安装依赖
pip install -r ./pre-requirements.txt
pip install -r ./requirements.txt

2. Поток использования

2.1 Быстрый старт:

Запустите сценарий рассуждений:

python app.py

При первом запуске система автоматически загружает необходимые файлы контрольных точек и предварительно рассчитанные диаграммы. Для создания примерно 8-секундного видео требуется около 3 минут времени.

2.2 Создание пользовательских ролей:

Если вам нужно создать фигурку для нового персонажа:

python create_graph.py

Помимо прочего, проект по умолчанию генерирует видео с водяными знаками TANGO, как на рисунке ниже:

По сути, это вызов локального ffmpeg, который компонует исходное видео и изображение с водяным знаком в новое видео.

Если вам не нужен водяной знак, вы можете изменитьapp.pyСредний:

gr.Video(value="./datasets/cached_audio/demo1.mp4", label="Demo 0", , watermark="./datasets/watermark.png")
# 修改为
gr.Video(value="./datasets/cached_audio/demo1.mp4", label="Demo 0")

Доступ не с локального хоста, требуются модификации:

demo.launch(server_name="0.0.0.0", server_port=7860)

Откройте его снова, чтобы обнаружить отсутствие водяного знака на загруженном видео.

Полученное видео не содержит звука, поэтому его нужно синтезировать вручную.

/usr/bin/ffmpeg -i outputs/gradio/test_0/xxx.mp4 -i gen_audio.wav -c:v libx264 -c:a aac result_wav.mp4

Можно заметить: с движениями тела все в порядке, а вот форма рта совершенно неправильная.

Это не так. Ультралегкий цифровой человек И он пригодился?

Процесс использования

Доступ к локальному серверу: открыть в браузере http://localhost:3000.
Загрузить видео и аудио: Загрузите аудио- и видеофайлы, которые необходимо синхронизировать, в поле ввода.
Выполните синхронизацию жестов: нажмите кнопку "Синхронизация", и система автоматически выполнит синхронизацию жестов.
Просмотр и загрузка результатов: После завершения синхронизации вы можете просмотреть результаты и загрузить синхронизированные видеофайлы.
Используйте интерактивную демонстрацию: загрузите видео- и аудиофайлы на страницу демонстрации, чтобы увидеть эффект синхронизации жестов в реальном времени.
Управление проектами: просмотр и управление всеми загруженными проектами на странице "Мои проекты" с поддержкой контроля версий и совместной работы.

Дополнительные возможности

Интеллектуальная синхронизация жестов: улучшите представление видеоконтента с помощью интеллектуальной синхронизации жестов, обеспечиваемой искусственным интеллектом.
Поддержка нескольких языков: выбирайте различные языки и голоса в соответствии с потребностями вашего проекта.
Разработка под заказ: поскольку TANGO имеет открытый исходный код, пользователи могут развивать его в соответствии со своими потребностями.

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # AI Digital Man

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Hoshio - ИИ-продукт для создания манги эмоций, запущенный Jingdong Health

Последние ресурсы по искусственному интеллекту

5 месяцев назад

033.1K

InternLM-XComposer: мультимодальная макромодель для вывода очень длинных текстов и понимания изображений и видео

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct

10 месяцев назад

034.6K

DeviantArt: сообщество художников и любителей искусства с новым разделом искусства AI

Последние ресурсы по искусственному интеллекту # AI Средства создания изображений # AI онлайн генерация изображений

1 год назад

038.5K

olmOCR 2 - модель мультимодального разбора документов с открытым исходным кодом AI2

Последние ресурсы по искусственному интеллекту

2 месяца назад

025.4K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

TANGO: инструмент для создания видео портретов с координированными жестами и полным телом цифрового человека

Общее введение

Список функций

Использование помощи

1. конфигурация окружающей среды

2. Поток использования

Процесс использования

Дополнительные возможности

Sync: многоязычная онлайн-поддержка для инструмента синхронизации видеороликов AI (онлайн Wav2Lip)

Fresh Art AI Keying: бесплатный автономный локальный клиент AI Keying, поддержка пакетной обработки ключей

Похожие статьи

Hoshio - ИИ-продукт для создания манги эмоций, запущенный Jingdong Health

InternLM-XComposer: мультимодальная макромодель для вывода очень длинных текстов и понимания изображений и видео

DeviantArt: сообщество художников и любителей искусства с новым разделом искусства AI

olmOCR 2 - модель мультимодального разбора документов с открытым исходным кодом AI2

Нет комментариев

Последние коллекции

Последние статьи

TANGO: инструмент для создания видео портретов с координированными жестами и полным телом цифрового человека

Общее введение

Список функций

Использование помощи

1. конфигурация окружающей среды

2. Поток использования

Процесс использования

Дополнительные возможности

Sync: многоязычная онлайн-поддержка для инструмента синхронизации видеороликов AI (онлайн Wav2Lip)

Fresh Art AI Keying: бесплатный автономный локальный клиент AI Keying, поддержка пакетной обработки ключей

Похожие статьи

Hoshio - ИИ-продукт для создания манги эмоций, запущенный Jingdong Health

InternLM-XComposer: мультимодальная макромодель для вывода очень длинных текстов и понимания изображений и видео

DeviantArt: сообщество художников и любителей искусства с новым разделом искусства AI

olmOCR 2 - модель мультимодального разбора документов с открытым исходным кодом AI2

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи