JoyGen: инструмент для редактирования видео с 3D глубиной, управляемый звуком и говорящий портрет

Последние ресурсы по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

51.3K 00

Общее введение

JoyGen - это инновационная двухступенчатая система генерации видео с говорящими лицами, которая направлена на решение проблемы генерации выражения лица с помощью звука. Разработанный командой из Jingdong Technology, проект использует передовые технологии 3D-реконструкции и методы извлечения аудиофункций для точного захвата идентификационных признаков и коэффициентов выражения говорящего для высококачественной синхронизации губ и визуального синтеза. Интегрируя аудиофункции и карты глубины лица, он обеспечивает комплексный контроль для точной синхронизации губ. Проект не только поддерживает китайские и английские аудиодрайверы, но и предоставляет полный цикл обучения и вывода, что делает его мощным инструментом с открытым исходным кодом.

Список функций

Создание и редактирование 3D-выражений лица с помощью звука
Точная технология синхронизации губ и звука
Поддерживает китайский и английский аудиовход
Визуальный синтез для трехмерного восприятия глубины
Функция сохранения идентичности лица
Возможности создания и редактирования высококачественного видео
Полное обучение и поддержка системы рассуждений
Предварительно обученные модели обеспечивают быстрое развертывание
Поддержка обучения по индивидуальным наборам данных
Предоставьте подробные инструменты для предварительной обработки данных

Использование помощи

1. конфигурация окружающей среды

1.1 Требования к инфраструктуре

Поддерживаемые графические процессоры: V100, A800
Версия Python: 3.8.19
Системные зависимости: ffmpeg

1.2 Этапы установки

Создайте и активируйте среду conda:

conda create -n joygen python=3.8.19 ffmpeg
conda activate joygen
pip install -r requirements.txt

Установите библиотеку Nvdiffrast:

git clone https://github.com/NVlabs/nvdiffrast
cd nvdiffrast
pip install .

Загрузите предварительно обученную модель
Из предоставленногоссылка для скачиванияПолучите предварительно обученную модель и поместите ее в соответствии с указанной структурой каталогов в./pretrained_models/Каталог.

2. Поток использования

2.1 Процесс рассуждения

Выполните полный цикл рассуждений:

bash scripts/inference_pipeline.sh 音频文件 视频文件 结果目录

Выполните процесс рассуждения по шагам:

Извлечение коэффициентов выражения лица из аудио:

python inference_audio2motion.py --a2m_ckpt ./pretrained_models/audio2motion/240210_real3dportrait_orig/audio2secc_vae --hubert_path ./pretrained_models/audio2motion/hubert --drv_aud ./demo/xinwen_5s.mp3 --seed 0 --result_dir ./results/a2m --exp_file xinwen_5s.npy

Покадровый рендеринг карт глубины с использованием новых коэффициентов выражения:

python -u inference_edit_expression.py --name face_recon_feat0.2_augment --epoch=20 --use_opengl False --checkpoints_dir ./pretrained_models --bfm_folder ./pretrained_models/BFM --infer_video_path ./demo/example_5s.mp4 --infer_exp_coeff_path ./results/a2m/xinwen_5s.npy --infer_result_dir ./results/edit_expression

Генерирование лицевой анимации на основе звуковых характеристик и карт глубины лица:

CUDA_VISIBLE_DEIVCES=0 python -u inference_joygen.py --unet_model_path pretrained_models/joygen --vae_model_path pretrained_models/sd-vae-ft-mse --intermediate_dir ./results/edit_expression --audio_path demo/xinwen_5s.mp3 --video_path demo/example_5s.mp4 --enable_pose_driven --result_dir results/talk --img_size 256 --gpu_id 0

2.2 Процесс обучения

Предварительная обработка данных:

python -u preprocess_dataset.py --checkpoints_dir ./pretrained_models --name face_recon_feat0.2_augment --epoch=20 --use_opengl False --bfm_folder ./pretrained_models/BFM --video_dir ./demo --result_dir ./results/preprocessed_dataset

Изучите предварительно обработанные данные и создайте обучающие списки:

python -u preprocess_dataset_extra.py data_dir

Начните обучение:
Измените файл config.yaml и выполните его:

accelerate launch --main_process_port 29501 --config_file config/accelerate_config.yaml train_joygen.py

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # AI Digital Man

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

GPT API бесплатно (бесплатный ключ API ограничен 200 запросами в день)

Последние ресурсы по искусственному интеллекту # AI Open Services # Бесплатная большая модель API

1 год назад

091K

Intellectia: оптимизация инвестиционных решений с помощью платформы интеллектуальной инвестиционной аналитики на базе ИИ

Последние ресурсы по искусственному интеллекту # ИИ Аналитика финансовых данных

1 год назад

053.2K

Shortbread - инструмент для создания комиксов с искусственным интеллектом, описание на естественном языке для завершения создания комиксов

Последние ресурсы по искусственному интеллекту

9 месяцев назад

038.9K

Cosmos: World Base Model, платформа для создания базовых моделей физического мира с помощью ИИ.

Последние ресурсы по искусственному интеллекту # AI Open Services # AI Java Open Source Projecct

1 год назад

054.4K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

JoyGen: инструмент для редактирования видео с 3D глубиной, управляемый звуком и говорящий портрет

Общее введение

Список функций

Использование помощи

1. конфигурация окружающей среды

1.1 Требования к инфраструктуре

1.2 Этапы установки

2. Поток использования

2.1 Процесс рассуждения

2.2 Процесс обучения

VSR: технология AI для удаления водяных знаков с видео без потерь и жесткое программное обеспечение для субтитров (клиент для удаления водяных знаков с видео 7G+)

Aider: инструмент-помощник программиста с открытым исходным кодом, используйте AI-помощника для написания кода и редактирования файлов

Похожие статьи

GPT API бесплатно (бесплатный ключ API ограничен 200 запросами в день)

Intellectia: оптимизация инвестиционных решений с помощью платформы интеллектуальной инвестиционной аналитики на базе ИИ

Shortbread - инструмент для создания комиксов с искусственным интеллектом, описание на естественном языке для завершения создания комиксов

Cosmos: World Base Model, платформа для создания базовых моделей физического мира с помощью ИИ.

Нет комментариев

Последние коллекции

Последние статьи

JoyGen: инструмент для редактирования видео с 3D глубиной, управляемый звуком и говорящий портрет

Общее введение

Список функций

Использование помощи

1. конфигурация окружающей среды

1.1 Требования к инфраструктуре

1.2 Этапы установки

2. Поток использования

2.1 Процесс рассуждения

2.2 Процесс обучения

VSR: технология AI для удаления водяных знаков с видео без потерь и жесткое программное обеспечение для субтитров (клиент для удаления водяных знаков с видео 7G+)

Aider: инструмент-помощник программиста с открытым исходным кодом, используйте AI-помощника для написания кода и редактирования файлов

Похожие статьи

GPT API бесплатно (бесплатный ключ API ограничен 200 запросами в день)

Intellectia: оптимизация инвестиционных решений с помощью платформы интеллектуальной инвестиционной аналитики на базе ИИ

Shortbread - инструмент для создания комиксов с искусственным интеллектом, описание на естественном языке для завершения создания комиксов

Cosmos: World Base Model, платформа для создания базовых моделей физического мира с помощью ИИ.

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи