JoyGen: инструмент для редактирования видео с 3D глубиной, управляемый звуком и говорящий портрет

Общее введение

JoyGen - это инновационная двухступенчатая система генерации видео с говорящими лицами, которая направлена на решение проблемы генерации выражения лица с помощью звука. Разработанный командой из Jingdong Technology, проект использует передовые технологии 3D-реконструкции и методы извлечения аудиофункций для точного захвата идентификационных признаков и коэффициентов выражения говорящего для высококачественной синхронизации губ и визуального синтеза. Интегрируя аудиофункции и карты глубины лица, он обеспечивает комплексный контроль для точной синхронизации губ. Проект не только поддерживает китайские и английские аудиодрайверы, но и предоставляет полный цикл обучения и вывода, что делает его мощным инструментом с открытым исходным кодом.

JoyGen:音频驱动的3D深度感知人像说话视频编辑工具

 

Список функций

  • Создание и редактирование 3D-выражений лица с помощью звука
  • Точная технология синхронизации губ и звука
  • Поддерживает китайский и английский аудиовход
  • Визуальный синтез для трехмерного восприятия глубины
  • Функция сохранения идентичности лица
  • Возможности создания и редактирования высококачественного видео
  • Полное обучение и поддержка системы рассуждений
  • Предварительно обученные модели обеспечивают быстрое развертывание
  • Поддержка обучения по индивидуальным наборам данных
  • Предоставьте подробные инструменты для предварительной обработки данных

 

Использование помощи

1. конфигурация окружающей среды

1.1 Требования к инфраструктуре

  • Поддерживаемые графические процессоры: V100, A800
  • Версия Python: 3.8.19
  • Системные зависимости: ffmpeg

1.2 Этапы установки

  1. Создайте и активируйте среду conda:
conda create -n joygen python=3.8.19 ffmpeg
conda activate joygen
pip install -r requirements.txt
  1. Установите библиотеку Nvdiffrast:
git clone https://github.com/NVlabs/nvdiffrast
cd nvdiffrast
pip install .
  1. Загрузите предварительно обученную модель
    Из предоставленногоссылка для скачиванияПолучите предварительно обученную модель и поместите ее в соответствии с указанной структурой каталогов в./pretrained_models/Каталог.

2. Поток использования

2.1 Процесс рассуждения

Выполните полный цикл рассуждений:

bash scripts/inference_pipeline.sh 音频文件 视频文件 结果目录

Выполните процесс рассуждения по шагам:

  1. Извлечение коэффициентов выражения лица из аудио:
python inference_audio2motion.py --a2m_ckpt ./pretrained_models/audio2motion/240210_real3dportrait_orig/audio2secc_vae --hubert_path ./pretrained_models/audio2motion/hubert --drv_aud ./demo/xinwen_5s.mp3 --seed 0 --result_dir ./results/a2m --exp_file xinwen_5s.npy
  1. Покадровый рендеринг карт глубины с использованием новых коэффициентов выражения:
python -u inference_edit_expression.py --name face_recon_feat0.2_augment --epoch=20 --use_opengl False --checkpoints_dir ./pretrained_models --bfm_folder ./pretrained_models/BFM --infer_video_path ./demo/example_5s.mp4 --infer_exp_coeff_path ./results/a2m/xinwen_5s.npy --infer_result_dir ./results/edit_expression
  1. Генерирование лицевой анимации на основе звуковых характеристик и карт глубины лица:
CUDA_VISIBLE_DEIVCES=0 python -u inference_joygen.py --unet_model_path pretrained_models/joygen --vae_model_path pretrained_models/sd-vae-ft-mse --intermediate_dir ./results/edit_expression --audio_path demo/xinwen_5s.mp3 --video_path demo/example_5s.mp4 --enable_pose_driven --result_dir results/talk --img_size 256 --gpu_id 0

2.2 Процесс обучения

  1. Предварительная обработка данных:
python -u preprocess_dataset.py --checkpoints_dir ./pretrained_models --name face_recon_feat0.2_augment --epoch=20 --use_opengl False --bfm_folder ./pretrained_models/BFM --video_dir ./demo --result_dir ./results/preprocessed_dataset
  1. Изучите предварительно обработанные данные и создайте обучающие списки:
python -u preprocess_dataset_extra.py data_dir
  1. Начните обучение:
    Измените файл config.yaml и выполните его:
accelerate launch --main_process_port 29501 --config_file config/accelerate_config.yaml train_joygen.py
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...