ER NeRF: Создание системы видеосинтеза для создания высокоточных говорящих голов

Общее введение

ER-NeRF (Efficient Region-Aware Neural Radiance Fields) - это система синтеза говорящих персонажей с открытым исходным кодом, представленная на ICCV 2023. В проекте используется технология Region-Aware Neural Radiance Fields для эффективного создания высокоточных видеороликов говорящих персонажей. Основными особенностями системы являются схема региональной обработки, которая отдельно моделирует голову и туловище персонажа, и инновационная техника декомпозиции аудиопространства, обеспечивающая более точную синхронизацию губ. Проект предоставляет полный код обучения и вывода, поддерживает пользовательские обучающие видеоролики и может использовать различные экстракторы звуковых признаков (например, DeepSpeech, Wav2Vec, HuBERT и т. д.) для обработки входного аудиосигнала. Система достигает значительного улучшения как визуального качества, так и вычислительной эффективности, обеспечивая важное техническое решение в области синтеза говорящих персонажей.

Новый проект: https://github.com/Fictionarry/TalkingGaussian

ER NeRF:构建高保真都的说话人物视频合成系统

 

Список функций

  • Высокоточное видеокомпозитирование говорящих голов
  • Нейронный рендеринг поля излучения для восприятия области
  • Поддерживает раздельное моделирование головы и туловища
  • Точная синхронизация губ
  • Поддержка извлечения нескольких аудиофункций (DeepSpeech/Wav2Vec/HuBERT)
  • Индивидуальная поддержка видеообучения
  • Создание анимации персонажей с помощью звука
  • Плавное управление движением головы
  • Поддержка движения мигания (функция AU45)
  • Функция оптимизации с точной настройкой LPIPS

 

Использование помощи

1. конфигурация окружающей среды

Требования к операционной среде системы:

  • Операционная система Ubuntu 18.04
  • PyTorch версии 1.12
  • CUDA 11.3
    Этапы установки:
  1. Создайте среду conda:
conda create -n ernerf python=3.10
conda install pytorch==1.12.1 torchvision==0.13.1 cudatoolkit=11.3 -c pytorch
pip install -r requirements.txt
  1. Установите дополнительные зависимости:
pip install "git+https://github.com/facebookresearch/pytorch3d.git"
pip install tensorflow-gpu==2.8.0

2. Подготовка моделей для предварительной обработки

Необходимо загрузить и подготовить следующие файлы моделей:

  • Модель разбора лица
  • Модель оценки положения головы 3DMM
  • Basel Face Model 2009

3. Настройка процесса видеообучения

  1. Требования к подготовке видео:
    • Формат: MP4
    • Частота кадров: 25FPS
    • Разрешение: рекомендуется 512x512
    • Продолжительность: 1-5 минут
    • Требуется, чтобы каждый кадр содержал говорящие символы
  2. Предварительная обработка данных:
python data_utils/process.py data/<ID>/<ID>.mp4
  1. Извлечение аудио признаков (один из трех):
  • Извлечение признаков из DeepSpeech:
python data_utils/deepspeech_features/extract_ds_features.py --input data/<n>.wav
  • Извлечение признаков из Wav2Vec:
python data_utils/wav2vec.py --wav data/<n>.wav --save_feats
  • Извлечение признаков HuBERT (рекомендуется):
python data_utils/hubert.py --wav data/<n>.wav

4. Обучение модели

Обучение делится на две фазы: обучение головы и обучение туловища:

  1. Головная тренировка:
python main.py data/obama/ --workspace trial_obama/ -O --iters 100000
python main.py data/obama/ --workspace trial_obama/ -O --iters 125000 --finetune_lips --patch_size 32
  1. Тренировка торса:
python main.py data/obama/ --workspace trial_obama_torso/ -O --torso --head_ckpt <head>.pth --iters 200000

5. тестирование и вывод моделей

  1. Испытайте эффекты модели:
# 仅渲染头部
python main.py data/obama/ --workspace trial_obama/ -O --test
# 渲染头部和躯干
python main.py data/obama/ --workspace trial_obama_torso/ -O --torso --test
  1. Рассуждения с целевым аудио:
python main.py data/obama/ --workspace trial_obama_torso/ -O --torso --test --test_train --aud <audio>.npy

Совет: Добавление параметра --smooth_path уменьшает дрожание головы, но может снизить точность ориентации.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...