SVLS: SadTalker улучшен для создания цифровых людей на основе портретного видео

Общее введение

SadTalker-Video-Lip-Sync - это инструмент для синтеза губ в видео, основанный на реализации SadTalkers. Проект генерирует формы губ с помощью голоса и использует настраиваемое улучшение областей лица для улучшения четкости сгенерированных форм губ. Проект также использует алгоритм кадровой интерполяции DAIN для заполнения кадров в сгенерированном видео, чтобы сделать переход губ более плавным, реалистичным и естественным. Пользователи могут быстро генерировать высококачественные видеоролики с формами губ с помощью простых операций командной строки, которые подходят для различных задач видеопроизводства и редактирования.

SVLS:SadTalker增强版,使用人像视频生成数字人

SadTalker оригинал

SVLS:SadTalker增强版,使用人像视频生成数字人

SadTalker Enhanced

 

Список функций

  • Создание губ на основе речи: Движение губ в видео через аудиофайл.
  • Увеличение площади лица: Настраиваемое улучшение изображения губ или всего лица для повышения четкости видео.
  • Вставка рамки DAIN: Используйте алгоритмы глубокого обучения для создания патчей на кадрах видео, чтобы улучшить плавность видео.
  • Многочисленные возможности усовершенствования: Поддерживает три режима: без улучшения, с улучшением губ и с полным улучшением лица.
  • Модель предварительного обучения: Предоставьте пользователям множество предварительно обученных моделей, чтобы они могли быстро приступить к работе.
  • Простая работа с командной строкой: Легко настраивается и запускается с помощью параметров командной строки.

 

Использование помощи

Подготовка к защите окружающей среды

  1. Установите необходимые зависимости:
   pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113
conda install ffmpeg
pip install -r requirements.txt
  1. Если вам нужно использовать модель DAIN для заполнения рамок, вам также необходимо установить Paddle:
   python -m pip install paddlepaddle-gpu==2.3.2.post112 -f https://www.paddlepaddle.org.cn/whl/linux/mkl/avx/stable.html

Структура проекта

  • checkpoints: хранить предварительно обученные модели
  • dian_output: Хранит выходы для вставки кадров DAIN
  • examples: Образцы аудио- и видеофайлов
  • results: Генерировать результаты
  • src: Исходный код
  • sync_show: Демонстрация эффекта синтеза
  • third_part: Библиотеки сторонних разработчиков
  • inference.py: Сценарий рассуждения
  • README.md: Документ описания проекта

моделируемое рассуждение

Для вывода модели используйте следующую команду:

python inference.py --driven_audio <audio.wav> --source_video <video.mp4> --enhancer <none, lip, face> --use_DAIN --time_step 0.5
  • --driven_audio: Входные аудиофайлы
  • --source_video: Входной видеофайл
  • --enhancer: Расширенный режим (нет, губы, лицо)
  • --use_DAIN: Использовать ли кадры DAIN
  • --time_step: Интерполированная частота кадров (по умолчанию 0,5, т.е. 25 кадров в секунду -> 50 кадров в секунду)

эффект синтеза

Созданные видеоэффекты показаны в ./sync_show Каталог:

  • original.mp4: Оригинальное видео
  • sync_none.mp4: Эффекты синтеза без каких-либо улучшений
  • none_dain_50fps.mp4: Преобразование 25 кадров в 50 кадров в секунду с помощью только модели DAIN
  • lip_dain_50fps.mp4: Улучшения в области губ + модель DAIN для добавления 25 кадров в секунду к 50 кадрам в секунду
  • face_dain_50fps.mp4: Увеличение площади всего лица + модель DAIN для увеличения 25 кадров в секунду до 50 кадров в секунду

Модель предварительного обучения

Путь загрузки предварительно обученной модели:

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...