SVLS: SadTalker улучшен для создания цифровых людей на основе портретного видео

Последние ресурсы по искусственному интеллектуОпубликовано 11 месяцев назад Круг обмена ИИ

41.7K 00

Общее введение

SadTalker-Video-Lip-Sync - это инструмент для синтеза губ в видео, основанный на реализации SadTalkers. Проект генерирует формы губ с помощью голоса и использует настраиваемое улучшение областей лица для улучшения четкости сгенерированных форм губ. Проект также использует алгоритм кадровой интерполяции DAIN для заполнения кадров в сгенерированном видео, чтобы сделать переход губ более плавным, реалистичным и естественным. Пользователи могут быстро генерировать высококачественные видеоролики с формами губ с помощью простых операций командной строки, которые подходят для различных задач видеопроизводства и редактирования.

SadTalker оригинал

SadTalker Enhanced

Список функций

Создание губ на основе речи: Движение губ в видео через аудиофайл.
Увеличение площади лица: Настраиваемое улучшение изображения губ или всего лица для повышения четкости видео.
Вставка рамки DAIN: Используйте алгоритмы глубокого обучения для создания патчей на кадрах видео, чтобы улучшить плавность видео.
Многочисленные возможности усовершенствования: Поддерживает три режима: без улучшения, с улучшением губ и с полным улучшением лица.
Модель предварительного обучения: Предоставьте пользователям множество предварительно обученных моделей, чтобы они могли быстро приступить к работе.
Простая работа с командной строкой: Легко настраивается и запускается с помощью параметров командной строки.

Использование помощи

Подготовка к защите окружающей среды

Установите необходимые зависимости:

   pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113
conda install ffmpeg
pip install -r requirements.txt

Если вам нужно использовать модель DAIN для заполнения рамок, вам также необходимо установить Paddle:

   python -m pip install paddlepaddle-gpu==2.3.2.post112 -f https://www.paddlepaddle.org.cn/whl/linux/mkl/avx/stable.html

Структура проекта

checkpoints: хранить предварительно обученные модели
dian_output: Хранит выходы для вставки кадров DAIN
examples: Образцы аудио- и видеофайлов
results: Генерировать результаты
src: Исходный код
sync_show: Демонстрация эффекта синтеза
third_part: Библиотеки сторонних разработчиков
inference.py: Сценарий рассуждения
README.md: Документ описания проекта

моделируемое рассуждение

Для вывода модели используйте следующую команду:

python inference.py --driven_audio <audio.wav> --source_video <video.mp4> --enhancer <none, lip, face> --use_DAIN --time_step 0.5

--driven_audio: Входные аудиофайлы
--source_video: Входной видеофайл
--enhancer: Расширенный режим (нет, губы, лицо)
--use_DAIN: Использовать ли кадры DAIN
--time_step: Интерполированная частота кадров (по умолчанию 0,5, т.е. 25 кадров в секунду -> 50 кадров в секунду)

эффект синтеза

Созданные видеоэффекты показаны в ./sync_show Каталог:

original.mp4: Оригинальное видео
sync_none.mp4: Эффекты синтеза без каких-либо улучшений
none_dain_50fps.mp4: Преобразование 25 кадров в 50 кадров в секунду с помощью только модели DAIN
lip_dain_50fps.mp4: Улучшения в области губ + модель DAIN для добавления 25 кадров в секунду к 50 кадрам в секунду
face_dain_50fps.mp4: Увеличение площади всего лица + модель DAIN для увеличения 25 кадров в секунду до 50 кадров в секунду

Модель предварительного обучения

Путь загрузки предварительно обученной модели:

Baidu.com:ссылка (на веб-сайте) Код для извлечения: klfv
Google Диск:ссылка (на веб-сайте)

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # AI Digital Man

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

QwenLong-L1.5 - модель вывода длинных текстов с открытым исходным кодом лаборатории Али Тонги

Последние ресурсы по искусственному интеллекту

7 дней назад

010K

Klee: запуск макромоделей ИИ локально на рабочем столе и управление частной базой знаний

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct Локализованное чат-приложение # AI

10 месяцев назад

048.7K

Privatemode: приложение для чата с искусственным интеллектом, предлагающее сквозное шифрование для защиты конфиденциальности корпоративных данных

Последние ресурсы по искусственному интеллекту # AI Open Services

10 месяцев назад

047.1K

Haiper: AI Video Creation Tool|Text to Video|Image to Video|Video Style Converter|Extended Video

Последние ресурсы по искусственному интеллекту # AI Преобразование изображений в видео # AI текст в видео # AI Стиль преобразования видео

1 год назад

043K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

SVLS: SadTalker улучшен для создания цифровых людей на основе портретного видео

Общее введение

Список функций

Использование помощи

Подготовка к защите окружающей среды

Структура проекта

моделируемое рассуждение

эффект синтеза

Модель предварительного обучения

Tifa-DeepsexV2-7b-MGRPO: модель, поддерживающая ролевые игры и сложные диалоги, с производительностью выше 32b (с пакетом установки в один клик)

debdeb.io: ИИ обсуждает обе стороны спора, основываясь на введенных темах, обучает навыкам ведения дебатов с обеих сторон

Похожие статьи

QwenLong-L1.5 - модель вывода длинных текстов с открытым исходным кодом лаборатории Али Тонги

Klee: запуск макромоделей ИИ локально на рабочем столе и управление частной базой знаний

Privatemode: приложение для чата с искусственным интеллектом, предлагающее сквозное шифрование для защиты конфиденциальности корпоративных данных

Haiper: AI Video Creation Tool|Text to Video|Image to Video|Video Style Converter|Extended Video

Нет комментариев

Последние коллекции

Последние статьи

SVLS: SadTalker улучшен для создания цифровых людей на основе портретного видео

Общее введение

Список функций

Использование помощи

Подготовка к защите окружающей среды

Структура проекта

моделируемое рассуждение

эффект синтеза

Модель предварительного обучения

Tifa-DeepsexV2-7b-MGRPO: модель, поддерживающая ролевые игры и сложные диалоги, с производительностью выше 32b (с пакетом установки в один клик)

debdeb.io: ИИ обсуждает обе стороны спора, основываясь на введенных темах, обучает навыкам ведения дебатов с обеих сторон

Похожие статьи

QwenLong-L1.5 - модель вывода длинных текстов с открытым исходным кодом лаборатории Али Тонги

Klee: запуск макромоделей ИИ локально на рабочем столе и управление частной базой знаний

Privatemode: приложение для чата с искусственным интеллектом, предлагающее сквозное шифрование для защиты конфиденциальности корпоративных данных

Haiper: AI Video Creation Tool|Text to Video|Image to Video|Video Style Converter|Extended Video

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи