Версия пакета Digital Man Integration Pack для визуальных манипуляций на основе Wav2Lip
Привет всем, сегодня я делюсь с вами инструментом для создания цифровых людей! Он прост в использовании и поддерживает пакетную обработку. (Интеграционный пакет в конце статьи, чтобы взять их собственные) Я считаю, что мы узнали что-то о технологии цифровых людей, до большого пожара Го Деган говорить по-английски, русская красавица говорить по-китайски, и т.д. являются воплощением цифровых людей технологии.
На самом деле существует множество видов цифровых людей, например, тот, которым я поделился, - это видео-форма цифровых людей, а еще есть 3D-модели цифровых людей, сделанные с помощью UnrealEngine, и все они применяются в разных местах. Интересующиеся могут отправиться разбираться, здесь же не так много объяснений.
Что? Вы не знаете, что такое цифровой человек? ("Baidu")
Тем не менее, тот, которым мы поделились сегодня, на самом деле находится в оригинале Wav2Lip Проект основан на оптимизации, и при развертывании вниз я также обнаружил множество проблем, таких как кэширование, интерфейс, проблемы эффективности выполнения и так далее, и целенаправленную оптимизацию.

Требования к конфигурации
Windows (компьютер)
N-карта должна быть N-картой! Процессор не поддерживается!
MAC
Находится в разработке, все еще работает над проблемами с mps! Уже несколько дней пытаемся! Так что, любители MAC подождут еще немного?
Не думайте, что я медлю, друзья, я много тестирую и смотрю, можно ли что-то оптимизировать в каждом интеграционном пакете, когда он уже готов!
Обновления
Что нового по сравнению с оригиналом
1. Добавлен интерфейс webui.
2. Поддержка пакетной обработки.
3. оптимизация исходной задачи кэширования.
4. оптимизация эффективности обработки.
Использование
намерение
Необходимо подготовить аудио- и видеофайлы.
аудиофайл (компьютер)::
- Рекомендуется, чтобы длина аудио была равна длине видео (например, если видео длится 10 секунд, то и длина аудио должна быть 10 секунд. Если длина аудио превышает длину видео, видео будет автоматически зацикливаться в обратном направлении, чтобы продлить его).
- Формат аудиофайлов: wav и mp3
видеофайл::
- Во всех выбранных кадрах видео должно присутствовать лицо, иначе будет выдано сообщение об ошибке. (Например, если длина видео составляет 10 секунд, а в середине есть 2 секунды кадров без лица, будет выдано сообщение об ошибке)
- Рекомендуемый формат видео mp4 с кодировкой H264
Совет: Эта версия поддерживает пакетную обработку. Пакетная обработка поддерживает несколько видео с несколькими аудио, несколько видео с одним аудио.
Пример:
- У вас есть 3 видео и 3 аудио, тогда они будут обработаны в том порядке, в котором вы выбрали: видео 1 соответствует аудио 1, а видео 2 - аудио 2.
- Если у вас есть 3 видео и 1 аудио, то все загруженные вами видео будут обработаны так, как будто они соответствуют этому аудио. Видео 1 соответствует аудио 1, видео 2 соответствует аудио 1, а видео 3 соответствует аудио 3.
начало обработки
Самый простой способ:
Перетащите видео и аудио в соответствующие поля для файлов, нажмите "Начать генерацию" и закончите!

Если вы хотите подробнее узнать, что делает каждый параметр, читайте дальше!
Детали параметров
Качество видео:
Быстро и оперативно: режим преобразования звука Wav2Lip в тип порта.
Улучшено: преобразование звука Wav2Lip в режим губ + губы с маской для удаления границ вокруг губ.
Улучшено: Wav2Lip Audio to Lip Mode + Mask Feathering + GFPGAN HD Face Enhancement
Экспериментально: оптимизация эффективности выполнения на усовершенствованной модели.

Рекомендуется по умолчанию, если ваш компьютер не слишком плохо настроен.Расширенныйответить пениемЭкспериментальный
Варианты разрешения
полное разрешение
половинное разрешение
Внимание:
При тестировании в половинном разрешении в некоторых случаях возникают несовместимые проблемы, поэтому рекомендуется выбрать полное разрешение.
Параметры версии Wav2Lip
Wav2Lip
Преимущества: более точная синхронизация рта, удерживает рот закрытым при отсутствии звука.
Недостатки: иногда приводит к отсутствию зубов (в некоторых случаях).
Wav2Lip_GAN
Плюсы: эффект выглядит лучше и сохраняет оригинальное выражение динамики.
Минусы: Не очень хорошо скрывает необработанные губы, особенно без звука.
Рекомендация:
Сначала попробуйте Wav2Lip, затем переключитесь на версию Wav2Lip_GAN, если столкнетесь с эффектом большого зазора в рупоре.
Включить сглаживание лица
Если эта функция включена, wav2lip будет обрезать лицо на каждом кадре независимо.
Идеально подходит для быстрого перемещения или редактирования видео.
Если лицо странно наклонено, это может привести к конвульсиям.
Если отключить эту функцию, wav2lip будет смешивать обнаруженные позиции лиц между 5 кадрами.
Идеально подходит для медленного движения, особенно для лиц, которые не принято наклонять.
Когда лицо быстро перемещается по кадру, рот может быть смещен и выглядеть ужасно между кадрами.
Набивка (Заполнение)::
Этот параметр регулирует количество пикселей, добавляемых или удаляемых из кадрирования лица в каждом направлении.

Эта опция может помочь убрать жесткие линии на подбородке или других краях лица, но слишком сильная или слишком слабая заливка может изменить размер или положение рта. Обычно принято добавлять 10 пикселей к нижней части, и рекомендуется поэкспериментировать с разными значениями, чтобы найти наилучший результат.
Раздел "Маска" Маска

Размер маски
увеличит размер области, покрываемой маской.(Граница вокруг лица может уменьшить это значение, например, до 1,5)
Нанесение масок
Определяет степень смешивания между центром и краями маски.(Окантовка вокруг лица также может увеличить это значение).
Включить отслеживание рта маски
Будет обновлять положение маски в соответствии с положением рта на каждом кадре (медленнее).
Внимание:
Поскольку кадры обрезаются по лицу, положение рта уже приблизительно определено, и эта функция включается только в том случае, если замечено, что маска видео не следует за ртом.
Включение отладки маски
При включении этого параметра фон станет полутоновым, а маска - цветной, и вы сможете увидеть положение маски в кадре. (После изменения значения параметра на True вы сможете более наглядно увидеть его действие)
Приобретение интеграционного пакета

Кварк: https://pan.quark.cn/s/382936a190e2
Baidu:https://pan.baidu.com/s/17FJpF-V3rxhlg89QunLIDw?pwd=9mnu
довести до конца
Если говорить только о цифровых людях, то на самом деле существует множество способов достижения, таких как heygen, Wav2lip, Geneface++ и т.д., эти инструменты по эффекту не одинаковы, у каждого есть свои преимущества и недостатки.
Я предлагаю вам на рассмотрение еще одну идею производства: используйте FaceFusion Сначала выполните обмен лицами на видео, а затем используйте GPT. SoVITS Выполняется синтез речи, а затем проект используется для производства цифровой демографии.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...