EchoMimic: аудиопортреты для создания говорящих видео (ускоренный установщик EchoMimicV2)
Общее введение
EchoMimic - это проект с открытым исходным кодом, направленный на создание реалистичной портретной анимации, управляемой звуком. Разработанный подразделением Terminal Technologies компании Ant Group, проект использует редактируемые условия маркерных точек для создания динамических портретных видеороликов, сочетающих аудио и маркерные точки лица. EchoMimic был всесторонне сравнен с многочисленными публичными и собственными наборами данных, продемонстрировав свою превосходную производительность как в количественных, так и в качественных оценках.
В версии EchoMimicV2 оптимизирована скорость вывода, добавлены действия с жестами, рекомендуется.

Демо-адрес: https://www.modelscope.cn/studios/BadToBest/BadToBest V2: https://huggingface.co/spaces/fffiloni/echomimic-v2
Список функций
- Анимация аудиодрайвера: Генерируйте реалистичные портретные анимации с использованием звукового сопровождения.
- Анимация с использованием маркерных точек: Создание стабильных портретных анимаций с использованием точек-маркеров на лице.
- Аудио + маркерный драйвер: Сочетание звука и выбранных маркеров лица для создания более естественных портретных анимаций.
- Поддержка нескольких языков: Поддерживает ввод звука на китайском, английском и других языках.
- Эффективное рассуждение: Оптимизированные модели и конвейеры значительно повышают скорость вычислений.
Использование помощи
Процесс установки
- Код загрузки::
git clone https://github.com/BadToBest/EchoMimic cd EchoMimic
- Настройка среды Python::
- Для создания виртуальной среды рекомендуется использовать conda:
conda create -n echomimic python=3.8 conda activate echomimic
- Установите пакеты зависимостей:
pip install -r requirements.txt
- Для создания виртуальной среды рекомендуется использовать conda:
- Скачайте и разархивируйте ffmpeg-static::
- Скачайте ffmpeg-static и распакуйте его, затем установите переменную окружения:
export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static
- Скачайте ffmpeg-static и распакуйте его, затем установите переменную окружения:
- Загрузите предтренировочные веса::
- Загрузите соответствующие веса предварительно обученной модели в соответствии с описанием проекта.
Процесс использования
- Запуск веб-интерфейса::
- Запустите веб-интерфейс:
python webgui.py
- Зайдите на локальный сервер, чтобы посмотреть интерфейс и загрузить аудиофайлы для создания анимации.
- Запустите веб-интерфейс:
- рассуждения из командной строки::
- Для создания анимации портрета с помощью звука используйте следующие команды:
python infer_audio2vid.py --audio_path /path/to/audio --output_path /path/to/output
- Рассуждения в сочетании с указателями:
python infer_audio2vid_pose.py --audio_path /path/to/audio --landmark_path /path/to/landmark --output_path /path/to/output
- Для создания анимации портрета с помощью звука используйте следующие команды:
- Оптимизация модели::
- Использование оптимизированной модели и конвейера позволяет значительно повысить скорость вычислений, например, с 7 мин/240 кадров в секунду до 50 с/240 кадров в секунду на графических процессорах V100.
предостережение
- Убедитесь, что используемые версии Python и CUDA соответствуют требованиям проекта.
- Если у вас возникнут проблемы в процессе использования, вы можете обратиться к файлу README проекта или отправить проблему на GitHub для получения помощи.
Программа установки Windows одним щелчком мыши
Ссылка: https://pan.quark.cn/s/cc973b142d41
Код экстракта: 5T57
EchoMimicV2 Ускоренная загрузка
Кварк: https://pan.quark.cn/s/12acd147a758
Baidu: https://pan.baidu.com/s/1z8tiuGtN29luQ7Cg2zHJ8Q?pwd=9e8x
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...