EchoMimic: аудиопортреты для создания говорящих видео (ускоренный установщик EchoMimicV2)

Последние ресурсы по искусственному интеллектуОбновлено 1 год назад Круг обмена ИИ

57.4K 00

Общее введение

EchoMimic - это проект с открытым исходным кодом, направленный на создание реалистичной портретной анимации, управляемой звуком. Разработанный подразделением Terminal Technologies компании Ant Group, проект использует редактируемые условия маркерных точек для создания динамических портретных видеороликов, сочетающих аудио и маркерные точки лица. EchoMimic был всесторонне сравнен с многочисленными публичными и собственными наборами данных, продемонстрировав свою превосходную производительность как в количественных, так и в качественных оценках.

В версии EchoMimicV2 оптимизирована скорость вывода, добавлены действия с жестами, рекомендуется.

EchoMimic：音频驱动人像照片生成说话视频（EchoMimicV2加速版安装包）

Демо-адрес: https://www.modelscope.cn/studios/BadToBest/BadToBest V2: https://huggingface.co/spaces/fffiloni/echomimic-v2

Список функций

Анимация аудиодрайвера: Генерируйте реалистичные портретные анимации с использованием звукового сопровождения.
Анимация с использованием маркерных точек: Создание стабильных портретных анимаций с использованием точек-маркеров на лице.
Аудио + маркерный драйвер: Сочетание звука и выбранных маркеров лица для создания более естественных портретных анимаций.
Поддержка нескольких языков: Поддерживает ввод звука на китайском, английском и других языках.
Эффективное рассуждение: Оптимизированные модели и конвейеры значительно повышают скорость вычислений.

Использование помощи

Процесс установки

Код загрузки::

git clone https://github.com/BadToBest/EchoMimic
cd EchoMimic

Настройка среды Python::
- Для создания виртуальной среды рекомендуется использовать conda:
```
conda create -n echomimic python=3.8
conda activate echomimic
```
- Установите пакеты зависимостей:
```
pip install -r requirements.txt
```
Скачайте и разархивируйте ffmpeg-static::
- Скачайте ffmpeg-static и распакуйте его, затем установите переменную окружения:
```
export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static
```
Загрузите предтренировочные веса::
- Загрузите соответствующие веса предварительно обученной модели в соответствии с описанием проекта.

Процесс использования

Запуск веб-интерфейса::
- Запустите веб-интерфейс:
```
python webgui.py
```
- Зайдите на локальный сервер, чтобы посмотреть интерфейс и загрузить аудиофайлы для создания анимации.
рассуждения из командной строки::
- Для создания анимации портрета с помощью звука используйте следующие команды:
```
python infer_audio2vid.py --audio_path /path/to/audio --output_path /path/to/output
```
- Рассуждения в сочетании с указателями:
```
python infer_audio2vid_pose.py --audio_path /path/to/audio --landmark_path /path/to/landmark --output_path /path/to/output
```
Оптимизация модели::
- Использование оптимизированной модели и конвейера позволяет значительно повысить скорость вычислений, например, с 7 мин/240 кадров в секунду до 50 с/240 кадров в секунду на графических процессорах V100.

предостережение

Убедитесь, что используемые версии Python и CUDA соответствуют требованиям проекта.
Если у вас возникнут проблемы в процессе использования, вы можете обратиться к файлу README проекта или отправить проблему на GitHub для получения помощи.

Программа установки Windows одним щелчком мыши

Ссылка: https://pan.quark.cn/s/cc973b142d41
Код экстракта: 5T57

EchoMimicV2 Ускоренная загрузка

Кварк: https://pan.quark.cn/s/12acd147a758

Baidu: https://pan.baidu.com/s/1z8tiuGtN29luQ7Cg2zHJ8Q?pwd=9e8x

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # AI Digital Man

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

fofa сканирует полный веб OpenWebUI для достижения свободы использования больших моделей (нестабильно)

Последние ресурсы по искусственному интеллекту # AI Open Services

1 год назад

045.3K

Kommunicate: чат-бот с искусственным интеллектом, автоматизирующий обслуживание клиентов

Последние ресурсы по искусственному интеллекту Робот для обслуживания клиентов # AI

12 месяцев назад

050.5K

CR-Mentor: база знаний + LLM-ориентированный интеллектуальный ментор по проверке кода для GitHub

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Программирование искусственного интеллекта

1 год назад

053.3K

AI Podcast Generator: автоматический захват новостей для создания аудиоподкастов

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Инструмент для обобщения текстов и аудио/видео с использованием искусственного интеллекта

1 год назад

054.4K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

EchoMimic: аудиопортреты для создания говорящих видео (ускоренный установщик EchoMimicV2)

Общее введение

Список функций