EchoMimic: аудиопортреты для создания говорящих видео (ускоренный установщик EchoMimicV2)

Общее введение

EchoMimic - это проект с открытым исходным кодом, направленный на создание реалистичной портретной анимации, управляемой звуком. Разработанный подразделением Terminal Technologies компании Ant Group, проект использует редактируемые условия маркерных точек для создания динамических портретных видеороликов, сочетающих аудио и маркерные точки лица. EchoMimic был всесторонне сравнен с многочисленными публичными и собственными наборами данных, продемонстрировав свою превосходную производительность как в количественных, так и в качественных оценках.

В версии EchoMimicV2 оптимизирована скорость вывода, добавлены действия с жестами, рекомендуется.

EchoMimic:音频驱动人像照片生成说话视频(EchoMimicV2加速版安装包)

Демо-адрес: https://www.modelscope.cn/studios/BadToBest/BadToBest V2: https://huggingface.co/spaces/fffiloni/echomimic-v2

 

Список функций

  • Анимация аудиодрайвера: Генерируйте реалистичные портретные анимации с использованием звукового сопровождения.
  • Анимация с использованием маркерных точек: Создание стабильных портретных анимаций с использованием точек-маркеров на лице.
  • Аудио + маркерный драйвер: Сочетание звука и выбранных маркеров лица для создания более естественных портретных анимаций.
  • Поддержка нескольких языков: Поддерживает ввод звука на китайском, английском и других языках.
  • Эффективное рассуждение: Оптимизированные модели и конвейеры значительно повышают скорость вычислений.

 

Использование помощи

Процесс установки

  1. Код загрузки::
    git clone https://github.com/BadToBest/EchoMimic
    cd EchoMimic
    
  2. Настройка среды Python::
    • Для создания виртуальной среды рекомендуется использовать conda:
      conda create -n echomimic python=3.8
      conda activate echomimic
      
    • Установите пакеты зависимостей:
      pip install -r requirements.txt
      
  3. Скачайте и разархивируйте ffmpeg-static::
    • Скачайте ffmpeg-static и распакуйте его, затем установите переменную окружения:
      export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static
      
  4. Загрузите предтренировочные веса::
    • Загрузите соответствующие веса предварительно обученной модели в соответствии с описанием проекта.

Процесс использования

  1. Запуск веб-интерфейса::
    • Запустите веб-интерфейс:
      python webgui.py
      
    • Зайдите на локальный сервер, чтобы посмотреть интерфейс и загрузить аудиофайлы для создания анимации.
  2. рассуждения из командной строки::
    • Для создания анимации портрета с помощью звука используйте следующие команды:
      python infer_audio2vid.py --audio_path /path/to/audio --output_path /path/to/output
      
    • Рассуждения в сочетании с указателями:
      python infer_audio2vid_pose.py --audio_path /path/to/audio --landmark_path /path/to/landmark --output_path /path/to/output
      
  3. Оптимизация модели::
    • Использование оптимизированной модели и конвейера позволяет значительно повысить скорость вычислений, например, с 7 мин/240 кадров в секунду до 50 с/240 кадров в секунду на графических процессорах V100.

предостережение

  • Убедитесь, что используемые версии Python и CUDA соответствуют требованиям проекта.
  • Если у вас возникнут проблемы в процессе использования, вы можете обратиться к файлу README проекта или отправить проблему на GitHub для получения помощи.

 

Программа установки Windows одним щелчком мыши

Ссылка: https://pan.quark.cn/s/cc973b142d41
Код экстракта: 5T57

 

EchoMimicV2 Ускоренная загрузка

Кварк: https://pan.quark.cn/s/12acd147a758

Baidu: https://pan.baidu.com/s/1z8tiuGtN29luQ7Cg2zHJ8Q?pwd=9e8x

© заявление об авторских правах

Похожие статьи

multi-model-bolt.new:基于 Bolt.new 的开源修改版,AI驱动的全栈开发工具

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...