ConsisID: портретная справочная карта для создания видео с учетом характера, быстрая многотерминальная интеграция

Общее введение

ConsisID - это проект с открытым исходным кодом, разработанный группой Юань Ронга в Пекинском университете и направленный на достижение согласованности текста и видео (IPT2V) с помощью методов частотного разложения. В основе проекта лежит модель, основанная на DiT (Diffusion Transformer), которая способна поддерживать идентичность символов при генерации видео. Проект ConsisID не только предоставляет полный код и набор данных, но и включает подробное руководство по установке и использованию, чтобы пользователи могли быстро начать работу. Этот проект имеет большое значение в области генерации видео, особенно в сценариях, где необходимо сохранять единообразие персонажей, таких как кино- и телепроизводство, виртуальная реальность и т.д.

ConsisID:一张人像参考图,生成人物一致的视频,多终端快速集成

 

ConsisID:一张人像参考图,生成人物一致的视频,多终端快速集成

 

Список функций

  • Создание видео с учетом идентификационных данных: Для создания видеороликов, соответствующих описанию входного текста и сохраняющих идентичность символов, используется метод частотного разложения.
  • Открытый исходный код и наборы данных: Полный код и частичные наборы данных предоставляются для облегчения вторичной разработки и исследований.
  • Поддержка нескольких платформПоддержка работы в системах Windows и Linux, предоставление расширений Jupyter Notebook и ComfyUI.
  • Оптимизация для высококачественных подсказок: Оптимизация ввода слов текстовой подсказки с помощью GPT-4o для улучшения качества создаваемого видео.
  • Оптимизация памяти GPU: Предоставляет множество вариантов оптимизации памяти GPU для различных аппаратных конфигураций.
  • Вклад в развитие сообщества: Поддержка плагинов и расширений, разработанных сообществом, которые улучшают функциональность и удобство использования.

 

Использование помощи

Конфигурация среды

  1. Клонируйте код проекта:
   git clone --depth=1 https://github.com/PKU-YuanGroup/ConsisID.git
cd ConsisID
  1. Создайте и активируйте виртуальную среду:
   conda create -n consisid python=3.11.0
conda activate consisid
  1. Установите зависимость:
   pip install -r requirements.txt

Скачать модельные веса

  1. Скачайте весы с сайта HuggingFace:
   huggingface-cli download --repo-type model BestWishYsh/ConsisID-preview --local-dir ckpts
  1. Или загрузите его с сайта WiseModel:
   git lfs install
git clone https://www.wisemodel.cn/SHYuanBest/ConsisID-Preview.git

пример работы

  1. Запустите пример веб-интерфейса:
   python app.py
  1. Запустите рассуждения из командной строки:
   python infer.py --model_path BestWishYsh/ConsisID-preview

Оптимизация слов реплики

Используйте GPT-4o для оптимизации ввода слов текстовой подсказки, например, исходное слово подсказки: "Мужчина играет на гитаре". Оптимизированное слово подсказки: "На видео мужчина стоит рядом с самолетом и разговаривает по мобильному телефону. На нем солнцезащитные очки, черный топ и серьезное выражение лица. У самолета зеленая полоса по бокам и большой двигатель сзади".

Оптимизация памяти GPU

Если у вас нет нескольких графических процессоров или достаточного количества памяти GPU, вы можете включить следующие опции:

pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

Примечание: Включение этих опций увеличивает время вывода и может снизить качество генерации.

Предварительная обработка данных

Данные, необходимые для обучения ConsisID, см. в руководстве по предварительной обработке данных в проекте. Если вам нужно обучить модели генерации текста в изображение и видео, вам нужно организовать набор данных в следующем формате:

datasets/
├── captions/
│   ├── dataname_1.json
│   ├── dataname_2.json
├── dataname_1/
│   ├── refine_bbox_jsons/
│   ├── track_masks_data/
│   ├── videos/
├── dataname_2/
│   ├── refine_bbox_jsons/
│   ├── track_masks_data/
│   ├── videos/
├── ...
├── total_train_data.txt

обучение модели

  1. Установите гиперпараметры:
   bash train_single_rank.sh
  1. Начните обучение:
   bash train_multi_rank.sh

Вклад в развитие сообщества

Спасибо разработчикам сообщества за плагины и расширения:

  • ComfyUI-ConsisIDWrapper
  • Jupyter-ConsisID
  • Windows-ConsisID

 

Быстрая интеграция ConsisID

Опыт работы в Интернете:Обнимающееся лицо

Установщик Windows:Обнимающееся лицоНачинающий интеллект ИИ

Узел ComfyUI:ComfyUI-CogVideoXWrapper openart: https://openart.ai/workflows/TxIQ6lwGkRx2zQiYjvE5

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...