ConsisID: портретная справочная карта для создания видео с учетом характера, быстрая многотерминальная интеграция

Последние ресурсы по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

57.7K 00

Общее введение

ConsisID - это проект с открытым исходным кодом, разработанный группой Юань Ронга в Пекинском университете и направленный на достижение согласованности текста и видео (IPT2V) с помощью методов частотного разложения. В основе проекта лежит модель, основанная на DiT (Diffusion Transformer), которая способна поддерживать идентичность символов при генерации видео. Проект ConsisID не только предоставляет полный код и набор данных, но и включает подробное руководство по установке и использованию, чтобы пользователи могли быстро начать работу. Этот проект имеет большое значение в области генерации видео, особенно в сценариях, где необходимо сохранять единообразие персонажей, таких как кино- и телепроизводство, виртуальная реальность и т.д.

Список функций

Создание видео с учетом идентификационных данных: Для создания видеороликов, соответствующих описанию входного текста и сохраняющих идентичность символов, используется метод частотного разложения.
Открытый исходный код и наборы данных: Полный код и частичные наборы данных предоставляются для облегчения вторичной разработки и исследований.
Поддержка нескольких платформПоддержка работы в системах Windows и Linux, предоставление расширений Jupyter Notebook и ComfyUI.
Оптимизация для высококачественных подсказок: Оптимизация ввода слов текстовой подсказки с помощью GPT-4o для улучшения качества создаваемого видео.
Оптимизация памяти GPU: Предоставляет множество вариантов оптимизации памяти GPU для различных аппаратных конфигураций.
Вклад в развитие сообщества: Поддержка плагинов и расширений, разработанных сообществом, которые улучшают функциональность и удобство использования.

Использование помощи

Конфигурация среды

Клонируйте код проекта:

   git clone --depth=1 https://github.com/PKU-YuanGroup/ConsisID.git
cd ConsisID

Создайте и активируйте виртуальную среду:

   conda create -n consisid python=3.11.0
conda activate consisid

Установите зависимость:

   pip install -r requirements.txt

Скачать модельные веса

Скачайте весы с сайта HuggingFace:

   huggingface-cli download --repo-type model BestWishYsh/ConsisID-preview --local-dir ckpts

Или загрузите его с сайта WiseModel:

   git lfs install
git clone https://www.wisemodel.cn/SHYuanBest/ConsisID-Preview.git

пример работы

Запустите пример веб-интерфейса:

   python app.py

Запустите рассуждения из командной строки:

   python infer.py --model_path BestWishYsh/ConsisID-preview

Оптимизация слов реплики

Используйте GPT-4o для оптимизации ввода слов текстовой подсказки, например, исходное слово подсказки: "Мужчина играет на гитаре". Оптимизированное слово подсказки: "На видео мужчина стоит рядом с самолетом и разговаривает по мобильному телефону. На нем солнцезащитные очки, черный топ и серьезное выражение лица. У самолета зеленая полоса по бокам и большой двигатель сзади".

Оптимизация памяти GPU

Если у вас нет нескольких графических процессоров или достаточного количества памяти GPU, вы можете включить следующие опции:

pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

Примечание: Включение этих опций увеличивает время вывода и может снизить качество генерации.

Предварительная обработка данных

Данные, необходимые для обучения ConsisID, см. в руководстве по предварительной обработке данных в проекте. Если вам нужно обучить модели генерации текста в изображение и видео, вам нужно организовать набор данных в следующем формате:

datasets/
├── captions/
│   ├── dataname_1.json
│   ├── dataname_2.json
├── dataname_1/
│   ├── refine_bbox_jsons/
│   ├── track_masks_data/
│   ├── videos/
├── dataname_2/
│   ├── refine_bbox_jsons/
│   ├── track_masks_data/
│   ├── videos/
├── ...
├── total_train_data.txt