ConsisID: портретная справочная карта для создания видео с учетом характера, быстрая многотерминальная интеграция
Общее введение
ConsisID - это проект с открытым исходным кодом, разработанный группой Юань Ронга в Пекинском университете и направленный на достижение согласованности текста и видео (IPT2V) с помощью методов частотного разложения. В основе проекта лежит модель, основанная на DiT (Diffusion Transformer), которая способна поддерживать идентичность символов при генерации видео. Проект ConsisID не только предоставляет полный код и набор данных, но и включает подробное руководство по установке и использованию, чтобы пользователи могли быстро начать работу. Этот проект имеет большое значение в области генерации видео, особенно в сценариях, где необходимо сохранять единообразие персонажей, таких как кино- и телепроизводство, виртуальная реальность и т.д.


Список функций
- Создание видео с учетом идентификационных данных: Для создания видеороликов, соответствующих описанию входного текста и сохраняющих идентичность символов, используется метод частотного разложения.
- Открытый исходный код и наборы данных: Полный код и частичные наборы данных предоставляются для облегчения вторичной разработки и исследований.
- Поддержка нескольких платформПоддержка работы в системах Windows и Linux, предоставление расширений Jupyter Notebook и ComfyUI.
- Оптимизация для высококачественных подсказок: Оптимизация ввода слов текстовой подсказки с помощью GPT-4o для улучшения качества создаваемого видео.
- Оптимизация памяти GPU: Предоставляет множество вариантов оптимизации памяти GPU для различных аппаратных конфигураций.
- Вклад в развитие сообщества: Поддержка плагинов и расширений, разработанных сообществом, которые улучшают функциональность и удобство использования.
Использование помощи
Конфигурация среды
- Клонируйте код проекта:
git clone --depth=1 https://github.com/PKU-YuanGroup/ConsisID.git
cd ConsisID
- Создайте и активируйте виртуальную среду:
conda create -n consisid python=3.11.0
conda activate consisid
- Установите зависимость:
pip install -r requirements.txt
Скачать модельные веса
- Скачайте весы с сайта HuggingFace:
huggingface-cli download --repo-type model BestWishYsh/ConsisID-preview --local-dir ckpts
- Или загрузите его с сайта WiseModel:
git lfs install
git clone https://www.wisemodel.cn/SHYuanBest/ConsisID-Preview.git
пример работы
- Запустите пример веб-интерфейса:
python app.py
- Запустите рассуждения из командной строки:
python infer.py --model_path BestWishYsh/ConsisID-preview
Оптимизация слов реплики
Используйте GPT-4o для оптимизации ввода слов текстовой подсказки, например, исходное слово подсказки: "Мужчина играет на гитаре". Оптимизированное слово подсказки: "На видео мужчина стоит рядом с самолетом и разговаривает по мобильному телефону. На нем солнцезащитные очки, черный топ и серьезное выражение лица. У самолета зеленая полоса по бокам и большой двигатель сзади".
Оптимизация памяти GPU
Если у вас нет нескольких графических процессоров или достаточного количества памяти GPU, вы можете включить следующие опции:
pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()
Примечание: Включение этих опций увеличивает время вывода и может снизить качество генерации.
Предварительная обработка данных
Данные, необходимые для обучения ConsisID, см. в руководстве по предварительной обработке данных в проекте. Если вам нужно обучить модели генерации текста в изображение и видео, вам нужно организовать набор данных в следующем формате:
datasets/
├── captions/
│ ├── dataname_1.json
│ ├── dataname_2.json
├── dataname_1/
│ ├── refine_bbox_jsons/
│ ├── track_masks_data/
│ ├── videos/
├── dataname_2/
│ ├── refine_bbox_jsons/
│ ├── track_masks_data/
│ ├── videos/
├── ...
├── total_train_data.txt
обучение модели
- Установите гиперпараметры:
bash train_single_rank.sh
- Начните обучение:
bash train_multi_rank.sh
Вклад в развитие сообщества
Спасибо разработчикам сообщества за плагины и расширения:
- ComfyUI-ConsisIDWrapper
- Jupyter-ConsisID
- Windows-ConsisID
Быстрая интеграция ConsisID
Опыт работы в Интернете:Обнимающееся лицо
Установщик Windows:Обнимающееся лицоНачинающий интеллект ИИ
Узел ComfyUI:ComfyUI-CogVideoXWrapper openart: https://openart.ai/workflows/TxIQ6lwGkRx2zQiYjvE5
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...