One-Prompt-One-Story: текстовые подсказки формируют последовательные образы персонажей

Последние ресурсы по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

48.1K 00

Общее введение

One-Prompt-One-Story (1Prompt1Story) - это инновационный инструмент генерации текста в изображение, предназначенный для последовательной генерации изображений из одной подсказки. Он был представлен на ICLR 2025 Тао Лю и др. В нем используется подход, не требующий обучения, который позволяет генерировать высококачественные изображения, сохраняя при этом последовательность идентификации персонажей. 1Prompt1Story работает со всеми моделями преобразования текста в изображение, основанными на текстовых вкраплениях, и поддерживает многосимвольную генерацию, генерацию, управляемую ControlNet, и персонализированную генерацию. Инструмент обеспечивает высокое соответствие сгенерированных изображений входному описанию с помощью одного запроса на ввод, в сочетании с перевзвешиванием сингулярных значений и методами перекрестного внимания с сохранением идентичности.

Список функций

Последовательное формирование образа личности: Генерируйте изображения, сохраняющие постоянную идентичность персонажей, с помощью одного запроса.
Демоверсия Gradio: Для ознакомления и тестирования предоставляется онлайн-демонстрация.
Бенчмаркинг Consistory+: Содержит 200 наборов киев, каждый из которых содержит от 5 до 10 киев, разделенных на 8 суперклассов.
Многоролевая генерация: Поддержка генерации изображений, содержащих несколько символов.
Генерация загрузочной ленты ControlNet: Управляет процессом генерации с помощью технологии ControlNet.
Персонализация: Поддерживает создание персонализированных реальных изображений на основе требований пользователя.

Использование помощи

Процесс установки

Клонируйте этот репозиторий:

   git clone https://github.com/byliutao/1Prompt1Story

Перейдите в каталог репозитория:

   cd 1Prompt1Story

Создайте и активируйте виртуальную среду:

   conda create --name 1p1s python=3.10
conda activate 1p1s

Установите зависимости:

   conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
conda install conda-forge::transformers
conda install -c conda-forge diffusers
pip install opencv-python scipy gradio==4.44.1 sympy==1.13.1

Процесс использования

Запустите код примера:

   python main.py

Запустите демоверсию Gradio:

   python app.py

Запустите контрольный тест Consistory+:

   python -m resource.gen_benchmark --save_dir ./result/benchmark --benchmark_path ./resource/consistory+.yaml

Основные функции

Последовательное формирование образа личности: Введите в поле ввода одну подсказку, описывающую личность персонажа и место действия, и нажмите кнопку Generate, чтобы получить изображение, сохраняющее личность персонажа.
Многоролевая генерация: Включите в запрос описание нескольких ролей, и инструмент автоматически сгенерирует изображение, содержащее все роли.
Генерация загрузочной ленты ControlNetК подсказкам добавляются описания, связанные с ControlNet, и процесс генерации направляется в соответствии с технологией ControlNet, чтобы обеспечить высокое соответствие изображений описаниям.
Персонализация: Создайте реальное изображение, соответствующее требованиям, на основе персонализированного описания, введенного пользователем.