PiT: инструмент для создания целостных изображений из частей изображения (не открыт)

Последние ресурсы по искусственному интеллектуОпубликовано 11 месяцев назад Круг обмена ИИ

Общее введение

PiT (Piece it Together) - это инструмент с открытым исходным кодом, размещенный на GitHub и разработанный такими исследователями, как Элад Ричардсон из Тель-Авивского университета. Он позволяет пользователям вводить фрагменты изображения, такие как крылья, прически или глаза, а затем использовать методы искусственного интеллекта для создания целостного изображения. PiT устраняет необходимость в текстовых описаниях, используя части изображения в качестве входных данных, и полагается на предварительно обученную модель, IP-Prior, для заполнения недостающих частей, а затем, наконец, рендерит результат через SDXL. Этот инструмент подходит для визуальных дизайнеров или исследователей, чтобы быстро собрать воедино творческие идеи. Последний код и описание PiT по состоянию на 25 марта 2025 года можно найти на GitHub.

Список функций

пазл: Ввод фрагментированных частей изображения для создания целостного изображения.
Внимание к деталямДополнительные изображения остаются неизменными в зависимости от характеристик детали.
Ввод чистого изображения: Никаких текстовых подсказок, только картинки для управления.
Множественные результаты: Поддержка различного количества деталей, что позволяет создавать широкий спектр возможных изображений.
проект с открытым исходным кодом: Код находится в открытом доступе на GitHub и может быть свободно загружен и изменен.
Доступные стили: Поддерживает создание изображений определенного стиля с помощью настройки IP-LoRA.
адаптация домена: Различные модели IP-Prior могут быть использованы для создания изображений, подходящих для определенных тем.

Использование помощи

PiT - это проект с открытым исходным кодом на GitHub для пользователей с базовыми навыками программирования. Здесь представлено подробное руководство по установке и использованию, которое поможет вам быстро начать работу.

Процесс установки

Подготовка среды
- Убедитесь, что на вашем компьютере установлен Python 3.8 или выше.
- Установите Git (Windows с git-scm.com Загрузка, вход для Mac/Linux git --version (Проверка).
- Для ускорения генерации рекомендуется использовать устройство с GPU (например, видеокарту NVIDIA с CUDA). Можно использовать устройство без GPU, но это будет медленнее.
Код загрузки
- Откройте терминал или командную строку.
- Введите команду для загрузки PiT:
```
git clone https://github.com/eladrich/PiT.git
```
- Перейдите в папку с проектом:
```
cd PiT
```
Установка зависимостей
- Для проекта требуются такие библиотеки Python, как torch, иnumpyСписок находится по адресу requirements.txt Средний.
- Выполните команду для установки:
```
pip install -r requirements.txt
```
- Если у вас нет этого файла, обратитесь к README, чтобы установить его. diffusers, иtransformers и т.д.
Получение модели
- PiT опирается на модели IP-Prior и IP-Adapter+, ссылки на скачивание находятся на GitHub или в статье (https://arxiv.org/abs/2503.10365).
- Поместите модель в указанную директорию (например. models/), путь просматривается в README.
Установка SDXL
- PiT рендерит изображения с помощью SDXL. Установка diffusers::
```
pip install diffusers
```
- Загрузите модель SDXL с сайта Hugging Face и сохраните ее локально.

Использование

Подготовьте детали
- Рекомендуется собирать части изображения (например, уши, логотипы) в формате PNG с чистым фоном.
- В папку ввода в проекте (например. input/).
программа бега
- Войдите в каталог PiT в терминале.
- Выполните скрипт (при условии, что generate.py(подробности см. в README):
```
python generate.py --input_dir input/ --output_dir output/
```
- Описание параметра:
  - --input_dir: Папка с запчастями.
  - --output_dir: Результаты сохраняются в папке.
- Программа генерирует полное изображение с деталью.
Посмотреть изображение
- После генерации откройте output/ Просмотр папки.
- Если вы не удовлетворены, добавьте больше деталей или измените четкое изображение.

Функциональное управление

Количество деталей
Вы можете ввести 1 или несколько частей. Например, укажите "лапы" и "хвост", чтобы создать полноценное животное. Лучше, чтобы части были в одном стиле.
стайлинг
С помощью IP-LoRA можно добавить подсказки по стилю. Пример:
```
python generate.py --input_dir input/ --output_dir output/ --prompt "卡通风格"
```
После этого можно создавать карикатурные изображения.
(Математика) коммутативная модель домена
PiT поддерживает различные модели IP-Prior (например, игрушки, существа). При переключении загружается соответствующий файл модели, о работе см. в README.
Результаты оптимизации
Если изображение размыто, проверьте, чиста ли деталь, или добавьте параметры:
```
python generate.py --input_dir input/ --steps 50
```

предостережение

Детали должны быть четкими и не должны быть слишком маленькими или загроможденными.
Первый запуск медленный, последующие будут быстрыми.
В случае ошибки установите недостающие библиотеки, как будет предложено.

Эти шаги помогут вам создать целостное изображение с помощью PiT. Для выполнения этой операции требуется программирование, но сам процесс прост.

сценарий применения

Вдохновение дизайнера
Дизайнеры вводят детали (например, крылья, шляпы), чтобы собрать полноценных персонажей и быстро опробовать идеи.
Концепция продукта
Разработчики используют детали (например, кнопки, фигуры) для создания новых образов продуктов и изучения направлений дизайна.
Техническое обучение
Исследователи использовали PiT, чтобы проверить, как ИИ может складывать пазлы из частей, чтобы понять принципы создания изображений.

QA

В чем разница между PiT и другими инструментами?
PiT - это прямой пазл с частями изображения, без текста, подходящий для визуального творчества.
Нужно ли обучать модель?
Не обязательно, есть официальные предварительно обученные модели, но вы можете обучить и настроить их самостоятельно.
Быстро ли он генерируется?
Это не быстро, в зависимости от устройства занимает от нескольких секунд до нескольких минут.