PhotoDoodle: ИИ-инструмент для добавления художественных каракулей к фотографиям с помощью текстовых команд

Последние ресурсы по искусственному интеллектуОпубликовано 11 месяцев назад Круг обмена ИИ

56.4K 00

Общее введение

PhotoDoodle - это инструмент для редактирования изображений с открытым исходным кодом, разработанный компанией ShowLab и ориентированный на художественное редактирование фотографий с помощью технологии искусственного интеллекта. Пользователи могут добавлять мультяшный стиль, 3D-эффект, ореол, крылья и другие декоративные элементы к реальным фотографиям, просто вводя простые текстовые подсказки, создавая сочетание реальных и виртуальных произведений искусства. Он основан на мощной модели глубокого обучения, поддерживает меньшее количество примеров обучения и может быстро адаптироваться к индивидуальному стилю пользователя, что делает его подходящим для художников, дизайнеров или обычных пользователей для создания творческих работ. Проект размещен на GitHub, где представлены код, наборы данных и предварительно обученные модели, которые разработчики могут воспроизвести или развить дважды. Его уникальная функция "фотограффити" восполняет пробел в традиционном программном обеспечении для редактирования, сохраняя целостность фона фотографии и органично вписывая в него художественные элементы, что привлекло широкое внимание.

Список функций

Редактирование произведений искусства с помощью текста: Автоматическая генерация элементов граффити по текстовому описанию (например, "добавить мультяшного монстра" или "добавить эффект ореола").
Проба меньшей учебной поддержки: Обучение и генерирование индивидуального стиля редактирования с использованием лишь небольшого количества данных о сопряжении, предоставленных пользователем.
Высококачественный сплав реальности и вымысла: Убедитесь, что добавленные элементы естественно сочетаются с фоном фотографии с точки зрения перспективы, света и тени.
Открытые данные и модели: Предоставляет предварительно обученные модели и наборы данных различных стилей для прямой загрузки и использования пользователями.
Поддержка открытых источников: Позволяет разработчикам изменять код или интегрировать его в другие проекты с высокой гибкостью.
Возможность пакетной обработки: Поддерживает одновременное редактирование нескольких изображений для повышения эффективности.

Использование помощи

PhotoDoodle - это проект с открытым исходным кодом, основанный на GitHub, и для его установки и использования пользователям требуется определенная техническая база. Ниже представлено подробное руководство по установке и использованию, которое поможет вам быстро начать работу.

Процесс установки

Подготовка к защите окружающей среды
- Убедитесь, что на вашем компьютере установлены Git, Python 3.11.10 и Conda.
- Откройте терминал и введите следующую команду, чтобы клонировать проект локально:
```
git clone git@github.com:showlab/PhotoDoodle.git
cd PhotoDoodle
```
- Создайте и активируйте виртуальную среду:
```
conda create -n doodle python=3.11.10
conda activate doodle
```
Установка зависимостей
- Установите PyTorch (рекомендуется версия с ускорением CUDA, если у вас есть GPU):
```
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
```
- Установите другие зависимости:
```
pip install --upgrade -r requirements.txt
```
- Дождитесь завершения установки и убедитесь, что сеть свободна.
Загрузите предварительно обученную модель
- Проект предоставляет несколько предварительно обученных моделей, которые необходимо загрузить вручную. Посетите страницы PhotoDoodle на GitHub Releases или Hugging Face dataset, чтобы загрузить файлы моделей (например. OmniEditor ответить пением EditLoRA).
- Поместите загруженные файлы моделей в указанную папку в каталоге проекта (описание пути см. в README, обычно это checkpoints/).
Проверка установки
- Запустите в терминале тестовую команду (например, пример сценария, приведенный в README) и проверьте наличие ошибок. Если ошибок нет, установка прошла успешно.

Использование

Основной функционал PhotoDoodle - редактирование фотографий с помощью текстовых команд, работающее в двух сценариях: прямое использование предварительно обученных моделей и пользовательское обучение.

Редактирование фотографий с помощью предварительно обученных моделей

Подготовьте фотографию
- Поместите фотографию, которую нужно отредактировать (например. source.jpg) в каталог проекта под input/ (если такой папки не существует, создайте ее самостоятельно).
Выполните команду редактирования
- Введите следующую команду в терминале (при условии, что он активирован) doodle (Окружающая среда):
```
python inference.py --source input/source.jpg --prompt "在照片上添加卡通风格的翅膀" --output output/result.jpg
```
- Описание параметра:
  - --source: Источник фото пути.
  - --prompt: Текстовая директива, описывающая элемент, который вы хотите добавить.
  - --output: Выводит путь результата.
- После выполнения сгенерированные результаты сохраняются в файле output/result.jpg.
Посмотреть результаты
- показать (билет) output/ папку, чтобы проверить созданные изображения. Команды корректировки (например, "Добавить эффект света и тени") могут создавать различные стили.

Индивидуальный стиль обучения

Подготовка парных наборов данных
- Создайте .jsonl Файлы (например. dataset.jsonl), записывая по паре изображений и описаний на строку:
```
{"source": "path/to/source.jpg", "target": "path/to/modified.jpg", "caption": "添加蓝色光环"}
{"source": "path/to/source2.jpg", "target": "path/to/modified2.jpg", "caption": "增加卡通怪物"}
```
- Подготовьте не менее 5-10 пар образов, которые отражают ваши потребности в стиле.
Запустите сценарий обучения
- главнокомандующий (военный) .jsonl в каталог проекта и выполните его:
```
python train.py --data dataset.jsonl --model OmniEditor --output_dir trained_model/
```
- Время обучения зависит от объема данных и производительности оборудования (рекомендуется GPU), а после завершения модель сохраняется в trained_model/.
Редактирование с помощью пользовательских моделей
- Выводы с использованием обученных моделей:
```
python inference.py --source input/source.jpg --prompt "添加我的风格元素" --model trained_model/checkpoint.pth --output output/custom_result.jpg
```
- Проверьте результат, чтобы убедиться, что он соответствует ожиданиям.

Детали процесса эксплуатации

пакетное редактирование: Поместите несколько изображений в input/ папку, скрипт модификации поддерживает обработку циклов (например, добавление --batch параметр, подробности реализации см. в комментариях к коду).
Эффект корректировкиЕсли смешение неестественно, добавьте в подсказку детали (например, "соответствует свету и тени фона") или настройте параметры модели (см. config/ (Документация).
Проблемы отладки: Если что-то пошло не так, проверьте версию Python, зависимости или обратитесь за помощью к сообществу на GitHub Issues.

предостережение

Требования к аппаратному обеспечению: для скорости рекомендуется GPU (например, с поддержкой NVIDIA CUDA), CPU может работать, но медленнее.
Качество данных: чем выше разрешение исходного изображения, тем лучше результат; настраиваемый набор данных должен быть согласованным.
Опыт работы в режиме онлайн: некоторые функции можно протестировать в режиме онлайн через Hugging Face Spaces без локальной установки.

Выполнив эти действия, вы сможете легко придать художественную привлекательность своим фотографиям с помощью PhotoDoodle, будь то быстрая проба или глубокая настройка.