PhotoDoodle: ИИ-инструмент для добавления художественных каракулей к фотографиям с помощью текстовых команд
Общее введение
PhotoDoodle - это инструмент для редактирования изображений с открытым исходным кодом, разработанный компанией ShowLab и ориентированный на художественное редактирование фотографий с помощью технологии искусственного интеллекта. Пользователи могут добавлять мультяшный стиль, 3D-эффект, ореол, крылья и другие декоративные элементы к реальным фотографиям, просто вводя простые текстовые подсказки, создавая сочетание реальных и виртуальных произведений искусства. Он основан на мощной модели глубокого обучения, поддерживает меньшее количество примеров обучения и может быстро адаптироваться к индивидуальному стилю пользователя, что делает его подходящим для художников, дизайнеров или обычных пользователей для создания творческих работ. Проект размещен на GitHub, где представлены код, наборы данных и предварительно обученные модели, которые разработчики могут воспроизвести или развить дважды. Его уникальная функция "фотограффити" восполняет пробел в традиционном программном обеспечении для редактирования, сохраняя целостность фона фотографии и органично вписывая в него художественные элементы, что привлекло широкое внимание.

Список функций
- Редактирование произведений искусства с помощью текста: Автоматическая генерация элементов граффити по текстовому описанию (например, "добавить мультяшного монстра" или "добавить эффект ореола").
- Проба меньшей учебной поддержки: Обучение и генерирование индивидуального стиля редактирования с использованием лишь небольшого количества данных о сопряжении, предоставленных пользователем.
- Высококачественный сплав реальности и вымысла: Убедитесь, что добавленные элементы естественно сочетаются с фоном фотографии с точки зрения перспективы, света и тени.
- Открытые данные и модели: Предоставляет предварительно обученные модели и наборы данных различных стилей для прямой загрузки и использования пользователями.
- Поддержка открытых источников: Позволяет разработчикам изменять код или интегрировать его в другие проекты с высокой гибкостью.
- Возможность пакетной обработки: Поддерживает одновременное редактирование нескольких изображений для повышения эффективности.
Использование помощи
PhotoDoodle - это проект с открытым исходным кодом, основанный на GitHub, и для его установки и использования пользователям требуется определенная техническая база. Ниже представлено подробное руководство по установке и использованию, которое поможет вам быстро начать работу.
Процесс установки
- Подготовка к защите окружающей среды
- Убедитесь, что на вашем компьютере установлены Git, Python 3.11.10 и Conda.
- Откройте терминал и введите следующую команду, чтобы клонировать проект локально:
git clone git@github.com:showlab/PhotoDoodle.git cd PhotoDoodle
- Создайте и активируйте виртуальную среду:
conda create -n doodle python=3.11.10 conda activate doodle
- Установка зависимостей
- Установите PyTorch (рекомендуется версия с ускорением CUDA, если у вас есть GPU):
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
- Установите другие зависимости:
pip install --upgrade -r requirements.txt
- Дождитесь завершения установки и убедитесь, что сеть свободна.
- Установите PyTorch (рекомендуется версия с ускорением CUDA, если у вас есть GPU):
- Загрузите предварительно обученную модель
- Проект предоставляет несколько предварительно обученных моделей, которые необходимо загрузить вручную. Посетите страницы PhotoDoodle на GitHub Releases или Hugging Face dataset, чтобы загрузить файлы моделей (например.
OmniEditor
ответить пениемEditLoRA
). - Поместите загруженные файлы моделей в указанную папку в каталоге проекта (описание пути см. в README, обычно это
checkpoints/
).
- Проект предоставляет несколько предварительно обученных моделей, которые необходимо загрузить вручную. Посетите страницы PhotoDoodle на GitHub Releases или Hugging Face dataset, чтобы загрузить файлы моделей (например.
- Проверка установки
- Запустите в терминале тестовую команду (например, пример сценария, приведенный в README) и проверьте наличие ошибок. Если ошибок нет, установка прошла успешно.
Использование
Основной функционал PhotoDoodle - редактирование фотографий с помощью текстовых команд, работающее в двух сценариях: прямое использование предварительно обученных моделей и пользовательское обучение.
Редактирование фотографий с помощью предварительно обученных моделей
- Подготовьте фотографию
- Поместите фотографию, которую нужно отредактировать (например.
source.jpg
) в каталог проекта подinput/
(если такой папки не существует, создайте ее самостоятельно).
- Поместите фотографию, которую нужно отредактировать (например.
- Выполните команду редактирования
- Введите следующую команду в терминале (при условии, что он активирован)
doodle
(Окружающая среда):python inference.py --source input/source.jpg --prompt "在照片上添加卡通风格的翅膀" --output output/result.jpg
- Описание параметра:
--source
: Источник фото пути.--prompt
: Текстовая директива, описывающая элемент, который вы хотите добавить.--output
: Выводит путь результата.
- После выполнения сгенерированные результаты сохраняются в файле
output/result.jpg
.
- Введите следующую команду в терминале (при условии, что он активирован)
- Посмотреть результаты
- показать (билет)
output/
папку, чтобы проверить созданные изображения. Команды корректировки (например, "Добавить эффект света и тени") могут создавать различные стили.
- показать (билет)
Индивидуальный стиль обучения
- Подготовка парных наборов данных
- Создайте
.jsonl
Файлы (например.dataset.jsonl
), записывая по паре изображений и описаний на строку:{"source": "path/to/source.jpg", "target": "path/to/modified.jpg", "caption": "添加蓝色光环"} {"source": "path/to/source2.jpg", "target": "path/to/modified2.jpg", "caption": "增加卡通怪物"}
- Подготовьте не менее 5-10 пар образов, которые отражают ваши потребности в стиле.
- Создайте
- Запустите сценарий обучения
- главнокомандующий (военный)
.jsonl
в каталог проекта и выполните его:python train.py --data dataset.jsonl --model OmniEditor --output_dir trained_model/
- Время обучения зависит от объема данных и производительности оборудования (рекомендуется GPU), а после завершения модель сохраняется в
trained_model/
.
- главнокомандующий (военный)
- Редактирование с помощью пользовательских моделей
- Выводы с использованием обученных моделей:
python inference.py --source input/source.jpg --prompt "添加我的风格元素" --model trained_model/checkpoint.pth --output output/custom_result.jpg
- Проверьте результат, чтобы убедиться, что он соответствует ожиданиям.
- Выводы с использованием обученных моделей:
Детали процесса эксплуатации
- пакетное редактирование: Поместите несколько изображений в
input/
папку, скрипт модификации поддерживает обработку циклов (например, добавление--batch
параметр, подробности реализации см. в комментариях к коду). - Эффект корректировкиЕсли смешение неестественно, добавьте в подсказку детали (например, "соответствует свету и тени фона") или настройте параметры модели (см.
config/
(Документация). - Проблемы отладки: Если что-то пошло не так, проверьте версию Python, зависимости или обратитесь за помощью к сообществу на GitHub Issues.
предостережение
- Требования к аппаратному обеспечению: для скорости рекомендуется GPU (например, с поддержкой NVIDIA CUDA), CPU может работать, но медленнее.
- Качество данных: чем выше разрешение исходного изображения, тем лучше результат; настраиваемый набор данных должен быть согласованным.
- Опыт работы в режиме онлайн: некоторые функции можно протестировать в режиме онлайн через Hugging Face Spaces без локальной установки.
Выполнив эти действия, вы сможете легко придать художественную привлекательность своим фотографиям с помощью PhotoDoodle, будь то быстрая проба или глубокая настройка.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...