PhotoDoodle: ИИ-инструмент для добавления художественных каракулей к фотографиям с помощью текстовых команд

Общее введение

PhotoDoodle - это инструмент для редактирования изображений с открытым исходным кодом, разработанный компанией ShowLab и ориентированный на художественное редактирование фотографий с помощью технологии искусственного интеллекта. Пользователи могут добавлять мультяшный стиль, 3D-эффект, ореол, крылья и другие декоративные элементы к реальным фотографиям, просто вводя простые текстовые подсказки, создавая сочетание реальных и виртуальных произведений искусства. Он основан на мощной модели глубокого обучения, поддерживает меньшее количество примеров обучения и может быстро адаптироваться к индивидуальному стилю пользователя, что делает его подходящим для художников, дизайнеров или обычных пользователей для создания творческих работ. Проект размещен на GitHub, где представлены код, наборы данных и предварительно обученные модели, которые разработчики могут воспроизвести или развить дважды. Его уникальная функция "фотограффити" восполняет пробел в традиционном программном обеспечении для редактирования, сохраняя целостность фона фотографии и органично вписывая в него художественные элементы, что привлекло широкое внимание.

PhotoDoodle:文字指令为照片添加艺术涂鸦的AI工具

 

Список функций

  • Редактирование произведений искусства с помощью текста: Автоматическая генерация элементов граффити по текстовому описанию (например, "добавить мультяшного монстра" или "добавить эффект ореола").
  • Проба меньшей учебной поддержки: Обучение и генерирование индивидуального стиля редактирования с использованием лишь небольшого количества данных о сопряжении, предоставленных пользователем.
  • Высококачественный сплав реальности и вымысла: Убедитесь, что добавленные элементы естественно сочетаются с фоном фотографии с точки зрения перспективы, света и тени.
  • Открытые данные и модели: Предоставляет предварительно обученные модели и наборы данных различных стилей для прямой загрузки и использования пользователями.
  • Поддержка открытых источников: Позволяет разработчикам изменять код или интегрировать его в другие проекты с высокой гибкостью.
  • Возможность пакетной обработки: Поддерживает одновременное редактирование нескольких изображений для повышения эффективности.

 

Использование помощи

PhotoDoodle - это проект с открытым исходным кодом, основанный на GitHub, и для его установки и использования пользователям требуется определенная техническая база. Ниже представлено подробное руководство по установке и использованию, которое поможет вам быстро начать работу.

Процесс установки

  1. Подготовка к защите окружающей среды
    • Убедитесь, что на вашем компьютере установлены Git, Python 3.11.10 и Conda.
    • Откройте терминал и введите следующую команду, чтобы клонировать проект локально:
      git clone git@github.com:showlab/PhotoDoodle.git
      cd PhotoDoodle
      
    • Создайте и активируйте виртуальную среду:
      conda create -n doodle python=3.11.10
      conda activate doodle
      
  2. Установка зависимостей
    • Установите PyTorch (рекомендуется версия с ускорением CUDA, если у вас есть GPU):
      pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
      
    • Установите другие зависимости:
      pip install --upgrade -r requirements.txt
      
    • Дождитесь завершения установки и убедитесь, что сеть свободна.
  3. Загрузите предварительно обученную модель
    • Проект предоставляет несколько предварительно обученных моделей, которые необходимо загрузить вручную. Посетите страницы PhotoDoodle на GitHub Releases или Hugging Face dataset, чтобы загрузить файлы моделей (например. OmniEditor ответить пением EditLoRA).
    • Поместите загруженные файлы моделей в указанную папку в каталоге проекта (описание пути см. в README, обычно это checkpoints/).
  4. Проверка установки
    • Запустите в терминале тестовую команду (например, пример сценария, приведенный в README) и проверьте наличие ошибок. Если ошибок нет, установка прошла успешно.

Использование

Основной функционал PhotoDoodle - редактирование фотографий с помощью текстовых команд, работающее в двух сценариях: прямое использование предварительно обученных моделей и пользовательское обучение.

Редактирование фотографий с помощью предварительно обученных моделей

  1. Подготовьте фотографию
    • Поместите фотографию, которую нужно отредактировать (например. source.jpg) в каталог проекта под input/ (если такой папки не существует, создайте ее самостоятельно).
  2. Выполните команду редактирования
    • Введите следующую команду в терминале (при условии, что он активирован) doodle (Окружающая среда):
      python inference.py --source input/source.jpg --prompt "在照片上添加卡通风格的翅膀" --output output/result.jpg
      
    • Описание параметра:
      • --source: Источник фото пути.
      • --prompt: Текстовая директива, описывающая элемент, который вы хотите добавить.
      • --output: Выводит путь результата.
    • После выполнения сгенерированные результаты сохраняются в файле output/result.jpg.
  3. Посмотреть результаты
    • показать (билет) output/ папку, чтобы проверить созданные изображения. Команды корректировки (например, "Добавить эффект света и тени") могут создавать различные стили.

Индивидуальный стиль обучения

  1. Подготовка парных наборов данных
    • Создайте .jsonl Файлы (например. dataset.jsonl), записывая по паре изображений и описаний на строку:
      {"source": "path/to/source.jpg", "target": "path/to/modified.jpg", "caption": "添加蓝色光环"}
      {"source": "path/to/source2.jpg", "target": "path/to/modified2.jpg", "caption": "增加卡通怪物"}
      
    • Подготовьте не менее 5-10 пар образов, которые отражают ваши потребности в стиле.
  2. Запустите сценарий обучения
    • главнокомандующий (военный) .jsonl в каталог проекта и выполните его:
      python train.py --data dataset.jsonl --model OmniEditor --output_dir trained_model/
      
    • Время обучения зависит от объема данных и производительности оборудования (рекомендуется GPU), а после завершения модель сохраняется в trained_model/.
  3. Редактирование с помощью пользовательских моделей
    • Выводы с использованием обученных моделей:
      python inference.py --source input/source.jpg --prompt "添加我的风格元素" --model trained_model/checkpoint.pth --output output/custom_result.jpg
      
    • Проверьте результат, чтобы убедиться, что он соответствует ожиданиям.

Детали процесса эксплуатации

  • пакетное редактирование: Поместите несколько изображений в input/ папку, скрипт модификации поддерживает обработку циклов (например, добавление --batch параметр, подробности реализации см. в комментариях к коду).
  • Эффект корректировкиЕсли смешение неестественно, добавьте в подсказку детали (например, "соответствует свету и тени фона") или настройте параметры модели (см. config/ (Документация).
  • Проблемы отладки: Если что-то пошло не так, проверьте версию Python, зависимости или обратитесь за помощью к сообществу на GitHub Issues.

предостережение

  • Требования к аппаратному обеспечению: для скорости рекомендуется GPU (например, с поддержкой NVIDIA CUDA), CPU может работать, но медленнее.
  • Качество данных: чем выше разрешение исходного изображения, тем лучше результат; настраиваемый набор данных должен быть согласованным.
  • Опыт работы в режиме онлайн: некоторые функции можно протестировать в режиме онлайн через Hugging Face Spaces без локальной установки.

Выполнив эти действия, вы сможете легко придать художественную привлекательность своим фотографиям с помощью PhotoDoodle, будь то быстрая проба или глубокая настройка.

© заявление об авторских правах

Похожие статьи

LTX Studio:拥有分镜管理工具的AI电影制作平台,可设置多人物保持面部一致

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...