Step1X-Edit: инструмент с открытым исходным кодом для редактирования изображений с помощью инструкций на естественном языке
Общее введение
Step1X-Edit - это фреймворк для редактирования изображений с открытым исходным кодом, разработанный командой Stepfun AI и размещенный на GitHub. Он объединяет мультимодальную модель большого языка (Qwen-VL) и диффузионный трансформатор (DiT), позволяя пользователям редактировать изображение с помощью простых команд естественного языка, таких как изменение фона, удаление объекта или переключение стилей. Выпущенный 25 апреля 2025 года, проект по производительности близок к моделям с закрытым исходным кодом, таким как GPT-4o и Близнецы 2 Flash. step1X-Edit предоставляет веса моделей, код выводов и бенчмаркинг GEdit-Bench для поддержки широкого спектра сценариев редактирования. Лицензия Apache 2.0 позволяет свободное использование и коммерческое развитие, привлекая разработчиков, дизайнеров и исследователей. Сообщество активно поддерживает проект и запустило ComfyUI Плагины и квантованные версии FP8 для оптимизации аппаратных требований.
В настоящее время доступен в Шаг AI Бесплатный опыт. Однако реальные результаты редактирования изображений несколько отличаются от GPT-4o и Gemini 2 Flash.

Список функций
- Поддерживает команды на естественном языке для редактирования изображений, например "Сменить фон на пляж" или "Удалить людей с фотографии".
- Разбор изображений и текстовых команд с помощью мультимодальной модели большого языка (Qwen-VL) для создания точных правок.
- Генерирует высококачественные изображения на основе диффузионного преобразователя (DiT), сохраняющего детали исходного изображения.
- Предоставляет бенчмарк GEdit-Bench для оценки производительности редактирования под реальными командами пользователя.
- Поддержка количественных моделей FP8, снижение требований к аппаратному обеспечению и адаптация к GPU с малым объемом памяти.
- Интеграция с плагином ComfyUI упрощает рабочий процесс и повышает удобство работы.
- Доступна онлайн-демонстрация, позволяющая пользователям ознакомиться с функциями редактирования без установки.
- Открытый исходный код весов модели и код вывода для поддержки вторичных разработок и исследований.
Использование помощи
Процесс установки
Чтобы использовать Step1X-Edit, необходимо установить среду и загрузить модель весов. Ниже приведены подробные шаги, подходящие для систем Linux (рекомендуется Ubuntu 20.04 или выше):
- Подготовка среды
Убедитесь, что в вашей системе установлен Python 3.10 или выше, а также инструментарий CUDA (рекомендуется 12.1). Рекомендуется наличие графического процессора (лучше всего 80 ГБ оперативной памяти, например NVIDIA H800), но версии FP8 quantised поддерживают меньший объем оперативной памяти (16 или 24 ГБ).conda create -n step1x python=3.10 conda activate step1x
- склад клонов
Загрузите код проекта Step1X-Edit с GitHub:git clone https://github.com/stepfun-ai/Step1X-Edit.git cd Step1X-Edit
- Установка зависимостей
Установите PyTorch (рекомендуется 2.3.1 или 2.5.1) и связанные с ним библиотеки:pip install torch==2.3.1 torchvision --index-url https://download.pytorch.org/whl/cu121 pip install -r requirements.txt
Установите Flash Attention (опционально, для ускорения рассуждений):
pip install flash-attn --no-build-isolation
Если у вас возникли проблемы с установкой Flash Attention, вы можете обратиться к официальному скрипту, чтобы сгенерировать предварительно скомпилированный файл колеса, подходящий для вашей системы:
python scripts/find_flash_attn_wheel.py
- Скачать модельные веса
Загрузите веса модели и переменный автокодер (VAE) из Hugging Face или ModelScope:- Шаг1X-Редактирование модели:
step1x-edit-i1258.safetensors
(примерно 24,9 ГБ) - VAE:
vae.safetensors
(около 335 МБ) - Модель Qwen-VL:
Qwen/Qwen2.5-VL-7B-Instruct
Автоматизированные загрузки с помощью скриптов Python:
from huggingface_hub import snapshot_download import os target_dir = "models/step1x" os.makedirs(target_dir, exist_ok=True) # 下载 Step1X-Edit 模型 snapshot_download(repo_id="stepfun-ai/Step1X-Edit", local_dir=target_dir, allow_patterns=["step1x-edit-i1258.safetensors"]) # 下载 VAE snapshot_download(repo_id="stepfun-ai/Step1X-Edit", local_dir=target_dir, allow_patterns=["vae.safetensors"]) # 下载 Qwen-VL qwen_dir = os.path.join(target_dir, "Qwen2.5-VL-7B-Instruct") snapshot_download(repo_id="Qwen/Qwen2.5-VL-7B-Instruct", local_dir=qwen_dir)
- Шаг1X-Редактирование модели:
- рассуждения о беге
Отредактируйте изображение, используя предоставленный скрипт обоснования. Например, отредактируйте изображение и измените фон:python scripts/run_inference.py --image_path assets/demo.png --prompt "将背景改为夜空" --output_path output.png
Описание параметра:
--image_path
: Введите путь к изображению.--prompt
: Команды редактирования (например, "изменить небо на закат").--output_path
: Путь к выходному изображению.--size_level
: Разрешение (по умолчанию 512x512, 1024x1024 требует больше памяти).--seed
: Случайные семена для контроля согласованности генерации.
Использование плагина ComfyUI
Step1X-Edit предлагает плагин ComfyUI для пользователей, желающих интегрировать его в рабочие процессы.
- Клонируйте репозиторий плагинов ComfyUI:
cd path/to/ComfyUI/custom_nodes git clone https://github.com/quank123wip/ComfyUI-Step1X-Edit.git
- Установите модельные грузы на
ComfyUI/models/Step1x-Edit
Каталог:step1x-edit-i1258.safetensors
vae.safetensors
- Папка с моделью Qwen-VL:
Qwen2.5-VL-7B-Instruct
- Запустите ComfyUI и загрузите узел Step1X-Edit.
- В интерфейсе ComfyUI загрузите изображение, введите команду редактирования (например, "Добавить крылья") и запустите рабочий процесс для получения результата.
Основные функции
- редактор естественного языка
Пользователь загружает изображение и вводит текстовую команду. Например, чтобы изменить фон фотографии на вид на горы, введите "change background to mountain view". Модель анализирует команду с помощью Qwen-VL, извлекает семантику и генерирует новое изображение в сочетании с DiT. Рекомендуется, чтобы команды были четкими и конкретными, например, "Изменить небо на голубое звездное небо" более эффективно, чем "Украсить небо". - Удаление или добавление объектов
Такие команды, как "Удалить человека с фотографии" или "Добавить дерево". Модель сохраняет остальную часть изображения и точно редактирует указанную область. В сложных сценах многократная настройка команд позволяет оптимизировать результат. - смена стиля
Поддерживается стилизованное редактирование, например, "преобразовать изображение в стиль пиксель-арт" или "изменить на стиль Миядзаки". Модель рассеивается, чтобы получить стилизованное изображение. - Онлайн-демонстрация
Зайдите на сайт Hugging Face (https://huggingface.co/spaces/stepfun-ai/Step1X-Edit), загрузите изображение, введите инструкции и испытайте его на себе. Каждая генерация ограничена временем GPU, а у бесплатных пользователей есть две попытки.
предостережение
- требования к оборудованиюВерсия FP8 с квантованием может быть уменьшена до 16 ГБ памяти для таких графических процессоров, как 3090 Ti.
- Оптимизация командСложное редактирование требует подробных инструкций, например, "измените фон на снежные горы, а персонажей переднего плана оставьте без изменений".
- Поддержка общества: Репозиторий GitHub имеет активное сообщество, поэтому при возникновении проблем загляните в Issues или Discussions.
сценарий применения
- создание контента
Дизайнеры используют Step1X-Edit для быстрой смены фона или корректировки стилей рекламных материалов. Например, измените фон фотографии товара на праздничный, чтобы повысить визуальную привлекательность. - Редактирование личных фотографий
Обычные пользователи могут украсить свои фотографии, например, убрать фоновые помехи или изменить дневную фотографию на ночную, с помощью онлайн-демонстраций, которые просты в использовании и не требуют профессиональных навыков. - Оптимизация продуктов электронной коммерции
Платформы электронной коммерции используют Step1X-Edit для создания изображений для демонстрации товаров в различных сценариях, например, для размещения одежды на пляжном или городском фоне, чтобы сэкономить расходы на съемку. - научные исследования
Исследователи используют набор данных GEdit-Bench и весовые коэффициенты моделей для разработки новых алгоритмов редактирования изображений или сравнения производительности моделей.
QA
- Какие разрешения поддерживает Step1X-Edit?
Поддерживаются разрешения 512x512 и 1024x1024. 512x512 быстрее и требует меньше памяти; 1024x1024 более детализированное и требует больше памяти. - Как оптимизировать результаты редактирования?
Используйте конкретные инструкции и избегайте расплывчатых описаний. Несколько раз попробуйте разные формулировки, чтобы улучшить результаты. Например, "изменить небо на красный закат" будет понятнее, чем "изменить небо". - Поддерживает ли он китайские команды?
Да, модель поддерживает команды на китайском языке с результатами, сравнимыми с английскими. Рекомендуется описывать требования лаконичным языком. - FP8 В чем разница между квантованными версиями?
Версия FP8 требует меньше памяти (16 ГБ для работы), но при этом может немного уступать в детализации. Идеально подходит для пользователей с ограниченными аппаратными ресурсами. - Нужна ли для работы сеть?
Для локальной работы не требуется подключение к Интернету. Для демонстрации онлайн требуется доступ к пространству Hugging Face.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...