EasyControl: бесплатный инструмент для превращения портретов в изображения в стиле Гибли

Общее введение

EasyControl - это проект с открытым исходным кодом, который обеспечивает эффективное и гибкое управление генерацией изображений на основе архитектуры Diffusion Transformer (DiT). Среди них - функция Ghibli Control LoRA, которая позволяет трансформировать реальные портреты в анимационный стиль Ghibli с сохранением черт лица путем обучения всего на 100 азиатских лицах и их GPT-4o сгенерированных изображениях в стиле Ghibli. EasyControl поддерживает множество условных входов, включая края, глубину, позы и т.д., а модель Ghibli является Модель Гибли является изюминкой стилизованной генерации. Проект лицензирован под лицензией Apache 2.0 только для исследовательских целей. Последние обновления по состоянию на 3 апреля 2025 года включают модель в стиле Гибли и онлайн-демонстрацию.

EasyControl:将人像转为吉卜力风格图像的免费工具

Свободный опыт: https://huggingface.co/spaces/jamesliu1217/EasyControl_Ghibli

 

Список функций

  • Преобразование портрета в стиль Ghibli: введите изображение реального лица, чтобы создать изображение в стиле анимации Ghibli.
  • Сохранение черт лица: обучение на основе 100 азиатских лиц гарантирует отсутствие искажения деталей после преобразования.
  • Поддерживает широкий спектр условных элементов управления: Edge (Canny), Depth (Depth), Pose (Pose) и другие.
  • Гибкий вывод разрешения: поддерживает создание изображений с различной высотой и шириной.
  • Эффективная генерация: сочетание механизма причинного внимания и технологии KV Cache для ускорения вывода.
  • Подключаемые модули: Ghibli LoRA можно использовать с такими моделями DiT, как FLUX.1-dev) легко интегрируется.

 

Использование помощи

EasyControl подходит для пользователей с техническим образованием, особенно для исследователей и творческих работников. Ниже приведено подробное руководство по установке и использованию функций Ghibli.

Процесс установки

  1. Подготовка среды
    Требуется Python 3.10 и PyTorch с поддержкой CUDA. Создайте среду Conda:
conda create -n easycontrol python=3.10
conda activate easycontrol
  1. склад клонов
    Загрузите проект EasyControl:
git clone https://github.com/Xiaojiu-z/EasyControl.git
cd EasyControl
  1. Установка зависимостей
    Установите необходимые библиотеки:
pip install -r requirements.txt

Пользователям GPU необходимо убедиться, что PyTorch поддерживает CUDA.

  1. Скачать модель Ghibli
    Получите Ghibli LoRA от Hugging Face:
from huggingface_hub import hf_hub_download
hf_hub_download(repo_id="Xiaojiu-Z/EasyControl", filename="models/Ghibli.safetensors", local_dir="./")

Если он недоступен, можно воспользоваться зеркальными сайтами:

export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download --resume-download Xiaojiu-Z/EasyControl --local-dir checkpoints
  1. Проверка установки
    Запустите сценарий тестирования:
python demo.py

Если образ сгенерирован, значит, установка прошла успешно.

Основные функции

1. Создание изображений в стиле Гибли

  • процедура
    Инициализируйте модель и загрузите Ghibli LoRA:
import torch
from PIL import Image
from src.pipeline import FluxPipeline
from src.lora_helper import set_single_lora
device = "cuda"
base_path = "FLUX.1-dev"  # 基础模型路径
pipe = FluxPipeline.from_pretrained(base_path, torch_dtype=torch.bfloat16).to(device)
set_single_lora(pipe.transformer, "models/Ghibli.safetensors", lora_weights=[1], cond_size=512)
prompt = "Ghibli Studio style, Charming hand-drawn anime-style illustration"
subject_image = Image.open("test_imgs/portrait.png").convert("RGB")
image = pipe(
prompt,
height=1024,
width=1024,
guidance_scale=3.5,
num_inference_steps=25,
subject_images=[subject_image],
cond_size=512,
generator=torch.Generator("cpu").manual_seed(1)
).images[0]
image.save("output/ghibli_result.png")
  • в конце концов
    Экспортируйте изображения в стиле Ghibli, сохраните в output/ghibli_result.png.

2. Использование онлайн-демонстраций

  • процедура
    Посетите пространство Hugging Face на сайте https://huggingface.co/spaces/jamesliu1217/EasyControl_Ghibli:

    1. Загрузите портретное изображение.
    2. Введите слово подсказки:Ghibli Studio style, Charming hand-drawn anime-style illustration.
    3. Установите высоту и ширину (ограничены аппаратными средствами, по умолчанию 256x256, высокое разрешение требует локальной работы).
    4. Нажмите "Создать изображение" и подождите 20-40 секунд.
  • в конце концов
    Создает изображения низкого разрешения в стиле Гибли.

Функциональное управление

Генерация высокого разрешения

  • процедура
    В локальном режиме измените параметры высоты и ширины:

    image = pipe(prompt, height=1024, width=1024, ...)
    
  • принимать к сведению
    Требуется не менее 12 ГБ памяти GPU, иначе он может не работать.

Очистка кэша

  • процедура
    Очищайте кэш после каждого поколения:

    def clear_cache(transformer):
    for name, attn_processor in transformer.attn_processors.items():
    attn_processor.bank_kv.clear()
    clear_cache(pipe.transformer)
    

Советы и рекомендации

  • Подсказка должна содержать Ghibli Studio style, Charming hand-drawn anime-style illustration чтобы запустить стиль.
  • В качестве входного изображения рекомендуется использовать четкий портрет с разрешением 512x512 или более.
  • Онлайн-демонстрация ограничена аппаратными возможностями и поддерживает только низкое разрешение (256x256).

 

сценарий применения

  1. Дизайн анимационных персонажей
    Преобразуйте реальные портреты в стиль Ghibli, чтобы быстро создать анимированные прототипы персонажей.
  2. искусство
    Художник создает иллюстрации в стиле ручной графики по образцу Ghibli, чтобы повысить эффективность работы.
  3. Образовательные исследования
    Исследователь изучает применение условного управления в стилизованной генерации.

 

QA

  1. Почему разрешение, создаваемое в режиме онлайн, низкое?
    Онлайн-демонстрация аппаратно ограничена 256x256, а для создания изображений 1024x1024 ее нужно запускать локально.
  2. Что делать, если созданное изображение не похоже на стиль Ghibli?
    Убедитесь, что подсказка содержит слово запуска, или проверьте, что входное изображение чистое.
  3. Поддерживает ли он непортретный ввод?
    Да, но модель Ghibli оптимизирована для лиц и может не работать с другими входами.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...