EasyControl: una herramienta gratuita para convertir retratos en imágenes al estilo Ghibli

Introducción general

EasyControl es un proyecto de código abierto que proporciona un control de generación de imágenes eficaz y flexible basado en la arquitectura del transformador de difusión (DiT). Entre ellas, Ghibli Control LoRA es una de sus funciones destacadas, que puede transformar retratos reales en estilo de animación Ghibli preservando los rasgos faciales mediante el entrenamiento con sólo 100 rostros asiáticos y sus imágenes de estilo Ghibli generadas por GPT-4o.EasyControl admite una gran variedad de entradas condicionales, como bordes, profundidades, poses, etc., y el modelo Ghibli es el El modelo Ghibli es lo más destacado de la generación estilizada. El proyecto está licenciado bajo la licencia Apache 2.0 sólo para fines de investigación. Las últimas actualizaciones a 3 de abril de 2025 incluyen el modelo de estilo Ghibli y una demo en línea.

EasyControl:将人像转为吉卜力风格图像的免费工具

Experiencia gratuita: https://huggingface.co/spaces/jamesliu1217/EasyControl_Ghibli

 

Lista de funciones

  • Convierte un retrato al estilo Ghibli: Introduce una imagen de rostro real para generar una imagen al estilo de animación Ghibli.
  • Preserva los rasgos faciales: el entrenamiento basado en 100 rostros asiáticos garantiza que no se distorsionen los detalles tras la conversión.
  • Admite una gran variedad de controles condicionales: incluyendo Borde (Canny), Profundidad (Depth), Pose (Pose) y más.
  • Resolución de salida flexible: admite la generación de imágenes con diferentes alturas y anchuras.
  • Generación eficiente: combinación del mecanismo de atención causal y la tecnología KV Cache para acelerar la inferencia.
  • Módulos plug-and-play: Ghibli LoRA puede utilizarse con modelos DiT como FLUX.1-dev) perfectamente integrado.

 

Utilizar la ayuda

EasyControl es adecuado para usuarios con formación técnica, especialmente investigadores y creativos. A continuación encontrará una guía detallada para instalar y utilizar las funciones de Ghibli.

Proceso de instalación

  1. Preparar el entorno
    Requiere Python 3.10 y PyTorch con soporte CUDA. Crear un entorno Conda:
conda create -n easycontrol python=3.10
conda activate easycontrol
  1. almacén de clones
    Descargue el proyecto EasyControl:
git clone https://github.com/Xiaojiu-z/EasyControl.git
cd EasyControl
  1. Instalación de dependencias
    Instale las bibliotecas necesarias:
pip install -r requirements.txt

Los usuarios de GPU deben asegurarse de que PyTorch soporta CUDA.

  1. Descargar el modelo Ghibli
    Consigue el Ghibli LoRA de Hugging Face:
from huggingface_hub import hf_hub_download
hf_hub_download(repo_id="Xiaojiu-Z/EasyControl", filename="models/Ghibli.safetensors", local_dir="./")

Si no es accesible, hay sitios espejo disponibles:

export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download --resume-download Xiaojiu-Z/EasyControl --local-dir checkpoints
  1. Verificar la instalación
    Ejecute el script de prueba:
python demo.py

Si se genera una imagen, la instalación se ha realizado correctamente.

Funciones principales

1. Generación de imágenes al estilo Ghibli

  • procedimiento
    Inicializa el modelo y carga el Ghibli LoRA:
import torch
from PIL import Image
from src.pipeline import FluxPipeline
from src.lora_helper import set_single_lora
device = "cuda"
base_path = "FLUX.1-dev"  # 基础模型路径
pipe = FluxPipeline.from_pretrained(base_path, torch_dtype=torch.bfloat16).to(device)
set_single_lora(pipe.transformer, "models/Ghibli.safetensors", lora_weights=[1], cond_size=512)
prompt = "Ghibli Studio style, Charming hand-drawn anime-style illustration"
subject_image = Image.open("test_imgs/portrait.png").convert("RGB")
image = pipe(
prompt,
height=1024,
width=1024,
guidance_scale=3.5,
num_inference_steps=25,
subject_images=[subject_image],
cond_size=512,
generator=torch.Generator("cpu").manual_seed(1)
).images[0]
image.save("output/ghibli_result.png")
  • al final
    Exportar imágenes de estilo Ghibli, guardar en output/ghibli_result.png.

2. Uso de demostraciones en línea

  • procedimiento
    Visite el espacio Hugging Face en https://huggingface.co/spaces/jamesliu1217/EasyControl_Ghibli:

    1. Sube una imagen de retrato.
    2. Introduzca la palabra clave:Ghibli Studio style, Charming hand-drawn anime-style illustration.
    3. Establecer altura y anchura (limitado por hardware, por defecto 256x256, alta resolución requiere operación local).
    4. Haga clic en "Generar imagen" y espere entre 20 y 40 segundos.
  • al final
    Genera imágenes de baja resolución al estilo Ghibli.

Función destacada Operación

Generación de alta resolución

  • procedimiento
    En tiempo de ejecución local, modifique los parámetros de altura y anchura:

    image = pipe(prompt, height=1024, width=1024, ...)
    
  • tenga en cuenta
    Requiere al menos 12 GB de memoria en la GPU o puede fallar.

Borrar la caché

  • procedimiento
    Borra la caché después de cada generación:

    def clear_cache(transformer):
    for name, attn_processor in transformer.attn_processors.items():
    attn_processor.bank_kv.clear()
    clear_cache(pipe.transformer)
    

Trucos y consejos

  • El mensaje debe contener Ghibli Studio style, Charming hand-drawn anime-style illustration para activar el estilo.
  • Se recomienda que la imagen de entrada sea un retrato claro con una resolución de 512x512 o superior.
  • La demostración en línea está limitada por el hardware y sólo admite una resolución baja (256x256).

 

escenario de aplicación

  1. Animación Diseño de personajes
    Convierte retratos reales al estilo Ghibli para generar rápidamente prototipos de personajes animados.
  2. arte
    Un artista crea ilustraciones al estilo del dibujo a mano con el modelo Ghibli para mejorar la eficacia.
  3. Investigación educativa
    El investigador explora la aplicación del control condicional en la generación estilizada.

 

CONTROL DE CALIDAD

  1. ¿Por qué la resolución generada en línea es baja?
    La demostración en línea está limitada por el hardware y sólo admite 256x256, por lo que es necesario ejecutarla localmente para generar imágenes de 1024x1024.
  2. ¿Y si la imagen generada no se parece al estilo Ghibli?
    Asegúrese de que el indicador contiene la palabra de activación, o compruebe que la imagen de entrada es clara.
  3. ¿Es compatible con la entrada no vertical?
    Sí, pero el modelo Ghibli está optimizado para las caras y otras entradas pueden no funcionar tan bien.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...