EasyControl: una herramienta gratuita para convertir retratos en imágenes al estilo Ghibli
Últimos recursos sobre IAPublicado hace 4 meses Círculo de intercambio de inteligencia artificial 2.4K 00
Introducción general
EasyControl es un proyecto de código abierto que proporciona un control de generación de imágenes eficaz y flexible basado en la arquitectura del transformador de difusión (DiT). Entre ellas, Ghibli Control LoRA es una de sus funciones destacadas, que puede transformar retratos reales en estilo de animación Ghibli preservando los rasgos faciales mediante el entrenamiento con sólo 100 rostros asiáticos y sus imágenes de estilo Ghibli generadas por GPT-4o.EasyControl admite una gran variedad de entradas condicionales, como bordes, profundidades, poses, etc., y el modelo Ghibli es el El modelo Ghibli es lo más destacado de la generación estilizada. El proyecto está licenciado bajo la licencia Apache 2.0 sólo para fines de investigación. Las últimas actualizaciones a 3 de abril de 2025 incluyen el modelo de estilo Ghibli y una demo en línea.

Experiencia gratuita: https://huggingface.co/spaces/jamesliu1217/EasyControl_Ghibli
Lista de funciones
- Convierte un retrato al estilo Ghibli: Introduce una imagen de rostro real para generar una imagen al estilo de animación Ghibli.
- Preserva los rasgos faciales: el entrenamiento basado en 100 rostros asiáticos garantiza que no se distorsionen los detalles tras la conversión.
- Admite una gran variedad de controles condicionales: incluyendo Borde (Canny), Profundidad (Depth), Pose (Pose) y más.
- Resolución de salida flexible: admite la generación de imágenes con diferentes alturas y anchuras.
- Generación eficiente: combinación del mecanismo de atención causal y la tecnología KV Cache para acelerar la inferencia.
- Módulos plug-and-play: Ghibli LoRA puede utilizarse con modelos DiT como FLUX.1-dev) perfectamente integrado.
Utilizar la ayuda
EasyControl es adecuado para usuarios con formación técnica, especialmente investigadores y creativos. A continuación encontrará una guía detallada para instalar y utilizar las funciones de Ghibli.
Proceso de instalación
- Preparar el entorno
Requiere Python 3.10 y PyTorch con soporte CUDA. Crear un entorno Conda:
conda create -n easycontrol python=3.10
conda activate easycontrol
- almacén de clones
Descargue el proyecto EasyControl:
git clone https://github.com/Xiaojiu-z/EasyControl.git
cd EasyControl
- Instalación de dependencias
Instale las bibliotecas necesarias:
pip install -r requirements.txt
Los usuarios de GPU deben asegurarse de que PyTorch soporta CUDA.
- Descargar el modelo Ghibli
Consigue el Ghibli LoRA de Hugging Face:
from huggingface_hub import hf_hub_download
hf_hub_download(repo_id="Xiaojiu-Z/EasyControl", filename="models/Ghibli.safetensors", local_dir="./")
Si no es accesible, hay sitios espejo disponibles:
export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download --resume-download Xiaojiu-Z/EasyControl --local-dir checkpoints
- Verificar la instalación
Ejecute el script de prueba:
python demo.py
Si se genera una imagen, la instalación se ha realizado correctamente.
Funciones principales
1. Generación de imágenes al estilo Ghibli
- procedimiento
Inicializa el modelo y carga el Ghibli LoRA:
import torch
from PIL import Image
from src.pipeline import FluxPipeline
from src.lora_helper import set_single_lora
device = "cuda"
base_path = "FLUX.1-dev" # 基础模型路径
pipe = FluxPipeline.from_pretrained(base_path, torch_dtype=torch.bfloat16).to(device)
set_single_lora(pipe.transformer, "models/Ghibli.safetensors", lora_weights=[1], cond_size=512)
prompt = "Ghibli Studio style, Charming hand-drawn anime-style illustration"
subject_image = Image.open("test_imgs/portrait.png").convert("RGB")
image = pipe(
prompt,
height=1024,
width=1024,
guidance_scale=3.5,
num_inference_steps=25,
subject_images=[subject_image],
cond_size=512,
generator=torch.Generator("cpu").manual_seed(1)
).images[0]
image.save("output/ghibli_result.png")
- al final
Exportar imágenes de estilo Ghibli, guardar enoutput/ghibli_result.png
.
2. Uso de demostraciones en línea
- procedimiento
Visite el espacio Hugging Face en https://huggingface.co/spaces/jamesliu1217/EasyControl_Ghibli:- Sube una imagen de retrato.
- Introduzca la palabra clave:
Ghibli Studio style, Charming hand-drawn anime-style illustration
. - Establecer altura y anchura (limitado por hardware, por defecto 256x256, alta resolución requiere operación local).
- Haga clic en "Generar imagen" y espere entre 20 y 40 segundos.
- al final
Genera imágenes de baja resolución al estilo Ghibli.
Función destacada Operación
Generación de alta resolución
- procedimiento
En tiempo de ejecución local, modifique los parámetros de altura y anchura:image = pipe(prompt, height=1024, width=1024, ...)
- tenga en cuenta
Requiere al menos 12 GB de memoria en la GPU o puede fallar.
Borrar la caché
- procedimiento
Borra la caché después de cada generación:def clear_cache(transformer): for name, attn_processor in transformer.attn_processors.items(): attn_processor.bank_kv.clear() clear_cache(pipe.transformer)
Trucos y consejos
- El mensaje debe contener
Ghibli Studio style, Charming hand-drawn anime-style illustration
para activar el estilo. - Se recomienda que la imagen de entrada sea un retrato claro con una resolución de 512x512 o superior.
- La demostración en línea está limitada por el hardware y sólo admite una resolución baja (256x256).
escenario de aplicación
- Animación Diseño de personajes
Convierte retratos reales al estilo Ghibli para generar rápidamente prototipos de personajes animados. - arte
Un artista crea ilustraciones al estilo del dibujo a mano con el modelo Ghibli para mejorar la eficacia. - Investigación educativa
El investigador explora la aplicación del control condicional en la generación estilizada.
CONTROL DE CALIDAD
- ¿Por qué la resolución generada en línea es baja?
La demostración en línea está limitada por el hardware y sólo admite 256x256, por lo que es necesario ejecutarla localmente para generar imágenes de 1024x1024. - ¿Y si la imagen generada no se parece al estilo Ghibli?
Asegúrese de que el indicador contiene la palabra de activación, o compruebe que la imagen de entrada es clara. - ¿Es compatible con la entrada no vertical?
Sí, pero el modelo Ghibli está optimizado para las caras y otras entradas pueden no funcionar tan bien.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...