EasyControl : un outil gratuit pour transformer les portraits en images de style Ghibli

Dernières ressources sur l'IAPosté il y a 5 mois Cercle de partage de l'IA

11.5K 00

Introduction générale

EasyControl est un projet open source qui fournit un contrôle efficace et flexible de la génération d'images basé sur l'architecture Diffusion Transformer (DiT). Parmi celles-ci, Ghibli Control LoRA est l'une de ses fonctions vedettes, qui peut transformer des portraits réels en style d'animation Ghibli tout en préservant les caractéristiques faciales en s'entraînant avec seulement 100 visages asiatiques et leurs images de style Ghibli générées par GPT-4o. EasyControl prend en charge une variété d'entrées conditionnelles, y compris les bords, les profondeurs, les poses, etc. Le modèle Ghibli est le point fort de la génération stylisée. Le projet est soumis à la licence Apache 2.0 à des fins de recherche uniquement. Les dernières mises à jour en date du 3 avril 2025 comprennent le modèle de style Ghibli et une démo en ligne.

Expérience gratuite : https://huggingface.co/spaces/jamesliu1217/EasyControl_Ghibli

Liste des fonctions

Convertir un portrait en style Ghibli : Saisir l'image d'un visage réel pour générer une image de style animation Ghibli.
Préservation des traits du visage : la formation basée sur 100 visages asiatiques garantit l'absence de distorsion des détails après la conversion.
Prise en charge d'un grand nombre de contrôles conditionnels : notamment Edge (Canny), Depth (Profondeur), Pose (Pose), etc.
Sortie à résolution flexible : permet de générer des images de différentes hauteurs et largeurs.
Génération efficace : combinaison du mécanisme d'attention causale et de la technologie KV Cache pour accélérer l'inférence.
Modules plug-and-play : Ghibli LoRA peut être utilisé avec des modèles DiT tels que FLUX.1-dev).

Utiliser l'aide

EasyControl convient aux utilisateurs ayant une formation technique, en particulier les chercheurs et les créateurs. Vous trouverez ci-dessous un guide détaillé pour l'installation et l'utilisation des fonctionnalités de Ghibli.

Processus d'installation

Préparation de l'environnement
Nécessite Python 3.10 et PyTorch avec prise en charge de CUDA. Créez un environnement Conda :

conda create -n easycontrol python=3.10
conda activate easycontrol

entrepôt de clones
Téléchargez le projet EasyControl :

git clone https://github.com/Xiaojiu-z/EasyControl.git
cd EasyControl

Installation des dépendances
Installer les bibliothèques nécessaires :

pip install -r requirements.txt

Les utilisateurs de GPU doivent s'assurer que PyTorch prend en charge CUDA.

Télécharger le modèle Ghibli
Obtenez le Ghibli LoRA de Hugging Face :

from huggingface_hub import hf_hub_download
hf_hub_download(repo_id="Xiaojiu-Z/EasyControl", filename="models/Ghibli.safetensors", local_dir="./")

S'il n'est pas accessible, des sites miroirs sont disponibles :

export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download --resume-download Xiaojiu-Z/EasyControl --local-dir checkpoints

Vérifier l'installation
Exécutez le script de test :

python demo.py

Si une image est générée, l'installation a réussi.

Principales fonctions

1. générer des images de style Ghibli

procédure
Initialiser le modèle et charger la Ghibli LoRA :

import torch
from PIL import Image
from src.pipeline import FluxPipeline
from src.lora_helper import set_single_lora
device = "cuda"
base_path = "FLUX.1-dev"  # 基础模型路径
pipe = FluxPipeline.from_pretrained(base_path, torch_dtype=torch.bfloat16).to(device)
set_single_lora(pipe.transformer, "models/Ghibli.safetensors", lora_weights=[1], cond_size=512)
prompt = "Ghibli Studio style, Charming hand-drawn anime-style illustration"
subject_image = Image.open("test_imgs/portrait.png").convert("RGB")
image = pipe(
prompt,
height=1024,
width=1024,
guidance_scale=3.5,
num_inference_steps=25,
subject_images=[subject_image],
cond_size=512,
generator=torch.Generator("cpu").manual_seed(1)
).images[0]
image.save("output/ghibli_result.png")

en fin de compte
Exporter des images de style Ghibli, enregistrer sur output/ghibli_result.png.

2. l'utilisation de démonstrations en ligne

procédure
Visitez l'espace Hugging Face à l'adresse https://huggingface.co/spaces/jamesliu1217/EasyControl_Ghibli :
1. Téléchargez un portrait.
2. Saisissez le mot-guide :Ghibli Studio style, Charming hand-drawn anime-style illustration.
3. Définir la hauteur et la largeur (limitées par le matériel, 256x256 par défaut, la haute résolution nécessite une opération locale).
4. Cliquez sur "Générer une image" et attendez 20 à 40 secondes.
en fin de compte
Génère des images basse résolution de type Ghibli.

Fonction en vedette Fonctionnement

Génération haute résolution

procédure
Lors de l'exécution locale, modifiez les paramètres de hauteur et de largeur :
```
image = pipe(prompt, height=1024, width=1024, ...)
```
prendre note
Nécessite au moins 12 Go de mémoire GPU, sous peine d'échec.

Vider le cache

procédure
Vider le cache après chaque génération :

def clear_cache(transformer):
for name, attn_processor in transformer.attn_processors.items():
attn_processor.bank_kv.clear()
clear_cache(pipe.transformer)

Conseils et astuces

L'invite doit contenir Ghibli Studio style, Charming hand-drawn anime-style illustration pour déclencher le style.
Il est recommandé que l'image d'entrée soit un portrait clair avec une résolution de 512x512 ou plus.
La démo en ligne est limitée par le matériel et ne prend en charge qu'une faible résolution (256x256).

scénario d'application

Animation Conception de personnages
Convertissez des portraits réels en style Ghibli pour générer rapidement des prototypes de personnages animés.
l'art
L'artiste crée des illustrations à la main avec le modèle Ghibli pour améliorer l'efficacité.
Recherche en éducation
Le chercheur explore l'application du contrôle conditionnel dans une génération stylisée.

QA

Pourquoi la résolution générée en ligne est-elle faible ?
La démo en ligne est limitée au matériel et ne prend en charge que 256x256, et doit être exécutée localement pour générer des images 1024x1024.
Et si l'image générée ne ressemble pas au style Ghibli ?
Assurez-vous que l'invite contient le mot déclencheur ou vérifiez que l'image d'entrée est claire.
Prend-il en charge les entrées sans portrait ?
Oui, mais le modèle Ghibli est optimisé pour les visages et d'autres entrées peuvent ne pas fonctionner aussi bien.