Allgemeine Einführung
EasyControl ist ein Open-Source-Projekt, das eine effiziente und flexible Steuerung der Bilderzeugung auf der Grundlage der Diffusionstransformator-Architektur (DiT) bietet. Darunter ist Ghibli Control LoRA eine der wichtigsten Funktionen, die reale Porträts in den Ghibli-Animationsstil umwandeln kann, während die Gesichtszüge erhalten bleiben, indem sie mit nur 100 asiatischen Gesichtern und den von GPT-4o erzeugten Bildern im Ghibli-Stil trainiert wird.EasyControl unterstützt eine Vielzahl von bedingten Eingaben, einschließlich Kanten, Tiefen, Posen usw., und das Ghibli-Modell ist das Highlight der stilisierten Erzeugung. Das Ghibli-Modell ist das Highlight der stilisierten Erzeugung. Das Projekt ist unter der Apache 2.0-Lizenz ausschließlich für Forschungszwecke lizenziert. Die letzten Aktualisierungen ab dem 3. April 2025 umfassen das Ghibli-Modell und eine Online-Demo.
Kostenlose Erfahrung: https://huggingface.co/spaces/jamesliu1217/EasyControl_Ghibli
Funktionsliste
- Porträt in Ghibli-Stil umwandeln: Geben Sie ein reales Gesichtsbild ein, um ein Bild im Ghibli-Animationsstil zu erzeugen.
- Beibehaltung der Gesichtszüge: Das Training anhand von 100 asiatischen Gesichtern gewährleistet, dass nach der Konvertierung keine Details verzerrt werden.
- Unterstützt eine breite Palette von bedingten Steuerelementen: einschließlich Kante (Canny), Tiefe (Depth), Pose (Pose) und mehr.
- Flexible Auflösungsausgabe: Unterstützt die Bilderzeugung mit unterschiedlichen Höhen und Breiten.
- Effiziente Generierung: Kombination von kausalem Aufmerksamkeitsmechanismus und KV-Cache-Technologie zur Beschleunigung der Inferenz.
- Plug-and-play-Module: Ghibli LoRA lässt sich nahtlos in DiT-Modelle wie FLUX.1-dev integrieren.
Hilfe verwenden
EasyControl eignet sich für Benutzer mit technischem Hintergrund, insbesondere für Forscher und kreative Mitarbeiter. Im Folgenden finden Sie eine detaillierte Anleitung zur Installation und Verwendung der Ghibli-Funktionen.
Einbauverfahren
- Vorbereiten der Umgebung
Erfordert Python 3.10 und PyTorch mit CUDA-Unterstützung. Erstellen Sie eine Conda-Umgebung:
conda create -n easycontrol python=3.10
conda activate easycontrol
- Klon-Lager
Laden Sie das EasyControl-Projekt herunter:
git clone https://github.com/Xiaojiu-z/EasyControl.git
cd EasyControl
- Installation von Abhängigkeiten
Installieren Sie die erforderlichen Bibliotheken:
pip install -r requirements.txt
GPU-Nutzer müssen sicherstellen, dass PyTorch CUDA unterstützt.
- Laden Sie das Modell Ghibli herunter
Holen Sie sich das Ghibli LoRA von Hugging Face:
from huggingface_hub import hf_hub_download
hf_hub_download(repo_id="Xiaojiu-Z/EasyControl", filename="models/Ghibli.safetensors", local_dir="./")
Falls sie nicht zugänglich ist, stehen Spiegelseiten zur Verfügung:
export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download --resume-download Xiaojiu-Z/EasyControl --local-dir checkpoints
- Überprüfen der Installation
Führen Sie das Testskript aus:
python demo.py
Wenn ein Image erzeugt wird, war die Installation erfolgreich.
Hauptfunktionen
1. die Erzeugung von Bildern im Ghibli-Stil
- Verfahren
Initialisieren Sie das Modell und laden Sie den Ghibli LoRA:
import torch
from PIL import Image
from src.pipeline import FluxPipeline
from src.lora_helper import set_single_lora
device = "cuda"
base_path = "FLUX.1-dev" # 基础模型路径
pipe = FluxPipeline.from_pretrained(base_path, torch_dtype=torch.bfloat16).to(device)
set_single_lora(pipe.transformer, "models/Ghibli.safetensors", lora_weights=[1], cond_size=512)
prompt = "Ghibli Studio style, Charming hand-drawn anime-style illustration"
subject_image = Image.open("test_imgs/portrait.png").convert("RGB")
image = pipe(
prompt,
height=1024,
width=1024,
guidance_scale=3.5,
num_inference_steps=25,
subject_images=[subject_image],
cond_size=512,
generator=torch.Generator("cpu").manual_seed(1)
).images[0]
image.save("output/ghibli_result.png")
- am Ende
Bilder im Ghibli-Stil exportieren, speichern unteroutput/ghibli_result.png
.
2. die Nutzung von Online-Demonstrationen
- Verfahren
Besuchen Sie den Raum Hugging Face unter https://huggingface.co/spaces/jamesliu1217/EasyControl_Ghibli:- Laden Sie ein Porträtbild hoch.
- Geben Sie das Aufforderungswort ein:
Ghibli Studio style, Charming hand-drawn anime-style illustration
. - Höhe und Breite einstellen (durch die Hardware begrenzt, Standard 256x256, hohe Auflösung erfordert lokale Bedienung).
- Klicken Sie auf "Bild generieren" und warten Sie 20-40 Sekunden.
- am Ende
Erzeugt Bilder mit niedriger Auflösung im Ghibli-Stil.
Featured Function Bedienung
Hochauflösende Erzeugung
- Verfahren
Ändern Sie zur lokalen Laufzeit die Parameter Höhe und Breite:image = pipe(prompt, height=1024, width=1024, ...)
- zur Kenntnis nehmen
Erfordert mindestens 12 GB GPU-Speicher, sonst kann es zu Fehlern kommen.
Löschen des Caches
- Verfahren
Löschen Sie den Cache nach jeder Generation:def clear_cache(transformer): for name, attn_processor in transformer.attn_processors.items(): attn_processor.bank_kv.clear() clear_cache(pipe.transformer)
Tipps und Tricks
- Die Aufforderung muss enthalten
Ghibli Studio style, Charming hand-drawn anime-style illustration
um den Stil auszulösen. - Als Eingangsbild wird ein klares Hochformat mit einer Auflösung von 512x512 oder mehr empfohlen.
- Die Online-Demo ist durch die Hardware begrenzt und unterstützt nur eine geringe Auflösung (256x256).
Anwendungsszenario
- Animation Charakterdesign
Konvertieren Sie echte Porträts in den Ghibli-Stil, um schnell animierte Charakter-Prototypen zu erstellen. - Kunst
Künstlerin erstellt handgezeichnete Illustrationen mit Ghibli-Modell zur Verbesserung der Effizienz. - Bildungsforschung
Die Forscherin untersucht die Anwendung der bedingten Kontrolle bei der stilisierten Erzeugung.
QA
- Warum ist die online generierte Auflösung niedrig?
Die Online-Demo ist hardwarebeschränkt und unterstützt nur 256x256, und muss lokal ausgeführt werden, um 1024x1024 Bilder zu erzeugen. - Was, wenn das erzeugte Bild nicht dem Ghibli-Stil entspricht?
Vergewissern Sie sich, dass die Eingabeaufforderung das Auslösewort enthält, oder überprüfen Sie, ob das Eingabebild eindeutig ist. - Unterstützt es Eingaben ohne Porträt?
Ja, aber das Ghibli-Modell ist für Gesichter optimiert und andere Eingaben funktionieren möglicherweise nicht so gut.