InstantID: Laden Sie ein Bild hoch und migrieren Sie die Porträtfunktionen, um verschiedene Bildstile zu erzeugen.

Neueste AI-RessourcenGeschrieben vor 12 Monaten AI-Austauschkreis

2.2K 00

Allgemeine Einführung

InstantID ist eine hochmoderne Technologie zur sekundenschnellen Generierung von Bildern mit personalisierten Stilen oder Posen auf der Grundlage eines einzigen ID-Referenzbildes, wobei ein hohes Maß an Originaltreue gewährleistet wird. Die Technologie verwendet eine auf einem Diffusionsmodell basierende Lösung, die den Bilderzeugungsprozess durch die Integration von Gesichtsbildern, Bildern von Orientierungspunkten und textlichen Hinweisen genau steuert. Zu den Hauptmerkmalen gehören die originalgetreue Bilderzeugung, die Kompatibilität mit beliebten vortrainierten Text-Bild-Diffusionsmodellen, die ohne umfangreiche Feinabstimmung oder mehrere Referenzbilder verwendet werden können, sowie die hohe Originaltreue des Gesichts und die Textbearbeitungsfunktionen.

InstantID ist eine neue, hochmoderne, anpassungsfreie Methode zur Generierung von Avatar-Merkmalen aus einem einzigen Bild, die eine Vielzahl von nachgelagerten Aufgaben unterstützt. Klonen Sie Gesichter aus nur einem Foto und verwenden Sie Stichwörter, um verschiedene Bilder desselben Gesichts zu erzeugen.

Funktionsliste

Identitätserhaltung ohne Muster: Sie brauchen nicht mehrere Bilder, sondern nur ein einziges Frontalbild, um mehrere Porträtstile zu erstellen.
Hohe Wiedergabetreue: Die erzeugten Ergebnisse haben eine hohe Wiedergabetreue und können die Identitätsmerkmale des Originalbildes gut bewahren.
Unterstützung mehrerer nachgelagerter Aufgaben: Unterstützt mehrere nachgelagerte Aufgaben wie Stilmigration, Bildbearbeitung usw.
Offener Quellcode und Modelle: Offener Quellcode und vortrainierte Modelle werden zum einfachen Herunterladen und zur Verwendung bereitgestellt.
Starke Kompatibilität: unterstützt die Integration mit anderen Projekten wie InstantStyle und Kolors der kompatiblen Nutzung.

Hilfe verwenden

Laden Sie ein Personenbild hoch. Bei Bildern von mehreren Personen erkennen wir nur die größten Gesichter. Achten Sie darauf, dass das Gesicht nicht zu klein und nicht sichtbar verdeckt oder unscharf ist.
(Optional) Laden Sie ein weiteres Bild der Figur als Referenzpose hoch. Falls nicht hochgeladen, wird das Bild der ersten Person verwendet, um die Orientierungspunkte zu extrahieren. Wenn in Schritt 1 ein ausgeschnittenes Gesicht verwendet wurde, ist es empfehlenswert, dieses hochzuladen, um eine neue Pose zu extrahieren.
Eingabeaufforderungen für Text, wie bei normalen Text-Bild-Modellen.
Klicken Sie auf die Schaltfläche Senden, um mit der Anpassung zu beginnen.

Die Benutzer müssen ein einziges Referenz-ID-Bild angeben
Verschiedene Stile und Posen können für die individuelle Bilderstellung ausgewählt werden
Keine Feinabstimmung während der Prüfung oder Sammlung mehrerer Bilder für die Feinabstimmung erforderlich
Die erzeugten Bilder können direkt für die Fusion mit gängigen vortrainierten Modellen und Kontrollnetzen verwendet werden
Unterstützt das flexible Hinzufügen von Identitätsattributen zu nicht-menschlichen Rollen

Einbauverfahren

Klonen Sie ein GitHub-Repository:

git clone https://github.com/instantX-research/InstantID.git
cd InstantID

Installieren Sie die Abhängigkeit:
```
pip install -r requirements.txt
```

Laden Sie das vortrainierte Modell herunter:

from huggingface_hub import hf_hub_download
hf_hub_download(repo_id="InstantX/InstantID", filename="ControlNetModel/config.json", local_dir="./checkpoints")
hf_hub_download(repo_id="InstantX/InstantID", filename="ControlNetModel/diffusion_pytorch_model.safetensors", local_dir="./checkpoints")
hf_hub_download(repo_id="InstantX/InstantID", filename="ip-adapter.bin", local_dir="./checkpoints")

Verwendungsprozess

Bereiten Sie das Bild vor:

from diffusers.utils import load_image
image = load_image("your-example.jpg")

Modelle laden:

from diffusers import StableDiffusionXLInstantIDPipeline, ControlNetModel
controlnet = ControlNetModel.from_pretrained("./checkpoints/ControlNetModel", torch_dtype=torch.float16)
pipe = StableDiffusionXLInstantIDPipeline.from_pretrained("stabilityai/stable-diffusion-xl-base-1.0", controlnet=controlnet, torch_dtype=torch.float16)
pipe.cuda()
pipe.load_ip_adapter_instantid("./checkpoints/ip-adapter.bin")

Erzeugen Sie ein Bild:

prompt = "analog film photo of a man. faded film, desaturated, 35mm photo, grainy, vignette, vintage, Kodachrome, Lomography, stained, highly detailed, found footage, masterpiece, best quality"
negative_prompt = "(lowres, low quality, worst quality:1.2), (text:1.2), watermark, painting, drawing, illustration, glitch, deformed, mutated, cross-eyed, ugly, disfigured"
image = pipe(prompt, image_embeds=face_emb, image=face_kps, controlnet_conditioning_scale=0.8).images[0]

Detaillierte Vorgehensweise

Vorbereiten der UmgebungVergewissern Sie sich, dass die erforderlichen Abhängigkeiten installiert sind und das trainierte Modell heruntergeladen wurde.
Bild laden: Verwendung load_image lädt das zu bearbeitende Bild.
Modelle laden: Verwendung from_pretrained Methode lädt das vorab trainierte ControlNet-Modell und die StableDiffusionXLInstantIDPipeline.
Bilder generierenCue Word und Negative Cue Word für das erzeugte Bild durch Aufruf der Funktion pipe Methode, um ein Bild zu erzeugen.

Wenn Sie diese Schritte befolgen, können Sie mit InstantID ganz einfach authentische Bilder zur Identitätssicherung erstellen.