Allgemeine Einführung
One-Prompt-One-Story (1Prompt1Story) ist ein innovatives Text-zu-Bild-Generierungswerkzeug, das eine konsistente Bilderzeugung aus einem einzigen Prompt ermöglicht. Es wurde auf der ICLR 2025 von Tao Liu et al. vorgestellt. Es verwendet einen trainingsfreien Ansatz, der qualitativ hochwertige Bilder generiert und dabei die Konsistenz der Zeichenidentität beibehält. 1Prompt1Story funktioniert mit allen Text-zu-Bild-Modellen, die auf Texteinbettungen basieren, und unterstützt die Generierung mehrerer Zeichen, ControlNet-gesteuerte Generierung und personalisierte Generierung. Das Tool stellt sicher, dass die generierten Bilder in hohem Maße mit der Eingabebeschreibung übereinstimmen, indem es eine einzige Eingabeaufforderung mit Einzelwert-Neugewichtung und identitätserhaltenden Cross-Attention-Techniken kombiniert.
Funktionsliste
- Erzeugung eines konsistenten IdentitätsbildesGenerieren Sie Bilder, die durch eine einzige Eingabeaufforderung eine konsistente Zeichenidentität beibehalten.
- Gradio-DemoEine Online-Demo wird für Benutzererfahrungen und Tests zur Verfügung gestellt.
- Consistory+ BenchmarkingEnthält 200 Cue-Sets, die jeweils zwischen 5 und 10 Cues enthalten und in 8 Superklassen unterteilt sind.
- Multi-Rollen-GenerierungUnterstützung für die Erzeugung von Bildern, die mehrere Zeichen enthalten.
- ControlNet-Bootstrap-GenerierungControlNet: Steuert den Erzeugungsprozess über die ControlNet-Technologie.
- PersonalisierungUnterstützung der Erstellung von personalisierten Realbildern auf der Grundlage von Benutzeranforderungen.
Hilfe verwenden
Ablauf der Installation
- Klonen Sie dieses Repository:
git clone https://github.com/byliutao/1Prompt1Story
- Wechseln Sie in das Repository-Verzeichnis:
cd 1Prompt1Geschichte
- Erstellen und aktivieren Sie eine virtuelle Umgebung:
conda create --name 1p1s python=3.10
conda activate 1p1s
- Abhängigkeiten installieren:
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
conda install conda-forge::transformers
conda install -c conda-forge diffusers
pip install opencv-python scipy gradio==4.44.1 sympy==1.13.1
Verwendung Prozess
- Führen Sie den Beispielcode aus:
python main.py
- Führen Sie die Gradio-Demo aus:
python app.py
- Führen Sie den Consistory+-Benchmark durch:
python -m resource.gen_benchmark --save_dir . /result/benchmark --benchmark_path . /resource/consistory+.yaml
Hauptfunktionen
- Erzeugung eines konsistenten IdentitätsbildesGeben Sie eine einzelne Eingabeaufforderung, die die Identität der Figur und die Szene beschreibt, in das Eingabefeld ein und klicken Sie auf die Schaltfläche Erzeugen, um ein Bild zu erhalten, das die Identität der Figur beibehält.
- Multi-Rollen-GenerierungMehrere Rollenbeschreibungen in die Eingabeaufforderung einfügen, und das Tool erstellt automatisch ein Bild, das alle Rollen enthält.
- ControlNet-Bootstrap-GenerierungControlNet-bezogene Beschreibungen werden zu den Eingabeaufforderungen hinzugefügt, und der Generierungsprozess wird gemäß der ControlNet-Technologie gesteuert, um sicherzustellen, dass die Bilder in hohem Maße mit den Beschreibungen übereinstimmen.
- PersonalisierungGenerierung eines realen Bildes, das den Anforderungen entspricht, auf der Grundlage einer vom Benutzer eingegebenen personalisierten Beschreibung.