One-Prompt-One-Story: Text-Prompts erzeugen konsistente Bilder zur Charakteridentität

🚀 Einladung zum Erleben: Chinas erste KI-IDE Intelligente Programmiersoftware Trae Chinesische Version downloadDer DeepSeek-R1 und Doubao-pro sind unbegrenzt verfügbar!

Allgemeine Einführung

One-Prompt-One-Story (1Prompt1Story) ist ein innovatives Text-zu-Bild-Generierungswerkzeug, das eine konsistente Bilderzeugung aus einem einzigen Prompt ermöglicht. Es wurde auf der ICLR 2025 von Tao Liu et al. vorgestellt. Es verwendet einen trainingsfreien Ansatz, der qualitativ hochwertige Bilder generiert und dabei die Konsistenz der Zeichenidentität beibehält. 1Prompt1Story funktioniert mit allen Text-zu-Bild-Modellen, die auf Texteinbettungen basieren, und unterstützt die Generierung mehrerer Zeichen, ControlNet-gesteuerte Generierung und personalisierte Generierung. Das Tool stellt sicher, dass die generierten Bilder in hohem Maße mit der Eingabebeschreibung übereinstimmen, indem es eine einzige Eingabeaufforderung mit Einzelwert-Neugewichtung und identitätserhaltenden Cross-Attention-Techniken kombiniert.

One-Prompt-One-Story: ein kostenloses Tool zur Erzeugung stilistisch konsistenter Bilder aus Text-1

Funktionsliste

Erzeugung eines konsistenten IdentitätsbildesGenerieren Sie Bilder, die durch eine einzige Eingabeaufforderung eine konsistente Zeichenidentität beibehalten.
Gradio-DemoEine Online-Demo wird für Benutzererfahrungen und Tests zur Verfügung gestellt.
Consistory+ BenchmarkingEnthält 200 Cue-Sets, die jeweils zwischen 5 und 10 Cues enthalten und in 8 Superklassen unterteilt sind.
Multi-Rollen-GenerierungUnterstützung für die Erzeugung von Bildern, die mehrere Zeichen enthalten.
ControlNet-Bootstrap-GenerierungControlNet: Steuert den Erzeugungsprozess über die ControlNet-Technologie.
PersonalisierungUnterstützung der Erstellung von personalisierten Realbildern auf der Grundlage von Benutzeranforderungen.

Hilfe verwenden

Ablauf der Installation

Klonen Sie dieses Repository:

   git clone https://github.com/byliutao/1Prompt1Story

Wechseln Sie in das Repository-Verzeichnis:

   cd 1Prompt1Geschichte

Erstellen und aktivieren Sie eine virtuelle Umgebung:

   conda create --name 1p1s python=3.10
conda activate 1p1s

Abhängigkeiten installieren:

   conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
conda install conda-forge::transformers
conda install -c conda-forge diffusers
pip install opencv-python scipy gradio==4.44.1 sympy==1.13.1

Verwendung Prozess

Führen Sie den Beispielcode aus:

   python main.py

Führen Sie die Gradio-Demo aus:

   python app.py

Führen Sie den Consistory+-Benchmark durch:

   python -m resource.gen_benchmark --save_dir . /result/benchmark --benchmark_path . /resource/consistory+.yaml

Hauptfunktionen

Erzeugung eines konsistenten IdentitätsbildesGeben Sie eine einzelne Eingabeaufforderung, die die Identität der Figur und die Szene beschreibt, in das Eingabefeld ein und klicken Sie auf die Schaltfläche Erzeugen, um ein Bild zu erhalten, das die Identität der Figur beibehält.
Multi-Rollen-GenerierungMehrere Rollenbeschreibungen in die Eingabeaufforderung einfügen, und das Tool erstellt automatisch ein Bild, das alle Rollen enthält.
ControlNet-Bootstrap-GenerierungControlNet-bezogene Beschreibungen werden zu den Eingabeaufforderungen hinzugefügt, und der Generierungsprozess wird gemäß der ControlNet-Technologie gesteuert, um sicherzustellen, dass die Bilder in hohem Maße mit den Beschreibungen übereinstimmen.
PersonalisierungGenerierung eines realen Bildes, das den Anforderungen entspricht, auf der Grundlage einer vom Benutzer eingegebenen personalisierten Beschreibung.