Allgemeine Einführung
PiT (Piece it Together) ist ein Open-Source-Tool, das auf GitHub gehostet und von Forschern wie Elad Richardson von der Universität Tel Aviv entwickelt wurde. PiT macht Textbeschreibungen überflüssig, indem es die Teile des Bildes als Eingabe verwendet und sich auf ein vorab trainiertes Modell, IP-Prior, verlässt, um die fehlenden Teile zu ergänzen, und schließlich das Ergebnis über SDXL rendert. Dieses Tool eignet sich für visuelle DesignerInnen oder ForscherInnen, um schnell kreative Ideen zusammenzusetzen. Der aktuelle Code und die Anleitungen für PiT (Stand: 25. März 2025) sind auf GitHub zu finden.
Funktionsliste
- PuzzlespielFragmentierte Bildteile eingeben, um ein vollständiges Bild zu erzeugen.
- Liebe zum DetailKomplementäre Bilder bleiben durchgehend konsistent, je nach den Eigenschaften des Teils.
- Reine BildeingabeEs werden keine Textanweisungen benötigt, nur Bilder zur Bedienung.
- Mehrere ErgebnisseUnterstützung für eine unterschiedliche Anzahl von Teilen, die eine breite Palette von möglichen Bildern erzeugen.
- Open-Source-ProjektDer Code ist öffentlich auf GitHub verfügbar und kann frei heruntergeladen und verändert werden.
- Verfügbare StileIP-LoRA: Unterstützt die Erzeugung spezifischer Stilbilder durch IP-LoRA-Anpassung.
- BereichsanpassungVerschiedene IP-Prior-Modelle können verwendet werden, um Bilder zu erzeugen, die für bestimmte Themen geeignet sind.
Hilfe verwenden
PiT ist ein Open-Source-Projekt auf GitHub für Benutzer mit grundlegenden Programmierkenntnissen. Hier finden Sie eine ausführliche Anleitung zur Installation und Nutzung, damit Sie schnell loslegen können.
Einbauverfahren
- Vorbereiten der Umgebung
- Stellen Sie sicher, dass Ihr Computer Python 3.8 oder höher unterstützt.
- Installation von Git (Windows von
git-scm.com
Herunterladen, Mac/Linux-Eingabegit --version
(Kontrolle). - Es wird empfohlen, ein Gerät mit einem Grafikprozessor (z. B. eine NVIDIA-Grafikkarte mit CUDA) zu verwenden, um die Erstellung zu beschleunigen. Es kann auch ohne GPU verwendet werden, aber es ist langsamer.
- Code herunterladen
- Öffnen Sie ein Terminal oder eine Befehlszeile.
- Geben Sie den Befehl zum Herunterladen von PiT ein:
git clone https://github.com/eladrich/PiT.git
- Wechseln Sie in den Projektordner:
cd PiT
- Installation von Abhängigkeiten
- Das Projekt benötigt Python-Bibliotheken wie z.B.
torch
undnumpy
Die Liste ist zu finden unterrequirements.txt
Mitte. - Führen Sie den Befehl zur Installation aus:
pip install -r requirements.txt
- Wenn Sie diese Datei nicht haben, lesen Sie in der README nach, um sie zu installieren.
diffusers
undtransformers
usw.
- Das Projekt benötigt Python-Bibliotheken wie z.B.
- Das Modell erhalten
- PiT stützt sich auf die Modelle IP-Prior und IP-Adapter+, Download-Links finden sich auf GitHub oder in der Veröffentlichung (https://arxiv.org/abs/2503.10365).
- Legen Sie das Modell in das angegebene Verzeichnis (z. B.
models/
), siehe README für den Pfad.
- Installation von SDXL
- PiT rendert Bilder mit SDXL. Installation
diffusers
::pip install diffusers
- Laden Sie das SDXL-Modell von Hugging Face herunter und speichern Sie es lokal.
- PiT rendert Bilder mit SDXL. Installation
Verwendung
- Teile vorbereiten
- Es wird empfohlen, Bildteile (z. B. Ohren, Logos) im PNG-Format mit sauberen Hintergründen zu sammeln.
- In den Eingabeordner im Projekt (z.B.
input/
).
- laufendes Programm
- Geben Sie das PiT-Verzeichnis im Terminal ein.
- Führen Sie das Skript aus (unter der Annahme, dass
generate.py
(siehe README für Details):python generate.py --input_dir input/ --output_dir output/
- Parameter Beschreibung:
--input_dir
Teileordner.--output_dir
Die Ergebnisse werden in dem Ordner gespeichert.
- Das Programm erzeugt das vollständige Bild mit dem Teil.
- Bild anzeigen
- Nach der Generierung öffnen Sie die
output/
Ansicht der Mappe. - Wenn Sie nicht zufrieden sind, fügen Sie weitere Teile hinzu oder ändern Sie das klare Bild.
- Nach der Generierung öffnen Sie die
Featured Function Bedienung
- Anzahl der Teile
Sie können 1 oder mehrere Teile eingeben. Geben Sie zum Beispiel "Pfote" und "Schwanz" ein, um ein komplettes Tier zu erzeugen. Es ist besser, den gleichen Stil der Teile zu haben. - Styling
Stilmerkmale können mit IP-LoRA hinzugefügt werden. Beispiel:python generate.py --input_dir input/ --output_dir output/ --prompt "卡通风格"
Es ist dann möglich, cartoonartige Bilder zu erzeugen.
- (math.) kommutatives Domänenmodell
PiT unterstützt verschiedene IP-Prior Modelle (z.B. Spielzeug, Lebewesen). Die entsprechende Modelldatei wird beim Umschalten geladen, siehe README zur Bedienung. - Optimierungsergebnisse
Wenn das Bild unscharf ist, prüfen Sie, ob der Teil klar ist, oder fügen Sie Parameter hinzu:python generate.py --input_dir input/ --steps 50
caveat
- Die Teile sollten klar sein und nicht zu klein oder unübersichtlich sein.
- Der erste Durchlauf ist langsam, die folgenden Durchläufe werden schnell sein.
- Installieren Sie die fehlenden Bibliotheken nach Aufforderung, falls ein Fehler auftritt.
Diese Schritte helfen Ihnen, ein vollständiges Bild mit PiT zu erstellen. Der Vorgang erfordert eine Programmierung, ist aber einfach.
Anwendungsszenario
- Design-Inspiration
Designer geben Teile (z. B. Flügel, Hüte) ein, um ganze Figuren zusammenzustellen und Ideen schnell auszuprobieren. - Produktkonzept
Die Entwickler verwenden Teile (z. B. Schaltflächen, Formen), um neue Produktbilder zu erstellen und Designrichtungen zu erkunden. - Technisches Lernen
Die Forscher nutzten PiT, um zu testen, wie KI aus Teilen puzzeln kann, um die Prinzipien der Bilderzeugung zu verstehen.
QA
- Was ist der Unterschied zwischen PiT und anderen Tools?
PiT ist ein direktes Puzzle mit Bildteilen, ohne Text, geeignet für die visuelle Gestaltung. - Müssen Sie das Modell trainieren?
Das ist nicht notwendig, denn es gibt offizielle vortrainierte Modelle, aber Sie können sie selbst trainieren und anpassen. - Ist sie schnell zu erstellen?
Nicht schnell, je nach Gerät dauert es einige Sekunden bis einige Minuten.