PhotoDoodle: KI-Tool zum Hinzufügen künstlerischer Kritzeleien zu Fotos mit Textbefehlen

Neueste AI-RessourcenGeschrieben vor 5 Monaten AI-Austauschkreis

1.8K 00

Allgemeine Einführung

PhotoDoodle ist ein Open-Source-Bildbearbeitungsprogramm, das von ShowLab entwickelt wurde und sich auf die künstlerische Bearbeitung von Fotos mit Hilfe von künstlicher Intelligenz konzentriert. Benutzer können Cartoon-Stil, 3D-Effekt, Heiligenschein, Flügel und andere dekorative Elemente zu realen Fotos hinzufügen, indem sie einfach Textanweisungen eingeben und eine Kombination aus realen und virtuellen Kunstwerken erzeugen. Die Software basiert auf einem leistungsstarken Deep-Learning-Modell, unterstützt das Lernen mit weniger Beispielen und kann sich schnell an den persönlichen Stil des Benutzers anpassen, so dass sie für Künstler, Designer oder normale Benutzer geeignet ist, um kreative Werke zu erstellen. Das Projekt wird auf GitHub gehostet und stellt Code, Datensätze und vortrainierte Modelle zur Verfügung, die Entwickler reproduzieren oder doppelt entwickeln können. Seine einzigartige "Foto-Graffiti"-Funktion füllt die Lücke in der herkömmlichen Bearbeitungssoftware, indem sie die Integrität des Fotohintergrunds bewahrt und künstlerische Elemente nahtlos integriert, was viel Aufmerksamkeit erregt hat.

Funktionsliste

Textgesteuerte KunstbearbeitungAutomatische Generierung von Graffiti-Elementen durch Textbeschreibung (z.B. "Cartoon-Monster hinzufügen" oder "Halo-Effekt hinzufügen").
Probe weniger LernunterstützungLearning and generating a personalized editing style with only a small amount of user-supplied pairing data.
Hochwertige Verschmelzung von Realität und FiktionDie neu hinzugefügten Elemente müssen in Bezug auf Perspektive, Licht und Schatten natürlich mit dem Hintergrund des Fotos harmonieren.
Datensätze und Modelle OffenBietet vortrainierte Modelle und verschiedene Stildatensätze zur Unterstützung des direkten Downloads und der Nutzung durch den Benutzer.
Open-Source-UnterstützungErmöglicht Entwicklern, den Code zu ändern oder ihn mit hoher Flexibilität in andere Projekte zu integrieren.
Fähigkeit zur StapelverarbeitungUnterstützung der gleichzeitigen Bearbeitung mehrerer Bilder für mehr Effizienz.

Hilfe verwenden

PhotoDoodle ist ein Open-Source-Projekt, das auf GitHub basiert, und Benutzer benötigen eine gewisse technische Grundlage, um es zu installieren und zu verwenden. Im Folgenden finden Sie eine detaillierte Installations- und Nutzungsanleitung, die Ihnen einen schnellen Einstieg ermöglicht.

Einbauverfahren

Vorbereitung der Umwelt
- Stellen Sie sicher, dass Sie Git, Python 3.11.10 und Conda auf Ihrem Computer installiert haben.
- Öffnen Sie ein Terminal und geben Sie den folgenden Befehl ein, um das Projekt lokal zu klonen:
```
git clone git@github.com:showlab/PhotoDoodle.git
cd PhotoDoodle
```
- Erstellen und aktivieren Sie eine virtuelle Umgebung:
```
conda create -n doodle python=3.11.10
conda activate doodle
```
Installation von Abhängigkeiten
- Installieren Sie PyTorch (CUDA-beschleunigte Version empfohlen, wenn Sie einen Grafikprozessor haben):
```
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
```
- Installieren Sie andere Abhängigkeiten:
```
pip install --upgrade -r requirements.txt
```
- Warten Sie, bis die Installation abgeschlossen ist, und stellen Sie sicher, dass das Netzwerk frei ist.
Herunterladen des vortrainierten Modells
- Das Projekt bietet mehrere vortrainierte Modelle, die manuell heruntergeladen werden müssen. Besuchen Sie PhotoDoodles GitHub Releases oder Hugging Face Dataset Seiten, um Modelldateien herunterzuladen (z.B. OmniEditor im Gesang antworten EditLoRA).
- Legen Sie die heruntergeladenen Modelldateien im angegebenen Ordner des Projektverzeichnisses ab (die Pfadbeschreibung finden Sie in der README, sie lautet normalerweise checkpoints/).
Überprüfen der Installation
- Führen Sie einen Testbefehl (z. B. das Beispielskript in der README) im Terminal aus und prüfen Sie auf Fehler. Wenn es keine Fehler gibt, war die Installation erfolgreich.

Verwendung

Die Kernfunktionalität von PhotoDoodle ist die Bearbeitung von Fotos mit Hilfe von Textbefehlen, wobei zwei Szenarien möglich sind: die direkte Verwendung von vortrainierten Modellen und das individuelle Training.

Bearbeiten von Fotos mit vortrainierten Modellen

Bereiten Sie das Bild vor
- Platzieren Sie das zu bearbeitende Foto (z. B. source.jpg) in das Projektverzeichnis unter dem input/ (falls dieser Ordner nicht existiert, erstellen Sie ihn selbst).
Führen Sie den Befehl edit aus
- Geben Sie den folgenden Befehl in das Terminal ein (vorausgesetzt, es ist aktiviert) doodle (Umwelt):
```
python inference.py --source input/source.jpg --prompt "在照片上添加卡通风格的翅膀" --output output/result.jpg
```
- Parameter Beschreibung:
  - --source: Quellfoto Pfad.
  - --promptText: Eine Textdirektive, die das Element beschreibt, das Sie hinzufügen möchten.
  - --outputGibt den Ergebnispfad aus.
- Nach der Ausführung werden die erzeugten Ergebnisse in der Datei output/result.jpg.
Ergebnisse anzeigen
- zeigen (eine Eintrittskarte) output/ um die erzeugten Bilder zu überprüfen. Anpassungsbefehle (z. B. "Licht- und Schatteneffekt hinzufügen") können verschiedene Stile erzeugen.

Individuelles Training im Stil der Personalisierung

Vorbereitung von gepaarten Datensätzen
- Erstellen einer .jsonl Dateien (z.B. dataset.jsonl), wobei pro Zeile ein Paar von Bildern und Beschreibungen aufgezeichnet wird:
```
{"source": "path/to/source.jpg", "target": "path/to/modified.jpg", "caption": "添加蓝色光环"}
{"source": "path/to/source2.jpg", "target": "path/to/modified2.jpg", "caption": "增加卡通怪物"}
```
- Bereiten Sie mindestens 5-10 Bildpaare vor, die Ihren Stilanforderungen entsprechen.
Führen Sie das Trainingsskript aus
- Oberbefehlshaber (Militär) .jsonl Datei in das Projektverzeichnis und führen Sie sie aus:
```
python train.py --data dataset.jsonl --model OmniEditor --output_dir trained_model/
```
- Die Trainingszeit hängt von der Datenmenge und der Hardware-Leistung ab (GPU empfohlen), und nach Abschluss wird das Modell im trained_model/.
Bearbeitung mit benutzerdefinierten Modellen
- Inferenz mit trainierten Modellen:
```
python inference.py --source input/source.jpg --prompt "添加我的风格元素" --model trained_model/checkpoint.pth --output output/custom_result.jpg
```
- Prüfen Sie die Ausgabe, um zu bestätigen, dass sie den Erwartungen entspricht.

Details zum Betriebsablauf

Stapelverarbeitung: Mehrere Bilder in den Ordner input/ Ordner unterstützt das Änderungsskript die Verarbeitung von Schleifen (z. B. Hinzufügen der --batch Parameter, Einzelheiten zur Implementierung finden Sie in den Codekommentaren).
AnpassungseffektWenn die Überblendung nicht natürlich ist, fügen Sie dem Hinweis Details hinzu (z. B. "im Einklang mit der Hintergrundbeleuchtung"), oder passen Sie die Modellparameter an (siehe config/ (Dokumentation).
Debugging-ProblemeWenn etwas schief geht, überprüfen Sie die Python-Version, die Abhängigkeiten oder schauen Sie bei GitHub Issues nach, um Hilfe von der Community zu erhalten.

caveat

Hardware-Anforderungen: GPU (z. B. NVIDIA CUDA-Unterstützung) wird für die Geschwindigkeit empfohlen, CPU kann laufen, ist aber langsamer.
Datenqualität: Je höher die Auflösung des Eingangsbildes, desto besser das Ergebnis; der angepasste Datensatz muss konsistent sein.
Online-Erfahrung: Einige Funktionen können online über Hugging Face Spaces ohne lokale Installation getestet werden.

Mit diesen Schritten können Sie Ihren Fotos mit PhotoDoodle ganz einfach einen künstlerischen Reiz verleihen, egal ob es sich um einen kurzen Versuch oder eine tiefgreifende Anpassung handelt.