AI Personal Learning
und praktische Anleitung
Sitzsack Marscode1

PhotoDoodle: KI-Tool zum Hinzufügen künstlerischer Kritzeleien zu Fotos mit Textbefehlen

Allgemeine Einführung

PhotoDoodle ist ein Open-Source-Bildbearbeitungsprogramm, das von ShowLab entwickelt wurde und sich auf die künstlerische Bearbeitung von Fotos mit Hilfe von künstlicher Intelligenz konzentriert. Benutzer können Cartoon-Stil, 3D-Effekt, Heiligenschein, Flügel und andere dekorative Elemente zu realen Fotos hinzufügen, indem sie einfach Textanweisungen eingeben und eine Kombination aus realen und virtuellen Kunstwerken erzeugen. Die Software basiert auf einem leistungsstarken Deep-Learning-Modell, unterstützt das Lernen mit weniger Beispielen und kann sich schnell an den persönlichen Stil des Benutzers anpassen, so dass sie für Künstler, Designer oder normale Benutzer geeignet ist, um kreative Werke zu erstellen. Das Projekt wird auf GitHub gehostet, wo Code, Datensätze und vortrainierte Modelle für Entwickler zur Verfügung stehen, um sie zu reproduzieren oder doppelt zu entwickeln. Seine einzigartige "Foto-Graffiti"-Funktion füllt die Lücke in der herkömmlichen Bearbeitungssoftware, indem sie die Integrität des Fotohintergrunds bewahrt und künstlerische Elemente nahtlos integriert, was weithin Beachtung gefunden hat.

PhotoDoodle: KI-Tool zum Hinzufügen künstlerischer Kritzeleien zu Fotos mit Textbefehlen-1


 

Funktionsliste

  • Textgesteuerte KunstbearbeitungAutomatische Generierung von Graffiti-Elementen durch Textbeschreibung (z.B. "Cartoon-Monster hinzufügen" oder "Halo-Effekt hinzufügen").
  • Probe weniger LernunterstützungLearning and generating a personalized editing style with only a small amount of user-supplied pairing data.
  • Hochwertige Verschmelzung von Realität und FiktionDie neu hinzugefügten Elemente müssen in Bezug auf Perspektive, Licht und Schatten natürlich mit dem Hintergrund des Fotos harmonieren.
  • Datensätze und Modelle OffenBietet vortrainierte Modelle und verschiedene Stildatensätze zur Unterstützung des direkten Downloads und der Nutzung durch den Benutzer.
  • Open-Source-UnterstützungErmöglicht Entwicklern, den Code zu ändern oder ihn mit hoher Flexibilität in andere Projekte zu integrieren.
  • Fähigkeit zur StapelverarbeitungUnterstützung der gleichzeitigen Bearbeitung mehrerer Bilder für mehr Effizienz.

 

Hilfe verwenden

PhotoDoodle ist ein Open-Source-Projekt, das auf GitHub basiert, und Benutzer benötigen eine gewisse technische Grundlage, um es zu installieren und zu verwenden. Im Folgenden finden Sie eine detaillierte Installations- und Nutzungsanleitung, die Ihnen einen schnellen Einstieg ermöglicht.

Ablauf der Installation

  1. Vorbereitung der Umwelt
    • Stellen Sie sicher, dass Sie Git, Python 3.11.10 und Conda auf Ihrem Computer installiert haben.
    • Öffnen Sie ein Terminal und geben Sie den folgenden Befehl ein, um das Projekt lokal zu klonen:
      git clone git@github.com:showlab/PhotoDoodle.git
      cd PhotoDoodle
      
    • Erstellen und aktivieren Sie eine virtuelle Umgebung:
      conda create -n doodle python=3.11.10
      conda doodle aktivieren
      
  2. Installation von Abhängigkeiten
    • Installieren Sie PyTorch (CUDA-beschleunigte Version empfohlen, wenn Sie einen Grafikprozessor haben):
      pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
      
    • Installieren Sie andere Abhängigkeiten:
      pip install --upgrade -r anforderungen.txt
      
    • Warten Sie, bis die Installation abgeschlossen ist, und stellen Sie sicher, dass das Netzwerk frei ist.
  3. Download des vortrainierten Modells
    • Das Projekt bietet mehrere vortrainierte Modelle, die manuell heruntergeladen werden müssen. Besuchen Sie PhotoDoodles GitHub Releases oder Hugging Face Dataset Seiten, um Modelldateien herunterzuladen (z.B. OmniEditor im Gesang antworten BearbeitenLoRA).
    • Legen Sie die heruntergeladenen Modelldateien in den angegebenen Ordner im Projektverzeichnis ab (die Pfadbeschreibung finden Sie in der README, die normalerweise Kontrollpunkte/).
  4. Überprüfen der Installation
    • Führen Sie einen Testbefehl (z. B. das Beispielskript in der README) im Terminal aus und prüfen Sie auf Fehler. Wenn es keine Fehler gibt, war die Installation erfolgreich.

Verwendung

Die Kernfunktionalität von PhotoDoodle ist die Bearbeitung von Fotos mit Hilfe von Textbefehlen, wobei zwei Szenarien möglich sind: die direkte Verwendung von vortrainierten Modellen und das individuelle Training.

Bearbeiten von Fotos mit vortrainierten Modellen

  1. Bereiten Sie das Bild vor
    • Platzieren Sie das zu bearbeitende Foto (z. B. Quelle.jpg) in das Projektverzeichnis unter dem Eingabe/ (falls dieser Ordner nicht existiert, erstellen Sie ihn selbst).
  2. Führen Sie den Befehl edit aus
    • Geben Sie den folgenden Befehl in das Terminal ein (vorausgesetzt, es ist aktiviert) kritzeln (Umwelt):
      python inference.py --source input/source.jpg --prompt "Füge einem Foto Flügel im Cartoon-Stil hinzu" --output output/result.jpg
      
    • Parameter Beschreibung:
      • ---Quelle: Quellfoto Pfad.
      • --PromptText: Eine Textdirektive, die das Element beschreibt, das Sie hinzufügen möchten.
      • --outputGibt den Ergebnispfad aus.
    • Nach der Ausführung werden die erzeugten Ergebnisse in der Datei Ausgabe/Ergebnis.jpg.
  3. Ergebnisse anzeigen
    • zeigen (eine Eintrittskarte) Ausgabe/ um die erzeugten Bilder zu überprüfen. Anpassungsbefehle (z. B. "Licht- und Schatteneffekt hinzufügen") können verschiedene Stile erzeugen.

Individuelles Training im Stil der Personalisierung

  1. Vorbereitung von gepaarten Datensätzen
    • Erstellen einer .jsonl Dateien (z.B. dataset.jsonl), wobei pro Zeile ein Paar von Bildern und Beschreibungen aufgezeichnet wird:
      {"Quelle": "path/to/source.jpg", "Ziel": "path/to/modified.jpg", "Bildunterschrift": "Blauen Heiligenschein hinzufügen"}
      {"Quelle": "path/to/source2.jpg", "Ziel": "path/to/modified2.jpg", "Bildunterschrift": "Cartoon-Monster hinzufügen"}
      
    • Bereiten Sie mindestens 5-10 Bildpaare vor, die Ihren Stilanforderungen entsprechen.
  2. Führen Sie das Trainingsskript aus
    • Oberbefehlshaber (Militär) .jsonl Datei in das Projektverzeichnis und führen Sie sie aus:
      python train.py --data dataset.jsonl --model OmniEditor --output_dir trained_model/
      
    • Die Trainingszeit hängt von der Datenmenge und der Hardware-Leistung ab (GPU empfohlen), und nach Abschluss wird das Modell im trainiertes_Modell/.
  3. Bearbeitung mit benutzerdefinierten Modellen
    • Inferenz mit trainierten Modellen:
      python inference.py --source input/source.jpg --prompt "Meine Stilelemente hinzufügen" --model trained_model/checkpoint.pth --output output/custom_result.jpg
      
    • Prüfen Sie die Ausgabe, um zu bestätigen, dass sie den Erwartungen entspricht.

Details zum Betriebsablauf

  • Stapelverarbeitung: Platzieren Sie mehrere Bilder in den Eingabe/ Ordner unterstützt das Änderungsskript die Verarbeitung von Schleifen (z. B. Hinzufügen der ---Batch Parameter, Einzelheiten zur Implementierung finden Sie in den Kommentaren zum Code).
  • AnpassungseffektWenn die Überblendung nicht natürlich ist, fügen Sie dem Hinweis Details hinzu (z. B. "passend zur Hintergrundbeleuchtung") oder passen Sie die Modellparameter an (siehe Konfig/ (Dokumentation).
  • Debugging-ProblemeWenn etwas schief geht, überprüfen Sie die Python-Version, die Abhängigkeiten oder schauen Sie bei GitHub Issues nach, um Hilfe von der Community zu erhalten.

caveat

  • Hardware-Anforderungen: GPU (z. B. NVIDIA CUDA-Unterstützung) wird für die Geschwindigkeit empfohlen, CPU kann laufen, ist aber langsamer.
  • Datenqualität: Je höher die Auflösung des Eingangsbildes, desto besser das Ergebnis; der angepasste Datensatz muss konsistent sein.
  • Online-Erfahrung: Einige Funktionen können online über Hugging Face Spaces ohne lokale Installation getestet werden.

Mit diesen Schritten können Sie Ihren Fotos mit PhotoDoodle ganz einfach einen künstlerischen Reiz verleihen, egal ob es sich um einen kurzen Versuch oder eine tiefgreifende Anpassung handelt.

CDN1
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " PhotoDoodle: KI-Tool zum Hinzufügen künstlerischer Kritzeleien zu Fotos mit Textbefehlen

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)