AI Personal Learning
und praktische Anleitung

AnyText: Generieren und bearbeiten Sie mehrsprachige Bildtexte, die in hohem Maße kontrollierbar sind, um mehrere Zeilen Chinesisch im Bild zu generieren

Allgemeine Einführung

AnyText ist ein revolutionäres mehrsprachiges visuelles Texterzeugungs- und -bearbeitungswerkzeug, das auf der Grundlage des Diffusionsmodells entwickelt wurde. Es erzeugt natürlichen, hochwertigen mehrsprachigen Text in Bildern und unterstützt flexible Textbearbeitungsmöglichkeiten. Die Stärke von AnyText, das von einem Forscherteam entwickelt und auf der ICLR 2024 mit dem Spotlight-Preis ausgezeichnet wurde, liegt in seiner einzigartigen Architektur mit zwei Modulen: Das Hilfspotenzialmodul kodiert Textglyphen, Position und maskierte Bildinformationen, während das Texteinbettungsmodul die Strichdaten mithilfe eines OCR-Modells verarbeitet. Das Projekt stellt auch den AnyWord-3M-Datensatz zur Verfügung, den ersten mehrsprachigen Textbilddatensatz mit 3 Millionen Paaren mit OCR-Anmerkungen, der einen wichtigen Bewertungsmaßstab für den Bereich der visuellen Texterzeugung darstellt.

AnyText: Generieren und Bearbeiten von mehrsprachigem Bildtext, kontrollierte Generierung von Chinesisch im Bild-1


 

AnyText: Generieren und Bearbeiten von mehrsprachigem Bildtext, kontrollierte Generierung von Chinesisch im Bild-1

Erfahrung: https://modelscope.cn/studios/damo/studio_anytext/summary

Alternative Adresse: https://huggingface.co/spaces/modelscope/AnyText

 

 

Funktionsliste

  • Mehrsprachige Texterzeugung: Unterstützung für die Erzeugung mehrsprachiger Texte in Bildern
  • Texteditor: Sie können den Textinhalt vorhandener Bilder bearbeiten und ändern.
  • Stilkontrolle: Unterstützung für die Änderung des Stils des generierten Textes über das Basismodell oder das LoRA-Modell
  • FP16 Inferenzbeschleunigung: Unterstützt schnelle Inferenz, läuft auf GPUs mit 8 GB oder mehr Videospeicher
  • Chinesische und englische Übersetzung: eingebautes chinesisches und englisches Übersetzungsmodell, Unterstützung für die direkte Eingabe chinesischer Aufforderungswörter
  • Benutzerdefinierte Schriftarten: ermöglicht die Verwendung eigener Schriftartendateien
  • Stapelverarbeitung: Unterstützt die Stapelerstellung und -bearbeitung von Bildtext
  • Modellzusammenführung: Unterstützung für die Zusammenführung der Gewichte von Gemeinschaftsmodell und LoRA-Modell

 

Hilfe verwenden

1. umweltfreundliche Installation

  1. Stellen Sie zunächst sicher, dass Git auf Ihrem System installiert ist:
conda install -c anaconda git
  1. Klonen Sie den Projektcode:
git clone https://github.com/tyxsspa/AnyText.git
cd AnyText
  1. Bereiten Sie die Schriftartdatei vor (empfohlen wird Arial Unicode MS):
mv dein/pfad/zu/arialuni.ttf . /font/Arial_Unicode.ttf
  1. Schaffen und aktivieren Sie die Umgebung:
conda env erstellen -f environment.yaml
conda aktivieren anytext

2. die Verwendungsmodalitäten

2.1 Schnellstart

Dies lässt sich am einfachsten überprüfen, indem Sie den folgenden Befehl ausführen:

python inference.py

2.2 Starten einer interaktiven Präsentation

Die Demo-Schnittstelle wird für besser konfigurierte GPUs (8 GB oder mehr Videospeicher) empfohlen:

export CUDA_VISIBLE_DEVICES=0 && python demo.py

2.3 Erweiterte Konfiguration

  • Verwenden Sie FP32-Präzision und deaktivieren Sie den Übersetzer:
export CUDA_VISIBLE_DEVICES=0 && python demo.py --use_fp32 --no_translator
  • Verwenden Sie benutzerdefinierte Schriftarten:
export CUDA_VISIBLE_DEVICES=0 && python demo.py --font_path your/path/to/font/file.ttf
  • Laden Sie bestimmte Kontrollpunkte:
export CUDA_VISIBLE_DEVICES=0 && python demo.py --model_path your/path/to/your/own/anytext.ckpt

3. stilistische Anpassungen

In der Demo-Schnittstelle kann der Stil des generierten Textes auf zwei Arten angepasst werden:

  1. Basismodell ändern: Geben Sie den Pfad des lokalen Basismodells in [Pfad des Basismodells] ein.
  2. LoRA-Modell laden: Geben Sie z. B. den LoRA-Modellpfad und das Gewichtsverhältnis in [LoRA-Pfad und -Verhältnis] ein:
/pfad/von/lora1.pth 0.3 /pfad/von/lora2.safetensors 0.6

4. die Optimierung der Leistung

  • Standard-FP16-Inferenz wird verwendet, wobei sowohl das chinesische als auch das englische Übersetzungsmodell geladen werden (was etwa 4 GB Videospeicher in Anspruch nimmt)
  • Wenn FP16 verwendet wird und kein Übersetzungsmodell zum Einsatz kommt, benötigt ein einzelnes 512x512-Bild nur etwa 7,5 GB an Videospeicher.
  • Bei der ersten Ausführung werden die Modelldateien in den Ordner~/.cache/modelscope/hubVerzeichnis (auf der Festplatte des Computers)
  • Dies kann durch Setzen der UmgebungsvariablenMODELSCOPE_CACHEÄndern Sie das Download-Verzeichnis

5. vorsichtsmaßnahmen

  1. Sicherstellen, dass die richtige Version des Abhängigkeitspakets installiert ist
  2. Die Verwendung von benutzerdefinierten Schriftarten kann die Generierung beeinträchtigen
  3. Der erste Lauf des Modells erfordert den Download der relevanten Dateien
  4. Empfohlen für einen Grafikprozessor mit 8 GB Videospeicher und mehr

 

AnyText erzeugt Bilder Bedienungsanweisungen

laufendes Beispiel

AnyText verfügt über zwei Betriebsmodi: Textgenerierung und Textbearbeitung. Jeder Modus bietet eine Fülle von Beispielen, wählen Sie eines aus und klicken Sie auf [Ausführen!

Bitte beachten Sie, dass Sie vor dem Ausführen des Beispiels sicherstellen sollten, dass der von Hand gezeichnete Bereich leer ist, damit die Ergebnisse des Beispiels nicht beeinträchtigt werden. Außerdem verwenden die verschiedenen Beispiele unterschiedliche Parameter (z. B. Auflösung, Anzahl der Samen usw.); wenn Sie Ihre eigenen Beispiele erstellen möchten, achten Sie bitte auf die Änderung der Parameter oder aktualisieren Sie die Seite, um zu den Standardparametern zurückzukehren.

Textgenerierung

In der Eingabeaufforderung, um die Beschreibung der Eingabeaufforderung Wort (Unterstützung für Chinesisch und Englisch), die Notwendigkeit, jede Zeile des Textes in Anführungszeichen eingewickelt zu generieren, und dann nacheinander von Hand gezeichnet, um die Position der einzelnen Zeile des Textes, um Bilder zu erzeugen angeben. Bitte zeichnen Sie nicht zu willkürlich oder zu klein, die Anzahl der Positionen sollte die gleiche sein wie die Anzahl der Textzeilen, die Größe jeder Position sollte mit der Länge oder Breite der entsprechenden Textzeile so weit wie möglich angepasst werden. Wenn Sie nicht mit der Hand zeichnen können (Manual-draw), können Sie versuchen, das Rechteck zu ziehen (Manual-rect) oder zufällig zu generieren (Auto-rand).

Bei der Erzeugung mehrerer Zeilen wird jede Position nach bestimmten Regeln sortiert, um der Textzeile zu entsprechen, und mit der Option Sortierposition wird festgelegt, ob die Sortierpriorität von oben nach unten oder von links nach rechts erfolgt. Sie können die Option Debug anzeigen in den Parametereinstellungen aktivieren, um die Textposition und die Glyphen im Ergebnisbild zu beobachten. Die Option Position überarbeiten kann ebenfalls aktiviert werden, wodurch das äußere Rechteck des gerenderten Textes als korrigierte Position verwendet wird, obwohl gelegentlich festgestellt wurde, dass der auf diese Weise erzeugte Text etwas weniger kreativ ist.

Lektorin

Bitte laden Sie ein zu bearbeitendes Bild als Referenzbild (Ref) hoch, malen Sie dann nach Anpassung der Strichstärke die zu bearbeitende Position auf das Referenzbild, geben Sie die Worte der Beschreibungsaufforderung und den zu ändernden Textinhalt in die Eingabeaufforderung ein, um das Bild zu erzeugen.

Das Referenzbild kann eine beliebige Auflösung haben, aber die interne Verarbeitung beschränkt die lange Seite auf maximal 768, und die Breite und Höhe werden auf ein ganzzahliges Vielfaches von 64 skaliert.

Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " AnyText: Generieren und bearbeiten Sie mehrsprachige Bildtexte, die in hohem Maße kontrollierbar sind, um mehrere Zeilen Chinesisch im Bild zu generieren

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)