AnyText: Generieren und bearbeiten Sie mehrsprachigen Bildtext, hochgradig steuerbar, um mehrere Zeilen Chinesisch im Bild zu generieren

🚀 Einladung zum Erleben: Chinas erste KI-IDE Intelligente Programmiersoftware Trae Chinesische Version downloadDer DeepSeek-R1 und Doubao-pro sind unbegrenzt verfügbar!

Allgemeine Einführung

AnyText ist ein revolutionäres mehrsprachiges visuelles Texterzeugungs- und -bearbeitungswerkzeug, das auf der Grundlage des Diffusionsmodells entwickelt wurde. Es erzeugt natürlichen, hochwertigen mehrsprachigen Text in Bildern und unterstützt flexible Textbearbeitungsmöglichkeiten. Die Stärke von AnyText, das von einem Forscherteam entwickelt und auf der ICLR 2024 mit dem Spotlight-Preis ausgezeichnet wurde, liegt in seiner einzigartigen Architektur mit zwei Modulen: Das Hilfspotenzialmodul kodiert Textglyphen, Position und maskierte Bildinformationen, während das Texteinbettungsmodul die Strichdaten mithilfe eines OCR-Modells verarbeitet. Das Projekt stellt auch den AnyWord-3M-Datensatz zur Verfügung, den ersten mehrsprachigen Textbilddatensatz mit 3 Millionen Paaren mit OCR-Anmerkungen, der einen wichtigen Bewertungsmaßstab für den Bereich der visuellen Texterzeugung darstellt.

AnyText: Generieren und Bearbeiten von mehrsprachigem Bildtext, kontrollierte Generierung von Chinesisch im Bild-1

Erfahrung: https://modelscope.cn/studios/damo/studio_anytext/summary

Alternative Adresse: https://huggingface.co/spaces/modelscope/AnyText

Funktionsliste

Mehrsprachige Texterzeugung: Unterstützung für die Erzeugung mehrsprachiger Texte in Bildern
Texteditor: Sie können den Textinhalt vorhandener Bilder bearbeiten und ändern.
Stilkontrolle: Unterstützung für die Änderung des Stils des generierten Textes über das Basismodell oder das LoRA-Modell
FP16 Inferenzbeschleunigung: Unterstützt schnelle Inferenz, läuft auf GPUs mit 8 GB oder mehr Videospeicher
Chinesische und englische Übersetzung: eingebautes chinesisches und englisches Übersetzungsmodell, Unterstützung für die direkte Eingabe chinesischer Aufforderungswörter
Benutzerdefinierte Schriftarten: ermöglicht die Verwendung eigener Schriftartendateien
Stapelverarbeitung: Unterstützt die Stapelerstellung und -bearbeitung von Bildtext
Modellzusammenführung: Unterstützung für die Zusammenführung der Gewichte von Gemeinschaftsmodell und LoRA-Modell

Hilfe verwenden

1. umweltfreundliche Installation

Stellen Sie zunächst sicher, dass Git auf Ihrem System installiert ist:

conda install -c anaconda git

Klonen Sie den Projektcode:

git clone https://github.com/tyxsspa/AnyText.git
cd AnyText

Bereiten Sie die Schriftartdatei vor (empfohlen wird Arial Unicode MS):

mv dein/pfad/zu/arialuni.ttf . /font/Arial_Unicode.ttf

Schaffen und aktivieren Sie die Umgebung:

conda env erstellen -f environment.yaml
conda aktivieren anytext

2. die Verwendungsmodalitäten

2.1 Schnellstart

Dies lässt sich am einfachsten überprüfen, indem Sie den folgenden Befehl ausführen:

python inference.py

2.2 Starten einer interaktiven Präsentation

Die Demo-Schnittstelle wird für besser konfigurierte GPUs (8 GB oder mehr Videospeicher) empfohlen:

export CUDA_VISIBLE_DEVICES=0 && python demo.py

2.3 Erweiterte Konfiguration

Verwenden Sie FP32-Präzision und deaktivieren Sie den Übersetzer:

export CUDA_VISIBLE_DEVICES=0 && python demo.py --use_fp32 --no_translator

Verwenden Sie benutzerdefinierte Schriftarten:

export CUDA_VISIBLE_DEVICES=0 && python demo.py --font_path your/path/to/font/file.ttf

Laden Sie bestimmte Kontrollpunkte:

export CUDA_VISIBLE_DEVICES=0 && python demo.py --model_path your/path/to/your/own/anytext.ckpt

3. stilistische Anpassungen

In der Demo-Schnittstelle kann der Stil des generierten Textes auf zwei Arten angepasst werden:

Basismodell ändern: Geben Sie den Pfad des lokalen Basismodells in [Pfad des Basismodells] ein.
LoRA-Modell laden: Geben Sie z. B. den LoRA-Modellpfad und das Gewichtsverhältnis in [LoRA-Pfad und -Verhältnis] ein:

/pfad/von/lora1.pth 0.3 /pfad/von/lora2.safetensors 0.6

4. die Optimierung der Leistung

Standard-FP16-Inferenz wird verwendet, wobei sowohl das chinesische als auch das englische Übersetzungsmodell geladen werden (was etwa 4 GB Videospeicher in Anspruch nimmt)
Wenn FP16 verwendet wird und kein Übersetzungsmodell zum Einsatz kommt, benötigt ein einzelnes 512x512-Bild nur etwa 7,5 GB an Videospeicher.
Bei der ersten Ausführung werden die Modelldateien in den Ordner~/.cache/modelscope/hubVerzeichnis (auf der Festplatte des Computers)
Dies kann durch Setzen der UmgebungsvariablenMODELSCOPE_CACHEÄndern Sie das Download-Verzeichnis

5. vorsichtsmaßnahmen

Sicherstellen, dass die richtige Version des Abhängigkeitspakets installiert ist
Die Verwendung von benutzerdefinierten Schriftarten kann die Generierung beeinträchtigen
Der erste Lauf des Modells erfordert den Download der relevanten Dateien
Empfohlen für einen Grafikprozessor mit 8 GB Videospeicher und mehr

AnyText erzeugt Bilder Bedienungsanweisungen

laufendes Beispiel

AnyText verfügt über zwei Betriebsmodi: Textgenerierung und Textbearbeitung. Jeder Modus bietet eine Fülle von Beispielen, wählen Sie eines aus und klicken Sie auf [Ausführen!

Bitte beachten Sie, dass Sie vor dem Ausführen des Beispiels sicherstellen sollten, dass der von Hand gezeichnete Bereich leer ist, damit die Ergebnisse des Beispiels nicht beeinträchtigt werden. Außerdem verwenden die verschiedenen Beispiele unterschiedliche Parameter (z. B. Auflösung, Anzahl der Samen usw.); wenn Sie Ihre eigenen Beispiele erstellen möchten, achten Sie bitte auf die Änderung der Parameter oder aktualisieren Sie die Seite, um zu den Standardparametern zurückzukehren.

Textgenerierung

In der Eingabeaufforderung, um die Beschreibung der Eingabeaufforderung Wort (Unterstützung für Chinesisch und Englisch), die Notwendigkeit, jede Zeile des Textes in Anführungszeichen eingewickelt zu generieren, und dann nacheinander von Hand gezeichnet, um die Position der einzelnen Zeile des Textes, um Bilder zu erzeugen angeben. Bitte zeichnen Sie nicht zu willkürlich oder zu klein, die Anzahl der Positionen sollte die gleiche sein wie die Anzahl der Textzeilen, die Größe jeder Position sollte mit der Länge oder Breite der entsprechenden Textzeile so weit wie möglich angepasst werden. Wenn Sie nicht mit der Hand zeichnen können (Manual-draw), können Sie versuchen, das Rechteck zu ziehen (Manual-rect) oder zufällig zu generieren (Auto-rand).

Bei der Erzeugung mehrerer Zeilen wird jede Position nach bestimmten Regeln sortiert, um der Textzeile zu entsprechen, und mit der Option Sortierposition wird festgelegt, ob die Sortierpriorität von oben nach unten oder von links nach rechts erfolgt. Sie können die Option Debug anzeigen in den Parametereinstellungen aktivieren, um die Textposition und die Glyphen im Ergebnisbild zu beobachten. Die Option Position überarbeiten kann ebenfalls aktiviert werden, wodurch das äußere Rechteck des gerenderten Textes als korrigierte Position verwendet wird, obwohl gelegentlich festgestellt wurde, dass der auf diese Weise erzeugte Text etwas weniger kreativ ist.

Lektorin

Bitte laden Sie ein zu bearbeitendes Bild als Referenzbild (Ref) hoch, malen Sie dann nach Anpassung der Strichstärke die zu bearbeitende Position auf das Referenzbild, geben Sie die Worte der Beschreibungsaufforderung und den zu ändernden Textinhalt in die Eingabeaufforderung ein, um das Bild zu erzeugen.

Das Referenzbild kann eine beliebige Auflösung haben, aber die interne Verarbeitung beschränkt die lange Seite auf maximal 768, und die Breite und Höhe werden auf ein ganzzahliges Vielfaches von 64 skaliert.