AI Personal Learning
und praktische Anleitung
Sitzsack Marscode1

CogView4: ein quelloffenes grafisches Modell zur Erzeugung zweisprachiger hochauflösender Bilder in Chinesisch und Englisch

Allgemeine Einführung

CogView4 ist ein quelloffenes Text-zu-Grafik-Modell, das vom KEG-Labor der Tsinghua-Universität (THUDM) entwickelt wurde und sich auf die Umwandlung von Textbeschreibungen in hochwertige Bilder konzentriert. Es unterstützt die zweisprachige Eingabe von Stichwörtern und ist besonders gut darin, chinesische Stichwörter zu verstehen und Bilder mit chinesischen Schriftzeichen zu generieren, was ideal für die Gestaltung von Werbung, die Erstellung kurzer Videos und andere Szenarien ist. Als erstes Open-Source-Modell, das die Generierung chinesischer Zeichen auf dem Bildschirm unterstützt, zeichnet sich CogView4 durch komplexe semantische Ausrichtung und Befehlsfolge aus. Es basiert auf dem GLM-4-9B Text-Encoder, unterstützt die Eingabe von Wörtern beliebiger Länge und kann Bilder mit einer Auflösung von bis zu 2048 erzeugen. Das Projekt wird auf GitHub gehostet, mit detailliertem Code und Dokumentation, und hat eine Menge Aufmerksamkeit und Beteiligung von Entwicklern und Schöpfern angezogen.

Das neueste CogView4-Modell wird am 13. März in Betrieb genommen intellektuell anregende Rede Offizielle Website.

CogView4: Ein Open-Source-Literatur-Grafikmodell zur Generierung chinesisch-englischer zweisprachiger HD-Bilder-1

Online-Erfahrung: https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4

 

Funktionsliste

  • Zweisprachige Bilder zur Erzeugung von StichwörternEs unterstützt sowohl chinesische als auch englische Beschreibungen und kann Bilder, die den Hinweisen entsprechen, genau verstehen und erzeugen, wobei chinesische Szenen besonders gut abschneiden.
  • Bildschirmgenerierung von chinesischen ZeichenGenerieren Sie klaren chinesischen Text in Bildern, der sich für die Erstellung von Postern, Anzeigen und anderen kreativen Arbeiten eignet, die Textinhalte erfordern.
  • Ausgabe in beliebiger AuflösungDas Unternehmen unterstützt die Erstellung von Bildern jeder Größe, von niedriger Auflösung bis 2048x2048, um eine Vielzahl von Anforderungen zu erfüllen.
  • Unterstützung für extralange StichwörterDas System akzeptiert Texteingaben von beliebiger Länge und kann bis zu 1024 Token verarbeiten, was die Beschreibung komplexer Szenarien erleichtert.
  • Komplexer semantischer AbgleichErfasst genau die Details in den gesuchten Wörtern und erzeugt qualitativ hochwertige Bilder, die der Semantik entsprechen.
  • Open-Source-ModellanpassungVollständiger Code und vortrainierte Modelle werden zur Verfügung gestellt, und Entwickler können sie nach ihren Bedürfnissen entwickeln oder optimieren.

 

Hilfe verwenden

Ablauf der Installation

CogView4 ist ein auf Python basierendes Open-Source-Projekt, für dessen Ausführung eine lokal konfigurierte Umgebung erforderlich ist. Hier sind die detaillierten Installationsschritte:

1. die Vorbereitung der Umwelt

  • BetriebssystemWindows, Linux oder macOS werden unterstützt.
  • Hardware-VoraussetzungNVIDIA-Grafikprozessoren (mindestens 16 GB Videospeicher) werden zur Beschleunigung der Inferenz empfohlen; CPUs können ebenfalls eingesetzt werden, sind aber langsamer.
  • Software-Abhängigkeit::
    • Python 3.8 oder höher
    • PyTorch (es wird empfohlen, die GPU-Version zu installieren, torch>=2.0)
    • Git (zum Klonen von Repositories)

2. das Klonen von Lagern

Öffnen Sie ein Terminal und geben Sie den folgenden Befehl ein, um den Quellcode des CogView4-Projekts herunterzuladen:

git clone https://github.com/THUDM/CogView4.git
cd CogView4

3. die Installation von Abhängigkeiten

Das Projekt enthält die Datei requirements.txt. Führen Sie den folgenden Befehl aus, um die erforderlichen Bibliotheken zu installieren:

pip install -r anforderungen.txt

Für die GPU-Beschleunigung stellen Sie sicher, dass Sie die richtige Version von PyTorch installieren, indem Sie z. B. auf der offiziellen PyTorch-Website nach Installationsbefehlen suchen:

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118

4) Herunterladen von vortrainierten Modellen

Das CogView4-6B-Modell muss manuell von Hugging Face oder über den offiziellen Link heruntergeladen werden. Besuchen Sie die GitHub-Seite von THUDM, um die Download-Adresse des Modells zu finden (z. B. THUDM/CogView4-6B), entpacken Sie es in das Stammverzeichnis des Projekts im Verzeichnis Kontrollpunkte Ordner. Oder automatisch per Code herunterladen:

from diffusers import CogView4Pipeline
pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B")

5. die Konfigurationsumgebung

Wenn der Videospeicher begrenzt ist, aktivieren Sie die Speicheroptimierungsoptionen (z. B. enable_model_cpu_offload), wie in der nachstehenden Gebrauchsanweisung beschrieben.

Wie man CogView4 benutzt

Nach der Installation können die Benutzer CogView4 über ein Python-Skript aufrufen, um Bilder zu erzeugen. Im Folgenden finden Sie die detaillierte Vorgehensweise:

1. grundlegende Bilderzeugung

Erstellen Sie eine Python-Datei (z. B. generieren.py), geben Sie den folgenden Code ein:

from diffusers importieren CogView4Pipeline
importieren torch
#-Modell in die GPU laden
pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B", torch_dtype=torch.bfloat16).to("cuda")
# Optimierung der Grafikspeichernutzung
pipe.enable_model_cpu_offload() # Verlagerung einiger Berechnungen auf die CPU
pipe.vae.enable_slicing() # VAE-Verarbeitung aufteilen und würfeln
pipe.vae.enable_tiling() # Chunk-Verarbeitung VAE
# Eingabeaufforderung
prompt = "Ein roter Sportwagen, geparkt auf einer sonnigen Straße am Meer mit azurblauen Wellen im Hintergrund"
image = pipe(
prompt=prompt,
guidance_scale=3.5, # Kontrolle, wie gut das generierte Bild zum Prompt passt
num_images_per_prompt=1, # Erzeugen eines Bildes
num_inference_steps=50, # Anzahl der Inferenzschritte, beeinflusst die Qualität
width=1024, # Bildbreite
height=1024 # Bildhöhe
).images[0]
# Speichern des Bildes
image.save("output.png")

Führen Sie das Skript aus:

python generate.py

Das Ergebnis ist ein 1024x1024 Bild und wird als ausgabe.png.

2. die Erzeugung von Bildern mit chinesischen Schriftzeichen

CogView4 unterstützt z.B. die Generierung von chinesischem Text in Bildern:

prompt = "Ein Werbeplakat mit der Aufschrift 'Welcome to experience CogView4' mit einem blauen Himmel und weißen Wolken im Hintergrund"
image = pipe(prompt=prompt, width=1024, height=1024).images[0]
image.save("poster.png")

Nach der Ausführung wird der Schriftzug "Willkommen bei CogView4" deutlich im Bild angezeigt, was sich für die Erstellung von Werbematerialien eignet.

3. die Anpassung der Auflösung

CogView4 unterstützt die Ausgabe in beliebiger Auflösung, z.B. die Erzeugung von 2048x2048 Bildern:

image = pipe(prompt=prompt, width=2048, height=2048).images[0]
image.save("high_res.png")

Hinweis: Für höhere Auflösungen ist mehr Videospeicher erforderlich. Es wird ein Grafikprozessor mit 24 GB oder mehr Videospeicher empfohlen.

4. die Handhabung sehr langer Stichwörter

CogView4 kann komplexe Beschreibungen wie z. B.:

prompt = "Ein belebter alter chinesischer Basar mit Ständen voller Keramik und Seide, Bergen und Sonnenuntergang in der Ferne und Menschen, die in traditioneller Han-chinesischer Kleidung einkaufen"
image = pipe(prompt=prompt, num_inference_steps=50).images[0]
image.save("markt.png")

Unterstützt bis zu 1024 Token, analysiert lange Texte vollständig und erzeugt detaillierte Bilder.

5. die Optimierung der Leistung

Wenn der Videospeicher nicht ausreicht, passen Sie die Parameter an:

  • unter Fackel_Typ wegen fackel.float16
  • aufsteigen num_inference_steps zur Verbesserung der Qualität (Standardwert 50, empfohlen 50-100)
  • ausnutzen pipe.enable_model_cpu_offload() Verlagerung einiger Modelle zur CPU-Berechnung

Ausgewählte Funktionen

Zweisprachige Bilder generieren

Die zweisprachige Unterstützung von CogView4 ist die größte Attraktion. Geben Sie zum Beispiel gemischte Stichwörter ein:

prompt = "Eine futuristische Stadt mit Neonlichtern und fliegenden Autos, auf deren Schild 'City of the Future' steht"
image = pipe(prompt=prompt).images[0]
image.save("future_city.png")

Das resultierende Bild enthält sowohl die englische Beschreibung der zukünftigen Stadt als auch das chinesische "Future City"-Logo, was ein starkes semantisches Verständnis beweist.

Hochwertige Detailkontrolle

Durch Anpassung anleitung_skala(Bereich 1-10, Standardwert 3,5), der steuert, wie gut das Bild zum Stichwort passt. Je höher der Wert ist, desto besser passt das Detail zum Stichwort, aber es kann die Kreativität beeinträchtigen:

image = pipe(prompt=prompt, guidance_scale=7.0).images[0]

Stapelverarbeitung

Erzeugen Sie mehrere Bilder auf einmal:

images = pipe(prompt=prompt, num_images_per_prompt=3).images
for i, img in enumerate(images):
img.save(f "output_{i}.png")

caveat

  • VGA-SpeicherbedarfFür die Erstellung von 1024x1024-Bildern werden etwa 16 GB Videospeicher benötigt, für 2048x2048-Bilder 24 GB und mehr.
  • Inferenzzeit50 Schritte der Argumentation dauern etwa 1-2 Minuten (je nach Hardware).
  • Unterstützung der GemeinschaftWenn Sie Probleme haben, bitten Sie auf der GitHub Issues-Seite um Hilfe oder lesen Sie die offizielle README.

Mit diesen Schritten können Anwender schnell mit CogView4 arbeiten, qualitativ hochwertige Bilder erzeugen und diese in kreativen Projekten einsetzen!


CDN1
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " CogView4: ein quelloffenes grafisches Modell zur Erzeugung zweisprachiger hochauflösender Bilder in Chinesisch und Englisch

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)