CogView4: ein quelloffenes grafisches Modell zur Erzeugung zweisprachiger hochauflösender Bilder in Chinesisch und Englisch

Neueste AI-RessourcenGeschrieben vor 5 Monaten AI-Austauschkreis

Allgemeine Einführung

CogView4 ist ein quelloffenes Text-zu-Grafik-Modell, das vom KEG Lab (THUDM) an der Tsinghua Universität entwickelt wurde und sich auf die Umwandlung von Textbeschreibungen in hochwertige Bilder konzentriert. Es unterstützt die zweisprachige Eingabe von Stichwörtern und ist besonders gut darin, chinesische Stichwörter zu verstehen und Bilder mit chinesischen Schriftzeichen zu erzeugen, was ideal für die Gestaltung von Werbung, die Erstellung von Kurzvideos und andere Szenarien ist. Als erstes Open-Source-Modell, das die Generierung chinesischer Zeichen auf dem Bildschirm unterstützt, zeichnet sich CogView4 durch komplexe semantische Ausrichtung und Befehlsfolge aus. Es basiert auf dem GLM-4-9B Text-Encoder, unterstützt die Eingabe von Wörtern beliebiger Länge und kann Bilder mit einer Auflösung von bis zu 2048 erzeugen. Das Projekt wird auf GitHub gehostet, mit detailliertem Code und Dokumentation, und hat eine Menge Aufmerksamkeit und Beteiligung von Entwicklern und Schöpfern angezogen.

Die neuesten CogView4-Modelle werden am 13. März in Betrieb genommen intellektuell anregende Rede Offizielle Website.

Online-Erfahrung: https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4

Funktionsliste

Zweisprachige Bilder zur Erzeugung von StichwörternEs unterstützt sowohl chinesische als auch englische Beschreibungen und kann Bilder, die zu den Hinweisen passen, genau verstehen und erzeugen, wobei chinesische Szenen besonders gut abschneiden.
Bildschirmgenerierung von chinesischen ZeichenGenerieren Sie klaren chinesischen Text in Bildern, der sich für die Erstellung von Postern, Anzeigen und anderen kreativen Arbeiten eignet, die Textinhalte erfordern.
Ausgabe in beliebiger AuflösungDas Unternehmen unterstützt die Erstellung von Bildern jeder Größe, von niedriger Auflösung bis 2048x2048, um eine Vielzahl von Anforderungen zu erfüllen.
Unterstützung für extralange StichwörterDas System akzeptiert Texteingaben von beliebiger Länge und kann bis zu 1024 Token verarbeiten, was die Beschreibung komplexer Szenarien erleichtert.
Komplexer semantischer AbgleichErfasst genau die Details in den gesuchten Wörtern und erzeugt qualitativ hochwertige Bilder, die der Semantik entsprechen.
Open-Source-ModellanpassungVollständiger Code und vortrainierte Modelle werden zur Verfügung gestellt, und Entwickler können sie nach ihren Bedürfnissen entwickeln oder optimieren.

Hilfe verwenden

Einbauverfahren

CogView4 ist ein auf Python basierendes Open-Source-Projekt, für dessen Ausführung eine lokal konfigurierte Umgebung erforderlich ist. Hier sind die detaillierten Installationsschritte:

1. die Vorbereitung der Umwelt

BetriebssystemWindows, Linux oder macOS werden unterstützt.
Hardware-VoraussetzungNVIDIA-Grafikprozessoren (mindestens 16 GB Videospeicher) werden empfohlen, um die Inferenz zu beschleunigen; CPUs können auch laufen, sind aber langsamer.
Software-Abhängigkeit::
- Python 3.8 oder höher
- PyTorch (es wird empfohlen, die GPU-Version zu installieren, torch>=2.0)
- Git (zum Klonen von Repositories)

2. das Klonen von Lagern

Öffnen Sie ein Terminal und geben Sie den folgenden Befehl ein, um den Quellcode des CogView4-Projekts herunterzuladen:

git clone https://github.com/THUDM/CogView4.git  
cd CogView4

3. die Installation von Abhängigkeiten

Das Projekt enthält die Datei requirements.txt. Führen Sie den folgenden Befehl aus, um die erforderlichen Bibliotheken zu installieren:

pip install -r requirements.txt

Für die GPU-Beschleunigung stellen Sie sicher, dass Sie die richtige Version von PyTorch installieren, indem Sie z. B. auf der offiziellen PyTorch-Website nach Installationsbefehlen suchen:

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118

4) Herunterladen von vortrainierten Modellen

Das CogView4-6B-Modell muss manuell von Hugging Face oder über den offiziellen Link heruntergeladen werden. Besuchen Sie die GitHub-Seite von THUDM, um die Download-Adresse des Modells zu finden (z. B. THUDM/CogView4-6B), entpacken Sie es in das Stammverzeichnis des Projekts im Verzeichnis checkpoints Ordner. Oder automatisch per Code herunterladen:

from diffusers import CogView4Pipeline  
pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B")

5. die Konfigurationsumgebung

Wenn der Videospeicher begrenzt ist, aktivieren Sie die Optionen zur Speicheroptimierung (z. B. enable_model_cpu_offload), wie in der nachstehenden Gebrauchsanweisung beschrieben.

Wie man CogView4 benutzt

Nach der Installation können die Benutzer CogView4 über ein Python-Skript aufrufen, um Bilder zu erzeugen. Im Folgenden finden Sie die detaillierte Vorgehensweise:

1. grundlegende Bilderzeugung

Erstellen Sie eine Python-Datei (z. B. generate.py), geben Sie den folgenden Code ein:

from diffusers import CogView4Pipeline  
import torch  
# 加载模型到 GPU  
pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B", torch_dtype=torch.bfloat16).to("cuda")  
# 优化显存使用  
pipe.enable_model_cpu_offload()  # 将部分计算移至 CPU  
pipe.vae.enable_slicing()        # 分片处理 VAE  
pipe.vae.enable_tiling()         # 分块处理 VAE  
# 输入提示词  
prompt = "一辆红色跑车停在阳光下的海边公路，背景是蔚蓝的海浪"  
image = pipe(  
prompt=prompt,  
guidance_scale=3.5,        # 控制生成图像与提示的贴合度  
num_images_per_prompt=1,   # 生成一张图像  
num_inference_steps=50,    # 推理步数，影响质量  
width=1024,                # 图像宽度  
height=1024                # 图像高度  
).images[0]  
# 保存图像  
image.save("output.png")

Führen Sie das Skript aus:

python generate.py

Das Ergebnis ist ein 1024x1024 Bild und wird als output.png.

2. die Erzeugung von Bildern mit chinesischen Schriftzeichen

CogView4 unterstützt z.B. die Generierung von chinesischem Text in Bildern:

prompt = "一张写有‘欢迎体验 CogView4’的广告海报，背景是蓝天白云"  
image = pipe(prompt=prompt, width=1024, height=1024).images[0]  
image.save("poster.png")

Nach der Ausführung wird der Schriftzug "Willkommen bei CogView4" deutlich im Bild angezeigt, was sich für die Erstellung von Werbematerialien eignet.

3. die Anpassung der Auflösung

CogView4 unterstützt die Ausgabe in beliebiger Auflösung, z.B. die Erzeugung von 2048x2048 Bildern:

image = pipe(prompt=prompt, width=2048, height=2048).images[0]  
image.save("high_res.png")

Hinweis: Für höhere Auflösungen ist mehr Videospeicher erforderlich. Es wird ein Grafikprozessor mit 24 GB oder mehr Videospeicher empfohlen.

4. die Handhabung sehr langer Stichwörter

CogView4 kann komplexe Beschreibungen wie z. B.:

prompt = "一个热闹的古代中国集市，摊位上摆满陶瓷和丝绸，远处有山峦和夕阳，人们穿着传统汉服在购物"  
image = pipe(prompt=prompt, num_inference_steps=50).images[0]  
image.save("market.png")

Unterstützt bis zu 1024 Token, analysiert lange Texte vollständig und erzeugt detaillierte Bilder.

5. die Optimierung der Leistung

Wenn der Videospeicher nicht ausreicht, passen Sie die Parameter an:

unter torch_dtype wegen torch.float16
Erhöhung num_inference_steps zur Verbesserung der Qualität (Standardwert 50, empfohlen 50-100)
ausnutzen pipe.enable_model_cpu_offload() Verlagerung einiger Modelle zur CPU-Berechnung

Ausgewählte Funktionen

Zweisprachige Bilder generieren

Die zweisprachige Unterstützung von CogView4 ist die größte Attraktion. Geben Sie zum Beispiel gemischte Stichwörter ein:

prompt = "A futuristic city with neon lights and flying cars, 写着‘未来之城’的标志"  
image = pipe(prompt=prompt).images[0]  
image.save("future_city.png")

Das resultierende Bild enthält sowohl die englische Beschreibung der zukünftigen Stadt als auch das chinesische "Future City"-Logo, was ein starkes semantisches Verständnis beweist.

Hochwertige Detailkontrolle

Durch Anpassung guidance_scale(Bereich 1-10, Standardwert 3,5), der steuert, wie gut das Bild zum Stichwort passt. Je höher der Wert ist, desto besser passt das Detail zum Stichwort, aber es kann die Kreativität beeinträchtigen:

image = pipe(prompt=prompt, guidance_scale=7.0).images[0]

Stapelverarbeitung

Erzeugen Sie mehrere Bilder auf einmal:

images = pipe(prompt=prompt, num_images_per_prompt=3).images  
for i, img in enumerate(images):  
img.save(f"output_{i}.png")

caveat

VGA-SpeicherbedarfFür die Erstellung von 1024x1024-Bildern werden etwa 16 GB Videospeicher benötigt, für 2048x2048-Bilder 24 GB und mehr.
Inferenzzeit50 Schritte der Argumentation dauern etwa 1-2 Minuten (je nach Hardware).
Unterstützung der GemeinschaftWenn Sie Probleme haben, bitten Sie auf der GitHub Issues-Seite um Hilfe oder lesen Sie die offizielle README.

Mit diesen Schritten können Anwender schnell mit CogView4 loslegen, hochwertige Bilder generieren und diese in kreativen Projekten einsetzen!