Allgemeine Einführung
CogView3 ist ein fortschrittliches Bildsystem zur Texterzeugung, das von der Tsinghua-Universität und dem Think Tank Team (Chi Spectrum Qingyan) entwickelt wurde. Es basiert auf dem kaskadierenden Diffusionsmodell und erzeugt hochauflösende Bilder in mehreren Stufen. Zu den Hauptmerkmalen von CogView3 gehören die mehrstufige Generierung, die innovative Architektur und die effiziente Leistung, die in vielen Bereichen wie Kunst, Werbedesign, Spieleentwicklung usw. Anwendung finden.
Die Fähigkeiten dieser Modellreihe sind jetzt online bei "Chi Spectrum Clear Words" (chatglm.cn) und können auf Clear Words erlebt werden.
Funktionsliste
- Mehrstufige Generierung: Zunächst werden Bilder mit niedriger Auflösung erzeugt, dann wird die Bildauflösung durch ein Relais-Diffusionsverfahren schrittweise erhöht, so dass hochauflösende Bilder mit einer Auflösung von bis zu 2048x2048 entstehen.
- Effiziente Leistung: CogView3 reduziert die Trainings- und Inferenzkosten erheblich und erzeugt gleichzeitig qualitativ hochwertige Bilder. Im Vergleich zu SDXL, dem derzeit modernsten Open-Source-Modell, beträgt die Inferenzzeit von CogView3 nur ein Zehntel davon.
- Innovative Architektur: CogView3 führt die neueste DiT-Architektur (Diffusion Transformer) ein, die Zero-SNR-Diffusionsgeräuschplanung einsetzt und den Mechanismus der gemeinsamen Aufmerksamkeit von Text und Bild kombiniert, um die Gesamtleistung weiter zu verbessern.
- Offener Quellcode: Der Code und das Modell von CogView3 sind auf GitHub als Open Source verfügbar und können von den Nutzern frei heruntergeladen und verwendet werden.
Hilfe verwenden
Installation und Registrierung
- Besuchen Sie die Website: Öffnen Sie die offizielle CogView3-Website. GitHub.
- Code herunterladen: Klicken Sie auf die Schaltfläche "Code" auf der Seite und wählen Sie "ZIP herunterladen", um die Projektdatei herunterzuladen, oder verwenden Sie den Befehl git, um sie herunterzuladen:
git<span> </span>klonen.<span> </span>https://github.com/THUDM/CogView3.git
. - Abhängigkeiten installieren: Stellen Sie sicher, dass die Diffusers-Bibliothek aus dem Quellcode installiert ist:
pip git+https://github.com/huggingface/diffusers.git installieren
Verwendung Prozess
- Cue-Optimierung :
- Obwohl die Modelle der CogView3-Familie mit langen Bildbeschreibungen trainiert werden, empfehlen wir dringend, die Hinweise mit Hilfe von Large Language Models (LLMs) umzuschreiben, bevor Text zu Bildern generiert wird, was die Qualität der Generierung erheblich verbessert.
- Führen Sie das folgende Skript aus, um die Eingabeaufforderung zu optimieren:
python prompt_optimize.py --Api_Schlüssel "Zhipu AI API-Schlüssel"--Prompt {Ihr Prompt} --basis_url "https://open.bigmodel.cn/api/paas/v4"--Modell "glm-4-plus"
- Begründungsmodelle (Diffusoren) :
- Stellen Sie zunächst sicher, dass Sie die Diffusoren-Bibliothek aus dem Quellcode installieren:
pip git+https://github.com/huggingface/diffusers.git installieren
- Führen Sie dann den folgenden Code aus:
fromdiffusers importCogView3PlusPipeline importtorch vonDiffusoren importierenCogView3PlusPipeline importtorch = CogView3PlusPipeline.from_pretrained("THUDM/CogView3-Plus-3B"Fackel_Typ=torch.float16).to("cuda") pipe.enable_model_cpu_offload() pipe.vae.enable_slicing() pipe.vae.enable_tiling() Eingabeaufforderung = "Ein leuchtend kirschroter Sportwagen sitzt stolz unter der strahlenden Sonne, sein poliertes Äußeres ist glatt und makellos und wirft ein spiegelndes Licht. Das Auto hat eine niedrige, aerodynamische Karosserie, kantige Scheinwerfer, die wie Raubtieraugen nach vorne blicken, und einen Satz schwarzer, hochglänzender Rennsportfelgen, die einen starken Kontrast zum Rot bilden. Ein dezenter Hauch von Chrom ziert den Kühlergrill und den Auspuff, während die getönten Scheiben ein luxuriöses und privates Interieur suggerieren. Die Szene vermittelt ein Gefühl von Geschwindigkeit und Eleganz, das Auto wirkt, als würde es gleich in einen Sprint entlang einer Küstenstraße ausbrechen, während im Hintergrund die azurblauen Wellen des Ozeans schlagen. im Hintergrund rauschen." Bild = pipe( Aufforderung=prompt, anleitung_skala=7.0, num_images_per_prompt=1, num_inference_steps=50, , und Breite=1024, Höhe=1024, ).images[0] image.save("cogview3.png")
- Stellen Sie zunächst sicher, dass Sie die Diffusoren-Bibliothek aus dem Quellcode installieren:
- Reasoning-Modelle (SAT) :
- Im SAT-Tutorial finden Sie eine schrittweise Anleitung zur Modellinferenz.
allgemeine Probleme
- Installationsfehler: Stellen Sie sicher, dass die Python-Version den Anforderungen entspricht, und achten Sie bei der Installation von PyTorch auf die Versionskompatibilität.
- Bildqualität: Die Spezifität der Textbeschreibung und der Umfang des Trainingsdatensatzes wirken sich auf die Ergebnisse der erzeugten Bilder aus. Es wird empfohlen, eine detaillierte Textbeschreibung und verschiedene Datensätze für das Training zu verwenden.