CogView3: Wisdom Spectrums quelloffenes Kaskaden-Diffusions-Textgenerierungs-Bildmodell

Neueste AI-RessourcenAktualisiert vor 11 Monaten AI-Austauschkreis

10.5K 00

Allgemeine Einführung

CogView3 ist ein fortschrittliches Bildsystem zur Texterzeugung, das von der Tsinghua-Universität und dem Think Tank Team (Chi Spectrum Qingyan) entwickelt wurde. Es basiert auf dem kaskadierenden Diffusionsmodell und erzeugt hochauflösende Bilder in mehreren Stufen. Zu den Hauptmerkmalen von CogView3 gehören die mehrstufige Generierung, die innovative Architektur und die effiziente Leistung, die in vielen Bereichen wie Kunst, Werbedesign, Spieleentwicklung usw. Anwendung finden.

Die Fähigkeiten dieser Modellreihe sind jetzt online bei "Chi Spectrum Clear Words" (chatglm.cn) und können auf Clear Words erlebt werden.

Oben: Ein rosafarbenes Auto. Unten: Ein Stapel von 3 Würfeln. Ein roter Würfel liegt oben und sitzt auf einem roten Würfel. Der rote Würfel liegt in der Mitte und sitzt auf einem grünen Würfel. Der grüne Würfel liegt unten.

Funktionsliste

Mehrstufige Generierung: Zunächst werden Bilder mit niedriger Auflösung erzeugt, dann wird die Bildauflösung durch ein Relais-Diffusionsverfahren schrittweise erhöht, so dass hochauflösende Bilder mit einer Auflösung von bis zu 2048x2048 entstehen.
Effiziente Leistung: CogView3 reduziert die Kosten für Training und Inferenz erheblich und erzeugt gleichzeitig qualitativ hochwertige Bilder. Im Vergleich zu SDXL, dem derzeit modernsten Open-Source-Modell, beträgt die Inferenzzeit von CogView3 nur ein Zehntel davon.
Innovative Architektur: CogView3 führt die neueste DiT-Architektur (Diffusion Transformer) ein, die Zero-SNR-Diffusionsrauschplanung verwendet und Mechanismen zur gemeinsamen Aufmerksamkeit von Text und Bild kombiniert, um die Gesamtleistung weiter zu verbessern.
Offener Quellcode: Der Code und das Modell von CogView3 sind auf GitHub als Open Source verfügbar und können von den Nutzern frei heruntergeladen und verwendet werden.

Hilfe verwenden

Installation und Registrierung

Besuchen Sie die Website: Öffnen Sie die offizielle CogView3-Website. GitHub.
Code herunterladen: Klicken Sie auf die Schaltfläche "Code" auf der Seite und wählen Sie "ZIP herunterladen", um die Projektdatei herunterzuladen, oder verwenden Sie den Befehl git, um sie herunterzuladen:git<span> </span>clone<span> </span>https://github.com/THUDM/CogView3.git.
Abhängigkeiten installieren: Stellen Sie sicher, dass die Diffusers-Bibliothek aus dem Quellcode installiert ist:

pip install git+https://github.com/huggingface/diffusers.git

Verwendungsprozess

Cue-Optimierung :
- Obwohl die Modelle der CogView3-Familie mit langen Bildbeschreibungen trainiert werden, empfehlen wir dringend, die Cues mit Hilfe von Large Language Models (LLMs) vor der Generierung von Text zu Bildern umzuschreiben, was die Qualität der Generierung erheblich verbessert.
- Führen Sie das folgende Skript aus, um die Eingabeaufforderung zu optimieren:
```
python prompt_optimize.py --api_key "Zhipu AI API Key"--prompt {your prompt} --base_url "https://open.bigmodel.cn/api/paas/v4"--model "glm-4-plus"
```

Begründungsmodelle (Diffusoren) :

Stellen Sie zunächst sicher, dass Sie die Diffusoren-Bibliothek aus dem Quellcode installieren:
```
pip install git+https://github.com/huggingface/diffusers.git
```

Führen Sie dann den folgenden Code aus:

fromdiffusers importCogView3PlusPipeline
importtorch

pipe = CogView3PlusPipeline.from_pretrained("THUDM/CogView3-Plus-3B", torch_dtype=torch.float16).to("cuda")
pipe.enable_model_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

prompt = "A vibrant cherry red sports car sits proudly under the gleaming sun, its polished exterior smooth and flawless, casting a mirror-like reflection. The car features a low, aerodynamic body, angular headlights that gaze forward like predatory eyes, and a set of black, high-gloss racing rims that contrast starkly with the red. A subtle hint of chrome embellishes the grille and exhaust, while the tinted windows suggest a luxurious and private interior. The scene conveys a sense of speed and elegance, the car appearing as if it's about to burst into a sprint along a coastal road, with the ocean's azure waves crashing in the background."

image = pipe(
    prompt=prompt,
    guidance_scale=7.0,
    num_images_per_prompt=1,
    num_inference_steps=50,
    width=1024,
    height=1024,
).images[0]

image.save("cogview3.png")

Reasoning-Modelle (SAT) :
- Im SAT-Tutorial finden Sie eine schrittweise Anleitung zur Modellinferenz.

allgemeine Probleme

Installationsfehler: Stellen Sie sicher, dass die Python-Version den Anforderungen entspricht und achten Sie bei der Installation von PyTorch auf die Versionskompatibilität.
Bildqualität: Die Spezifität der Textbeschreibung und der Umfang des Trainingsdatensatzes wirken sich auf die Ergebnisse der erzeugten Bilder aus. Es wird empfohlen, eine detaillierte Textbeschreibung und verschiedene Datensätze für das Training zu verwenden.

Neueste AI-Ressourcen # AI Online-Bilderzeugung # AI Java Open Source Projekt

Artikel Copyright AI-Austauschkreis Alle, bitte nicht ohne Erlaubnis vervielfältigen.

Vereinfacht: ein KI-Inhaltsmarketing-Tool aus einer Hand, um Ihren Marketingprozess zu rationalisieren

Neueste AI-Ressourcen # AI Marketing

vor 7 Monaten

011.8K

Doclingo Document Translation: KI-Übersetzungsdienst für PDF-Dokumente, Beibehaltung des Dokumentenlayouts, Bearbeitung nach der Übersetzung

Neueste AI-Ressourcen # AI Übersetzung

vor 8 Monaten

014.6K

GraphMaker: Intelligente Diagrammerstellung und Datenvisualisierung (kostenpflichtig)

Neueste AI-Ressourcen # AI-Datenanalyse

vor 10 Monaten

012.6K

dots.ocr - ein quelloffenes Modell zur Analyse mehrsprachiger Dokumente vom Little Red Book hi lab

Neueste AI-Ressourcen

vor 1 Monat

015.4K

Keine Kommentare

Sie müssen eingeloggt sein, um an den Kommentaren teilnehmen zu können!

Jetzt anmelden

Keine Kommentare...

CogView3: Wisdom Spectrums quelloffenes Kaskaden-Diffusions-Textgenerierungs-Bildmodell

Allgemeine Einführung

Funktionsliste