AI Personal Learning
und praktische Anleitung

CogView3: Wisdom Spectrums quelloffenes Kaskaden-Diffusions-Textgenerierungs-Bildmodell

Allgemeine Einführung

CogView3 ist ein fortschrittliches Bildsystem zur Texterzeugung, das von der Tsinghua-Universität und dem Think Tank Team (Chi Spectrum Qingyan) entwickelt wurde. Es basiert auf dem kaskadierenden Diffusionsmodell und erzeugt hochauflösende Bilder in mehreren Stufen. Zu den Hauptmerkmalen von CogView3 gehören die mehrstufige Generierung, die innovative Architektur und die effiziente Leistung, die in vielen Bereichen wie Kunst, Werbedesign, Spieleentwicklung usw. Anwendung finden.

Die Fähigkeiten dieser Modellreihe sind jetzt online bei "Chi Spectrum Clear Words" (chatglm.cn) und können auf Clear Words erlebt werden.

CogView3: Ein effizientes Bildsystem zur Texterzeugung auf der Grundlage des Kaskaden-Diffusionsmodells text2img-1

 


CogView3: Wisdom Spectrums quelloffenes Kaskaden-Diffusions-Textgenerierungs-Bildmodell

Oben: Ein rosafarbenes Auto. Unten: Ein Stapel von 3 Würfeln. Ein roter Würfel liegt oben und sitzt auf einem roten Würfel. Der rote Würfel liegt in der Mitte und sitzt auf einem grünen Würfel. Der grüne Würfel liegt unten.

 

Funktionsliste

  • Mehrstufige Generierung: Zunächst werden Bilder mit niedriger Auflösung erzeugt, dann wird die Bildauflösung durch ein Relais-Diffusionsverfahren schrittweise erhöht, so dass hochauflösende Bilder mit einer Auflösung von bis zu 2048x2048 entstehen.
  • Effiziente Leistung: CogView3 reduziert die Trainings- und Inferenzkosten erheblich und erzeugt gleichzeitig qualitativ hochwertige Bilder. Im Vergleich zu SDXL, dem derzeit modernsten Open-Source-Modell, beträgt die Inferenzzeit von CogView3 nur ein Zehntel davon.
  • Innovative Architektur: CogView3 führt die neueste DiT-Architektur (Diffusion Transformer) ein, die Zero-SNR-Diffusionsgeräuschplanung einsetzt und den Mechanismus der gemeinsamen Aufmerksamkeit von Text und Bild kombiniert, um die Gesamtleistung weiter zu verbessern.
  • Offener Quellcode: Der Code und das Modell von CogView3 sind auf GitHub als Open Source verfügbar und können von den Nutzern frei heruntergeladen und verwendet werden.

 

Hilfe verwenden

Installation und Registrierung

  1. Besuchen Sie die Website: Öffnen Sie die offizielle CogView3-Website. GitHub.
  2. Code herunterladen: Klicken Sie auf die Schaltfläche "Code" auf der Seite und wählen Sie "ZIP herunterladen", um die Projektdatei herunterzuladen, oder verwenden Sie den Befehl git, um sie herunterzuladen:git<span> </span>klonen.<span> </span>https://github.com/THUDM/CogView3.git.
  3. Abhängigkeiten installieren: Stellen Sie sicher, dass die Diffusers-Bibliothek aus dem Quellcode installiert ist:
pip git+https://github.com/huggingface/diffusers.git installieren

Verwendung Prozess

  1. Cue-Optimierung :
    • Obwohl die Modelle der CogView3-Familie mit langen Bildbeschreibungen trainiert werden, empfehlen wir dringend, die Hinweise mit Hilfe von Large Language Models (LLMs) umzuschreiben, bevor Text zu Bildern generiert wird, was die Qualität der Generierung erheblich verbessert.
    • Führen Sie das folgende Skript aus, um die Eingabeaufforderung zu optimieren:
      python prompt_optimize.py --Api_Schlüssel "Zhipu AI API-Schlüssel"--Prompt {Ihr Prompt} --basis_url "https://open.bigmodel.cn/api/paas/v4"--Modell "glm-4-plus"
      
  2. Begründungsmodelle (Diffusoren) :
    • Stellen Sie zunächst sicher, dass Sie die Diffusoren-Bibliothek aus dem Quellcode installieren:
      pip git+https://github.com/huggingface/diffusers.git installieren
      
    • Führen Sie dann den folgenden Code aus:
      fromdiffusers importCogView3PlusPipeline
      importtorch
      
      vonDiffusoren importierenCogView3PlusPipeline importtorch = CogView3PlusPipeline.from_pretrained("THUDM/CogView3-Plus-3B"Fackel_Typ=torch.float16).to("cuda")
      pipe.enable_model_cpu_offload()
      pipe.vae.enable_slicing()
      pipe.vae.enable_tiling()
      
      Eingabeaufforderung = "Ein leuchtend kirschroter Sportwagen sitzt stolz unter der strahlenden Sonne, sein poliertes Äußeres ist glatt und makellos und wirft ein spiegelndes Licht. Das Auto hat eine niedrige, aerodynamische Karosserie, kantige Scheinwerfer, die wie Raubtieraugen nach vorne blicken, und einen Satz schwarzer, hochglänzender Rennsportfelgen, die einen starken Kontrast zum Rot bilden. Ein dezenter Hauch von Chrom ziert den Kühlergrill und den Auspuff, während die getönten Scheiben ein luxuriöses und privates Interieur suggerieren. Die Szene vermittelt ein Gefühl von Geschwindigkeit und Eleganz, das Auto wirkt, als würde es gleich in einen Sprint entlang einer Küstenstraße ausbrechen, während im Hintergrund die azurblauen Wellen des Ozeans schlagen. im Hintergrund rauschen."
      
      Bild = pipe(
          Aufforderung=prompt,
          anleitung_skala=7.0,
          num_images_per_prompt=1,
          num_inference_steps=50, , und
          Breite=1024,
          Höhe=1024,
      ).images[0]
      
      image.save("cogview3.png")
      
  3. Reasoning-Modelle (SAT) :
    • Im SAT-Tutorial finden Sie eine schrittweise Anleitung zur Modellinferenz.

allgemeine Probleme

  • Installationsfehler: Stellen Sie sicher, dass die Python-Version den Anforderungen entspricht, und achten Sie bei der Installation von PyTorch auf die Versionskompatibilität.
  • Bildqualität: Die Spezifität der Textbeschreibung und der Umfang des Trainingsdatensatzes wirken sich auf die Ergebnisse der erzeugten Bilder aus. Es wird empfohlen, eine detaillierte Textbeschreibung und verschiedene Datensätze für das Training zu verwenden.
AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " CogView3: Wisdom Spectrums quelloffenes Kaskaden-Diffusions-Textgenerierungs-Bildmodell

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)