AI Personal Learning
und praktische Anleitung
豆包Marscode1

CogView3: Wisdom Spectrums quelloffenes Kaskaden-Diffusions-Textgenerierungs-Bildmodell

Allgemeine Einführung

CogView3 ist ein fortschrittliches Bildsystem zur Texterzeugung, das von der Tsinghua-Universität und dem Think Tank Team (Chi Spectrum Qingyan) entwickelt wurde. Es basiert auf dem kaskadierenden Diffusionsmodell und erzeugt hochauflösende Bilder in mehreren Stufen. Zu den Hauptmerkmalen von CogView3 gehören die mehrstufige Generierung, die innovative Architektur und die effiziente Leistung, die in vielen Bereichen wie Kunst, Werbedesign, Spieleentwicklung usw. Anwendung finden.

Die Fähigkeiten dieser Modellreihe sind jetzt online bei "Chi Spectrum Clear Words" (chatglm.cn) und können auf Clear Words erlebt werden.

CogView3:基于级联扩散的 text2img 模型,高效的文本生成图像系统-1

 


CogView3:智谱轻言开源的级联扩散文本生成图像模型-1

Oben: Ein rosafarbenes Auto. Unten: Ein Stapel von 3 Würfeln. Ein roter Würfel liegt oben und sitzt auf einem roten Würfel. Der rote Würfel liegt in der Mitte und sitzt auf einem grünen Würfel. Der grüne Würfel liegt unten.

 

Funktionsliste

  • Mehrstufige Generierung: Zunächst werden Bilder mit niedriger Auflösung erzeugt, dann wird die Bildauflösung durch ein Relais-Diffusionsverfahren schrittweise erhöht, so dass hochauflösende Bilder mit einer Auflösung von bis zu 2048x2048 entstehen.
  • Effiziente Leistung: CogView3 reduziert die Kosten für Training und Inferenz erheblich und erzeugt gleichzeitig qualitativ hochwertige Bilder. Im Vergleich zu SDXL, dem derzeit modernsten Open-Source-Modell, beträgt die Inferenzzeit von CogView3 nur ein Zehntel davon.
  • Innovative Architektur: CogView3 führt die neueste DiT-Architektur (Diffusion Transformer) ein, die Zero-SNR-Diffusionsrauschplanung verwendet und Mechanismen zur gemeinsamen Aufmerksamkeit von Text und Bild kombiniert, um die Gesamtleistung weiter zu verbessern.
  • Offener Quellcode: Der Code und das Modell von CogView3 sind auf GitHub als Open Source verfügbar und können von den Nutzern frei heruntergeladen und verwendet werden.

 

Hilfe verwenden

Installation und Registrierung

  1. Besuchen Sie die Website: Öffnen Sie die offizielle CogView3-Website. GitHub.
  2. Code herunterladen: Klicken Sie auf die Schaltfläche "Code" auf der Seite und wählen Sie "ZIP herunterladen", um die Projektdatei herunterzuladen, oder verwenden Sie den Befehl git, um sie herunterzuladen:git<span> </span>clone<span> </span>https://github.com/THUDM/CogView3.git.
  3. Abhängigkeiten installieren: Stellen Sie sicher, dass die Diffusers-Bibliothek aus dem Quellcode installiert ist:
pip install git+https://github.com/huggingface/diffusers.git

Verwendungsprozess

  1. Cue-Optimierung :
    • Obwohl die Modelle der CogView3-Familie mit langen Bildbeschreibungen trainiert werden, empfehlen wir dringend, die Cues mit Hilfe von Large Language Models (LLMs) vor der Generierung von Text zu Bildern umzuschreiben, was die Qualität der Generierung erheblich verbessert.
    • Führen Sie das folgende Skript aus, um die Eingabeaufforderung zu optimieren:
      python prompt_optimize.py --api_key "Zhipu AI API Key"--prompt {your prompt} --base_url "https://open.bigmodel.cn/api/paas/v4"--model "glm-4-plus"
      
  2. Begründungsmodelle (Diffusoren) :
    • Stellen Sie zunächst sicher, dass Sie die Diffusoren-Bibliothek aus dem Quellcode installieren:
      pip install git+https://github.com/huggingface/diffusers.git
      
    • Führen Sie dann den folgenden Code aus:
      fromdiffusers importCogView3PlusPipeline
      importtorch
      
      pipe = CogView3PlusPipeline.from_pretrained("THUDM/CogView3-Plus-3B", torch_dtype=torch.float16).to("cuda")
      pipe.enable_model_cpu_offload()
      pipe.vae.enable_slicing()
      pipe.vae.enable_tiling()
      
      prompt = "A vibrant cherry red sports car sits proudly under the gleaming sun, its polished exterior smooth and flawless, casting a mirror-like reflection. The car features a low, aerodynamic body, angular headlights that gaze forward like predatory eyes, and a set of black, high-gloss racing rims that contrast starkly with the red. A subtle hint of chrome embellishes the grille and exhaust, while the tinted windows suggest a luxurious and private interior. The scene conveys a sense of speed and elegance, the car appearing as if it's about to burst into a sprint along a coastal road, with the ocean's azure waves crashing in the background."
      
      image = pipe(
          prompt=prompt,
          guidance_scale=7.0,
          num_images_per_prompt=1,
          num_inference_steps=50,
          width=1024,
          height=1024,
      ).images[0]
      
      image.save("cogview3.png")
      
  3. Reasoning-Modelle (SAT) :
    • Im SAT-Tutorial finden Sie eine schrittweise Anleitung zur Modellinferenz.

allgemeine Probleme

  • Installationsfehler: Stellen Sie sicher, dass die Python-Version den Anforderungen entspricht und achten Sie bei der Installation von PyTorch auf die Versionskompatibilität.
  • Bildqualität: Die Spezifität der Textbeschreibung und der Umfang des Trainingsdatensatzes wirken sich auf die Ergebnisse der erzeugten Bilder aus. Es wird empfohlen, eine detaillierte Textbeschreibung und verschiedene Datensätze für das Training zu verwenden.
Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " CogView3: Wisdom Spectrums quelloffenes Kaskaden-Diffusions-Textgenerierungs-Bildmodell
de_DEDeutsch