AIパーソナル・ラーニング
と実践的なガイダンス
豆包Marscode1

CogView3: Wisdom Spectrumのオープンソースカスケード拡散テキスト生成画像モデル

はじめに

CogView3は清華大学とシンクタンクチーム(Chi Spectrum Qingyan)によって開発された先進的なテキスト生成画像システムです。CogView3の主な特徴は、多段階生成、革新的なアーキテクチャ、効率的なパフォーマンスであり、アート制作、広告デザイン、ゲーム開発など様々な分野に応用できます。

この一連のモデルの実力は、現在「Chi Spectrum Clear Words」(chatglm.cn)でオンライン化されており、Clear Wordsで体験することができる。

CogView3:基于级联扩散的 text2img 模型,高效的文本生成图像系统-1

 


CogView3:智谱轻言开源的级联扩散文本生成图像模型-1

上:ピンク色の車。 下:3つの立方体の積み重ね。 赤い立方体が上にあり、赤い立方体の上に座っている。 赤い立方体は真ん中にあり、緑の立方体の上に座っている。緑の立方体は一番下にある。

 

機能一覧

  • 多段階生成:まず低解像度の画像を生成し、その後、リレー拡散プロセスによって画像の解像度を徐々に上げ、最大2048x2048の高解像度画像を生成する。
  • 効率的なパフォーマンス:CogView3は高品質な画像を生成しながら、学習と推論のコストを大幅に削減します。現在最先端のオープンソースモデルであるSDXLと比較して、CogView3の推論時間はわずか1/10です。
  • 革新的なアーキテクチャ:CogView3は最新のDiT(Diffusion Transformer)アーキテクチャを導入しており、Zero-SNR拡散ノイズスケジューリングを採用し、テキストと画像のジョイントアテンションメカニズムを組み合わせることで、全体的なパフォーマンスをさらに向上させています。
  • オープンソース・コード:CogView3のコードとモデルはGitHubでオープンソース化されており、ユーザーは自由にダウンロードして使用することができる。

 

ヘルプの使用

インストールと登録

  1. ウェブサイトを見る:CogView3の公式ウェブサイトを開く。 ギットハブ.
  2. コードのダウンロード:ページ上の "Code "ボタンをクリックし、"Download ZIP "を選択してプロジェクトファイルをダウンロードするか、gitコマンドを使ってダウンロードする:git<span> </span>clone<span> </span>https://github.com/THUDM/CogView3.git.
  3. 依存関係のインストール: diffusersライブラリがソースからインストールされていることを確認する:
pip install git+https://github.com/huggingface/diffusers.git

使用プロセス

  1. キューの最適化:
    • CogView3ファミリーは長い画像記述で学習されますが、画像にテキストを生成する前に、Large Language Models (LLM)を使ってキューを書き換えることを強くお勧めします。
    • 以下のスクリプトを実行して、プロンプトを最適化する:
      python prompt_optimize.py --api_key "Zhipu AI API Key"--prompt {your prompt} --base_url "https://open.bigmodel.cn/api/paas/v4"--model "glm-4-plus"
      
  2. 推論モデル(ディフューザー) :
    • まず、ソースからディフューザー・ライブラリをインストールしてください:
      pip install git+https://github.com/huggingface/diffusers.git
      
    • そして、以下のコードを実行する:
      fromdiffusers importCogView3PlusPipeline
      importtorch
      
      pipe = CogView3PlusPipeline.from_pretrained("THUDM/CogView3-Plus-3B", torch_dtype=torch.float16).to("cuda")
      pipe.enable_model_cpu_offload()
      pipe.vae.enable_slicing()
      pipe.vae.enable_tiling()
      
      prompt = "A vibrant cherry red sports car sits proudly under the gleaming sun, its polished exterior smooth and flawless, casting a mirror-like reflection. The car features a low, aerodynamic body, angular headlights that gaze forward like predatory eyes, and a set of black, high-gloss racing rims that contrast starkly with the red. A subtle hint of chrome embellishes the grille and exhaust, while the tinted windows suggest a luxurious and private interior. The scene conveys a sense of speed and elegance, the car appearing as if it's about to burst into a sprint along a coastal road, with the ocean's azure waves crashing in the background."
      
      image = pipe(
          prompt=prompt,
          guidance_scale=7.0,
          num_images_per_prompt=1,
          num_inference_steps=50,
          width=1024,
          height=1024,
      ).images[0]
      
      image.save("cogview3.png")
      
  3. 推論モデル(SAT) :
    • モデル推論のステップバイステップの手順については、SATのチュートリアルを参照してください。

一般的な問題

  • インストールの失敗: PyTorchをインストールする際は、Pythonのバージョンが要件を満たしていることを確認し、バージョンの互換性に注意してください。
  • 画像品質:テキスト記述の具体性とトレーニングデータセットの豊富さは、生成画像の結果に影響を与える。
無断転載を禁じます:チーフAIシェアリングサークル " CogView3: Wisdom Spectrumのオープンソースカスケード拡散テキスト生成画像モデル
ja日本語