AIパーソナル・ラーニング
と実践的なガイダンス

CogView3: Wisdom Spectrumのオープンソースカスケード拡散テキスト生成画像モデル

はじめに

CogView3は清華大学とシンクタンクチーム(Chi Spectrum Qingyan)によって開発された先進的なテキスト生成画像システムです。CogView3の主な特徴は、多段階生成、革新的なアーキテクチャ、効率的なパフォーマンスであり、アート制作、広告デザイン、ゲーム開発など様々な分野に応用できます。

この一連のモデルの実力は、現在「Chi Spectrum Clear Words」(chatglm.cn)でオンライン化されており、Clear Wordsで体験することができる。

CogView3:カスケード拡散text2imgモデル-1に基づく効率的なテキスト生成画像システム

 


CogView3: Wisdom Spectrumのオープンソースカスケード拡散テキスト生成画像モデル

上:ピンク色の車。 下:3つの立方体の積み重ね。 赤い立方体が上にあり、赤い立方体の上に座っている。 赤い立方体は真ん中にあり、緑の立方体の上に座っている。緑の立方体は一番下にある。

 

機能一覧

  • 多段階生成:まず低解像度の画像を生成し、その後、リレー拡散プロセスによって画像の解像度を徐々に上げ、最大2048x2048の高解像度画像を生成する。
  • 効率的なパフォーマンス:CogView3は高品質な画像を生成しながら、学習と推論のコストを大幅に削減します。現在最先端のオープンソースモデルであるSDXLと比較して、CogView3の推論時間はわずか1/10です。
  • 革新的なアーキテクチャ:CogView3は最新のDiT(Diffusion Transformer)アーキテクチャを導入しており、Zero-SNR拡散ノイズスケジューリングを採用し、テキストと画像のジョイントアテンションメカニズムを組み合わせることで、全体的なパフォーマンスをさらに向上させています。
  • オープンソース・コード:CogView3のコードとモデルはGitHubでオープンソース化されており、ユーザーは自由にダウンロードして使用することができる。

 

ヘルプの使用

インストールと登録

  1. ウェブサイトを見る:CogView3の公式ウェブサイトを開く。 ギットハブ.
  2. コードのダウンロード:ページ上の "Code "ボタンをクリックし、"Download ZIP "を選択してプロジェクトファイルをダウンロードするか、gitコマンドを使ってダウンロードする:ギット<span> </span>クローン<span> </span>https://github.com/THUDM/CogView3.git.
  3. 依存関係のインストール: diffusersライブラリがソースからインストールされていることを確認する:
ピップ インストール git+https://github.com/huggingface/diffusers.git

使用プロセス

  1. キューの最適化:
    • CogView3ファミリーは長い画像記述で学習されますが、画像にテキストを生成する前に、Large Language Models (LLM)を使ってキューを書き換えることを強くお勧めします。
    • 以下のスクリプトを実行して、プロンプトを最適化する:
      python prompt_optimize.py --api_key "ZhipuのAI APIキー"--プロンプト --ベースURL "https://open.bigmodel.cn/api/paas/v4"--モデル "glm-4-プラス"
      
  2. 推論モデル(ディフューザー) :
    • まず、ソースからディフューザー・ライブラリをインストールしてください:
      ピップ インストール git+https://github.com/huggingface/diffusers.git
      
    • そして、以下のコードを実行する:
      fromdiffusersインポートCogView3PlusPipeline
      インポート
      
      fromdiffusers importCogView3PlusPipeline インポートトーチ = CogView3PlusPipeline.from_pretrained()"THUDM/CogView3-Plus-3B"トーチタイプ=トーチ.float16).to(「クーダ)
      pipe.enable_model_cpu_offload()
      pipe.vae.enable_slicing()
      pipe.vae.enable_tiling()
      
      プロンプト = 「鮮やかなチェリーレッドのスポーツカーが、輝く太陽の下に誇らしげに鎮座している。低くエアロダイナミックなボディ、捕食者の目のように前方を見据える角ばったヘッドライト、そして赤とのコントラストが際立つ黒光りするレーシングリム。グリルやエグゾーストにはクロームメッキがあしらわれ、スモークウィンドウはラグジュアリーでプライベートなインテリアを連想させる。シーンはスピード感とエレガンスを表現し、海岸沿いの道を今にも走り出しそうなクルマは、紺碧の波が打ち寄せる海を背景に浮かび上がる。背景には紺碧の波が打ち寄せる。
      
      イメージ = パイプ(
          プロンプト=プロンプト
          ガイダンス=7.0,
          プロンプトあたりの画像数=1,
          num_inference_steps=50および
          幅=1024,
          高さ=1024,
      ).images[0]
      
      image.save()"cogview3.png")
      
  3. 推論モデル(SAT) :
    • モデル推論のステップバイステップの手順については、SATのチュートリアルを参照してください。

一般的な問題

  • インストールの失敗: PyTorchをインストールする際は、Pythonのバージョンが要件を満たしていることを確認し、バージョンの互換性に注意してください。
  • 画像品質:テキスト記述の具体性とトレーニングデータセットの豊富さは、生成画像の結果に影響を与える。
AIイージー・ラーニング

AIを始めるための素人ガイド

AIツールの活用方法を、低コスト・ゼロベースから学ぶことができます。AIはオフィスソフトと同様、誰にとっても必須のスキルです。 AIをマスターすれば、就職活動で有利になり、今後の仕事や勉強の労力も半減します。

詳細を見る
無断転載を禁じます:チーフAIシェアリングサークル " CogView3: Wisdom Spectrumのオープンソースカスケード拡散テキスト生成画像モデル

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語