CogView3：ウィズダムスペクトラムのオープンソース・カスケード拡散テキスト生成画像モデル

はじめに

CogView3は清華大学とシンクタンクチーム（Chi Spectrum Qingyan）によって開発された先進的なテキスト生成画像システムです。CogView3の主な特徴は、多段階生成、革新的なアーキテクチャ、効率的なパフォーマンスであり、アート制作、広告デザイン、ゲーム開発など様々な分野に応用できます。

この一連のモデルの実力は、現在「Chi Spectrum Clear Words」（chatglm.cn）でオンライン化されており、Clear Wordsで体験することができる。

CogView3：カスケード拡散text2imgモデル-1に基づく効率的なテキスト生成画像システム

CogView3: Wisdom Spectrumのオープンソースカスケード拡散テキスト生成画像モデル

上：ピンク色の車。下：3つの立方体の積み重ね。赤い立方体が上にあり、赤い立方体の上に座っている。赤い立方体は真ん中にあり、緑の立方体の上に座っている。緑の立方体は一番下にある。

機能一覧

多段階生成：まず低解像度の画像を生成し、その後、リレー拡散プロセスによって画像の解像度を徐々に上げ、最大2048x2048の高解像度画像を生成する。
効率的なパフォーマンス：CogView3は高品質な画像を生成しながら、学習と推論のコストを大幅に削減します。現在最先端のオープンソースモデルであるSDXLと比較して、CogView3の推論時間はわずか1/10です。
革新的なアーキテクチャ：CogView3は最新のDiT(Diffusion Transformer)アーキテクチャを導入しており、Zero-SNR拡散ノイズスケジューリングを採用し、テキストと画像のジョイントアテンションメカニズムを組み合わせることで、全体的なパフォーマンスをさらに向上させています。
オープンソース・コード：CogView3のコードとモデルはGitHubでオープンソース化されており、ユーザーは自由にダウンロードして使用することができる。

ヘルプの使用

インストールと登録

ウェブサイトを見る：CogView3の公式ウェブサイトを開く。ギットハブ.
コードのダウンロード：ページ上の "Code "ボタンをクリックし、"Download ZIP "を選択してプロジェクトファイルをダウンロードするか、gitコマンドを使ってダウンロードする：ギット<span> </span>クローン<span> </span>https://github.com/THUDM/CogView3.git.
依存関係のインストール: diffusersライブラリがソースからインストールされていることを確認する：

ピップ インストール git+https://github.com/huggingface/diffusers.git

使用プロセス

キューの最適化：
- CogView3ファミリーは長い画像記述で学習されますが、画像にテキストを生成する前に、Large Language Models (LLM)を使ってキューを書き換えることを強くお勧めします。
- 以下のスクリプトを実行して、プロンプトを最適化する：
```
python prompt_optimize.py --api_key "ZhipuのAI APIキー"--プロンプト --ベースURL "https://open.bigmodel.cn/api/paas/v4"--モデル "glm-4-プラス"
```

推論モデル（ディフューザー）：

まず、ソースからディフューザー・ライブラリをインストールしてください：
```
ピップ インストール git+https://github.com/huggingface/diffusers.git
```

そして、以下のコードを実行する：

fromdiffusersインポートCogView3PlusPipeline
インポート

fromdiffusers importCogView3PlusPipeline インポートトーチ = CogView3PlusPipeline.from_pretrained()"THUDM/CogView3-Plus-3B"トーチタイプ=トーチ.float16).to(「クーダ)
pipe.enable_model_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

プロンプト = 「鮮やかなチェリーレッドのスポーツカーが、輝く太陽の下に誇らしげに鎮座している。低くエアロダイナミックなボディ、捕食者の目のように前方を見据える角ばったヘッドライト、そして赤とのコントラストが際立つ黒光りするレーシングリム。グリルやエグゾーストにはクロームメッキがあしらわれ、スモークウィンドウはラグジュアリーでプライベートなインテリアを連想させる。シーンはスピード感とエレガンスを表現し、海岸沿いの道を今にも走り出しそうなクルマは、紺碧の波が打ち寄せる海を背景に浮かび上がる。背景には紺碧の波が打ち寄せる。

イメージ = パイプ(
    プロンプト=プロンプト
    ガイダンス=7.0,
    プロンプトあたりの画像数=1,
    num_inference_steps=50および
    幅=1024,
    高さ=1024,
).images[0]

image.save()"cogview3.png")

推論モデル（SAT）：
- モデル推論のステップバイステップの手順については、SATのチュートリアルを参照してください。

一般的な問題

インストールの失敗: PyTorchをインストールする際は、Pythonのバージョンが要件を満たしていることを確認し、バージョンの互換性に注意してください。
画像品質：テキスト記述の具体性とトレーニングデータセットの豊富さは、生成画像の結果に影響を与える。

AIを始めるための素人ガイド

AIツールの活用方法を、低コスト・ゼロベースから学ぶことができます。AIはオフィスソフトと同様、誰にとっても必須のスキルです。 AIをマスターすれば、就職活動で有利になり、今後の仕事や勉強の労力も半減します。

詳細を見る

CogView3: Wisdom Spectrumのオープンソースカスケード拡散テキスト生成画像モデル

はじめに

機能一覧

ヘルプの使用

インストールと登録

使用プロセス

一般的な問題

関連記事

OmniGen：マルチモーダル入力を用いた統一的な画像生成モデルによる、文字の一貫性を保った画像生成

BlinkShot：プロンプトワードを入力してリアルタイム画像生成（Flux Schnellモデルへのフリーアクセス）

UltraPixel：細部まで鮮明な超高解像度画像生成技術

ステッカーベイカー：AIでパーソナライズされたステッカー画像を作る

テキスト生成ウェブUI：複数のバックエンド・サービスをサポートするGradioベースの大規模言語モデル・チャット・インターフェース

AIを始めるための素人ガイド

おすすめ

有料大型モデルの無料使用

FLUX.1イメージジェネレーター（中国語入力対応）

新着情報

人気記事

ホットタグ

チーフAIシェアリングサークル