はじめに
CogView3は清華大学とシンクタンクチーム(Chi Spectrum Qingyan)によって開発された先進的なテキスト生成画像システムです。CogView3の主な特徴は、多段階生成、革新的なアーキテクチャ、効率的なパフォーマンスであり、アート制作、広告デザイン、ゲーム開発など様々な分野に応用できます。
この一連のモデルの実力は、現在「Chi Spectrum Clear Words」(chatglm.cn)でオンライン化されており、Clear Wordsで体験することができる。
機能一覧
- 多段階生成:まず低解像度の画像を生成し、その後、リレー拡散プロセスによって画像の解像度を徐々に上げ、最大2048x2048の高解像度画像を生成する。
- 効率的なパフォーマンス:CogView3は高品質な画像を生成しながら、学習と推論のコストを大幅に削減します。現在最先端のオープンソースモデルであるSDXLと比較して、CogView3の推論時間はわずか1/10です。
- 革新的なアーキテクチャ:CogView3は最新のDiT(Diffusion Transformer)アーキテクチャを導入しており、Zero-SNR拡散ノイズスケジューリングを採用し、テキストと画像のジョイントアテンションメカニズムを組み合わせることで、全体的なパフォーマンスをさらに向上させています。
- オープンソース・コード:CogView3のコードとモデルはGitHubでオープンソース化されており、ユーザーは自由にダウンロードして使用することができる。
ヘルプの使用
インストールと登録
- ウェブサイトを見る:CogView3の公式ウェブサイトを開く。 ギットハブ.
- コードのダウンロード:ページ上の "Code "ボタンをクリックし、"Download ZIP "を選択してプロジェクトファイルをダウンロードするか、gitコマンドを使ってダウンロードする:
ギット<span> </span>クローン<span> </span>https://github.com/THUDM/CogView3.git
. - 依存関係のインストール: diffusersライブラリがソースからインストールされていることを確認する:
ピップ インストール git+https://github.com/huggingface/diffusers.git
使用プロセス
- キューの最適化:
- CogView3ファミリーは長い画像記述で学習されますが、画像にテキストを生成する前に、Large Language Models (LLM)を使ってキューを書き換えることを強くお勧めします。
- 以下のスクリプトを実行して、プロンプトを最適化する:
python prompt_optimize.py --api_key "ZhipuのAI APIキー"--プロンプト --ベースURL "https://open.bigmodel.cn/api/paas/v4"--モデル "glm-4-プラス"
- 推論モデル(ディフューザー) :
- まず、ソースからディフューザー・ライブラリをインストールしてください:
ピップ インストール git+https://github.com/huggingface/diffusers.git
- そして、以下のコードを実行する:
fromdiffusersインポートCogView3PlusPipeline インポート fromdiffusers importCogView3PlusPipeline インポートトーチ = CogView3PlusPipeline.from_pretrained()"THUDM/CogView3-Plus-3B"トーチタイプ=トーチ.float16).to(「クーダ) pipe.enable_model_cpu_offload() pipe.vae.enable_slicing() pipe.vae.enable_tiling() プロンプト = 「鮮やかなチェリーレッドのスポーツカーが、輝く太陽の下に誇らしげに鎮座している。低くエアロダイナミックなボディ、捕食者の目のように前方を見据える角ばったヘッドライト、そして赤とのコントラストが際立つ黒光りするレーシングリム。グリルやエグゾーストにはクロームメッキがあしらわれ、スモークウィンドウはラグジュアリーでプライベートなインテリアを連想させる。シーンはスピード感とエレガンスを表現し、海岸沿いの道を今にも走り出しそうなクルマは、紺碧の波が打ち寄せる海を背景に浮かび上がる。背景には紺碧の波が打ち寄せる。 イメージ = パイプ( プロンプト=プロンプト ガイダンス=7.0, プロンプトあたりの画像数=1, num_inference_steps=50および 幅=1024, 高さ=1024, ).images[0] image.save()"cogview3.png")
- まず、ソースからディフューザー・ライブラリをインストールしてください:
- 推論モデル(SAT) :
- モデル推論のステップバイステップの手順については、SATのチュートリアルを参照してください。
一般的な問題
- インストールの失敗: PyTorchをインストールする際は、Pythonのバージョンが要件を満たしていることを確認し、バージョンの互換性に注意してください。
- 画像品質:テキスト記述の具体性とトレーニングデータセットの豊富さは、生成画像の結果に影響を与える。