はじめに
CogView4は清華大学のKEG Lab (THUDM)によって開発されたオープンソースのtext-to-graphモデルで、テキスト記述を高品質な画像に変換することに重点を置いている。二ヶ国語のキュー入力をサポートし、特に中国語のキューを理解し、漢字の画像を生成することが得意で、広告デザインやショートビデオの作成などに最適です。CogView4は、画面上での中国語文字生成をサポートする最初のオープンソースモデルとして、複雑なセマンティックアライメントとコマンドフォローに優れています。GLM-4-9Bテキストエンコーダをベースにしており、任意の長さのプロンプトワード入力をサポートし、最大解像度2048の画像を生成できる。プロジェクトはGitHubでホストされており、詳細なコードとドキュメントがあり、開発者やクリエイターから多くの注目と参加を集めている。
CogView4の最新モデルが3月13日に稼動開始 知的好奇心を刺激するスピーチ 公式サイト
オンライン経験:https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
機能一覧
- バイリンガル・キュー・ワード生成イメージ中国語と英語の説明文の両方をサポートし、正確に理解し、キューに一致する画像を生成することができます。
- 漢字の画面生成ポスター、広告、その他テキストコンテンツを必要とするクリエイティブな作品の作成に適しています。
- 任意解像度出力低解像度から2048x2048まで、あらゆるサイズの画像生成をサポートし、多様なニーズに応える。
- 超ロング・キュー・ワード・サポートこのシステムは、任意の長さのテキスト入力を受け付け、最大1024個のトークンを扱うことができるため、複雑なシナリオを簡単に記述することができる。
- 複雑なセマンティック・アライメント意味と一致する高品質の画像を生成します。
- オープンソースモデルのカスタマイズ完全なコードと事前にトレーニングされたモデルが提供され、開発者は必要に応じてそれらを開発または最適化することができます。
ヘルプの使用
設置プロセス
CogView4はPythonベースのオープンソースプロジェクトで、実行するにはローカルに設定された環境が必要です。詳しいインストール手順は以下の通りです:
1.環境準備
- オペレーティングシステムWindows、Linux、macOSに対応しています。
- ハードウェア要件推論を高速化するには、NVIDIA GPU(少なくとも16GBのビデオメモリ)を推奨します。
- ソフトウェア依存::
- Python 3.8以上
- PyTorch (GPUバージョンのインストールを推奨、torch>=2.0)
- Git (リポジトリの複製用)
2.倉庫のクローン化
ターミナルを開き、以下のコマンドを入力して CogView4 プロジェクトのソースコードをダウンロードします:
git clone https://github.com/THUDM/CogView4.git
cd CogView4
3.依存関係のインストール
プロジェクトにはrequirements.txtファイルが用意されているので、以下のコマンドを実行して必要なライブラリをインストールする:
pip install -r requirements.txt
GPUアクセラレーションについては、PyTorch公式サイトのインストールコマンドなどを参照して、正しいバージョンのPyTorchをインストールしていることを確認してください:
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118
4.訓練済みモデルのダウンロード
CogView4-6BモデルはHugging Faceまたは公式リンクから手動でダウンロードする必要があります。THUDMのGitHubページにアクセスして、モデルのダウンロードアドレスを見つけてください。 THUDM/コグビュー4-6B
)にあるプロジェクト・ルート・ディレクトリに解凍します。 チェックポイント
フォルダに保存してください。またはコードによって自動的にダウンロードする:
from diffusers import CogView4Pipeline
pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B")
5.構成環境
ビデオメモリーが限られている場合は、メモリー最適化オプションを有効にします(例 enable_model_cpu_offload
)を、以下の使用説明書に従って使用する。
CogView4の使い方
インストール後、PythonスクリプトでCogView4を呼び出して画像を生成することができます。以下はその詳細な手順です:
1.基本的な画像生成
Pythonファイルを作成する。 generate.py
)、以下のコードを入力する:
from diffusers import CogView4Pipeline
インポートトーチ
#モデルをGPUにロード
pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B", torch_dtype=torch.bfloat16).to("cuda")
# グラフィックスメモリ使用量の最適化
pipe.enable_model_cpu_offload() # いくつかの計算をCPUに移す
pipe.vae.enable_slicing() # VAEのスライス
pipe.vae.enable_tiling() # VAEのチャンク処理
# 入力プロンプト
prompt = "紺碧の波を背景に、晴れた海辺の道路に駐車された赤いスポーツカー"
image = pipe(
prompt=prompt、
guidance_scale=3.5, # 生成された画像がプロンプトにどの程度フィットするかを制御する。
num_images_per_prompt=1, # 画像を生成する。
num_inference_steps=50, # 推論ステップ数。
width=1024, # 画像の幅
height=1024 # 画像の高さ
).images[0]
# 画像を保存
image.save("output.png")
スクリプトを実行する:
python generate.py
その結果、1024x1024の画像が生成され、それを 出力.png
.
2.漢字画像の生成
CogView4は、例えば画像中の中国語テキストの生成をサポートしている:
prompt = "青い空と白い雲を背景に「CogView4体験へようこそ」と書かれた広告ポスター"
image = pipe(prompt=prompt, width=1024, height=1024).images[0].
image.save("poster.png")
実行後、画像に "Welcome to CogView4 "の文字がはっきりと表示され、販促物の作成に適している。
3.解像度の調整
CogView4は任意の解像度での出力をサポートしており、例えば2048x2048の画像を生成することができる:
image = pipe(prompt=prompt, width=2048, height=2048).images[0].
image.save("high_res.png")
注:解像度が高いほど、より多くのビデオメモリが必要となり、24GB以上のビデオメモリを搭載したGPUを推奨します。
4.非常に長いキューを扱う
CogView4は次のような複雑な記述にも対応できる:
prompt = "陶磁器や絹織物で埋め尽くされた露店、遠くに見える山と夕日、漢民族の伝統的な服装で買い物をする人々でにぎわう古代中国のバザール"
image = pipe(prompt=prompt, num_inference_steps=50).images[0].
image.save("market.png")
最大1024トークンをサポートし、長いテキストを完全に解析し、詳細な画像を生成します。
5.パフォーマンスの最適化
ビデオメモリが不足している場合は、パラメータを調整してください:
- 下げる
トーチ
というのもトーチ.float16
- 増加
num_inference_steps(推論ステップ数
品質を高める(デフォルト50、推奨50~100) - 利用する
pipe.enable_model_cpu_offload()
いくつかのモデルをCPU計算に移す
注目の機能
対訳画像の生成
CogView4の最大の魅力はバイリンガル対応だ。例えば、混在したキュー単語を入力する:
prompt = "ネオンと空飛ぶ車、「未来都市」と書かれた看板がある未来都市"
image = pipe(prompt=prompt).images[0].
image.save("future_city.png")
出来上がった画像には、未来都市の英語表記と中国語の「未来都市」ロゴの両方が含まれ、強い意味理解が示される。
高品質の細部コントロール
調整中 ガイダンス・スケール
(範囲1-10、デフォルト3.5)で、画像がどの程度キューにフィットするかを制御します。値が高いほど、ディテールがキューに近づきますが、創造性が犠牲になる可能性があります:
image = pipe(prompt=prompt, guidance_scale=7.0).images[0].
バッチ生成
一度に複数の画像を生成します:
images = pipe(prompt=prompt, num_images_per_prompt=3).images
for i, img in enumerate(images):
img.save(f "output_{i}.png")
ほら
- 必要VGAメモリ1024x1024の画像を生成するには約16GB、2048x2048の場合は24GB以上のビデオメモリが必要です。
- 推論時間50ステップの推論にかかる時間は約1~2分(ハードウェアによる)。
- 地域支援もし問題があれば、GitHubのIssuesページで助けを求めるか、公式のREADMEを参照してください。
これらの手順により、ユーザーはすぐにCogView4を使い始め、高品質の画像を生成し、クリエイティブなプロジェクトに応用することができます!