AIパーソナル・ラーニング
と実践的なガイダンス
ビーンバッグ・マースコード1

CogView4:中国語と英語の高精細対訳画像を生成するオープンソースのグラフィカルモデル

はじめに

CogView4は清華大学のKEG Lab (THUDM)によって開発されたオープンソースのtext-to-graphモデルで、テキスト記述を高品質な画像に変換することに重点を置いている。二ヶ国語のキュー入力をサポートし、特に中国語のキューを理解し、漢字の画像を生成することが得意で、広告デザインやショートビデオの作成などに最適です。CogView4は、画面上での中国語文字生成をサポートする最初のオープンソースモデルとして、複雑なセマンティックアライメントとコマンドフォローに優れています。GLM-4-9Bテキストエンコーダをベースにしており、任意の長さのプロンプトワード入力をサポートし、最大解像度2048の画像を生成できる。プロジェクトはGitHubでホストされており、詳細なコードとドキュメントがあり、開発者やクリエイターから多くの注目と参加を集めている。

CogView4の最新モデルが3月13日に稼動開始 知的好奇心を刺激するスピーチ 公式サイト

CogView4: 中英バイリンガルHD画像生成のためのオープンソース文献グラフィックスモデル-1

オンライン経験:https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4

 

機能一覧

  • バイリンガル・キュー・ワード生成イメージ中国語と英語の説明文の両方をサポートし、正確に理解し、キューに一致する画像を生成することができます。
  • 漢字の画面生成ポスター、広告、その他テキストコンテンツを必要とするクリエイティブな作品の作成に適しています。
  • 任意解像度出力低解像度から2048x2048まで、あらゆるサイズの画像生成をサポートし、多様なニーズに応える。
  • 超ロング・キュー・ワード・サポートこのシステムは、任意の長さのテキスト入力を受け付け、最大1024個のトークンを扱うことができるため、複雑なシナリオを簡単に記述することができる。
  • 複雑なセマンティック・アライメント意味と一致する高品質の画像を生成します。
  • オープンソースモデルのカスタマイズ完全なコードと事前にトレーニングされたモデルが提供され、開発者は必要に応じてそれらを開発または最適化することができます。

 

ヘルプの使用

設置プロセス

CogView4はPythonベースのオープンソースプロジェクトで、実行するにはローカルに設定された環境が必要です。詳しいインストール手順は以下の通りです:

1.環境準備

  • オペレーティングシステムWindows、Linux、macOSに対応しています。
  • ハードウェア要件推論を高速化するには、NVIDIA GPU(少なくとも16GBのビデオメモリ)を推奨します。
  • ソフトウェア依存::
    • Python 3.8以上
    • PyTorch (GPUバージョンのインストールを推奨、torch>=2.0)
    • Git (リポジトリの複製用)

2.倉庫のクローン化

ターミナルを開き、以下のコマンドを入力して CogView4 プロジェクトのソースコードをダウンロードします:

git clone https://github.com/THUDM/CogView4.git  
cd CogView4

3.依存関係のインストール

プロジェクトにはrequirements.txtファイルが用意されているので、以下のコマンドを実行して必要なライブラリをインストールする:

pip install -r requirements.txt

GPUアクセラレーションについては、PyTorch公式サイトのインストールコマンドなどを参照して、正しいバージョンのPyTorchをインストールしていることを確認してください:

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118

4.訓練済みモデルのダウンロード

CogView4-6BモデルはHugging Faceまたは公式リンクから手動でダウンロードする必要があります。THUDMのGitHubページにアクセスして、モデルのダウンロードアドレスを見つけてください。 THUDM/CogView4-6B)にあるプロジェクト・ルート・ディレクトリに解凍します。 checkpoints フォルダに保存してください。またはコードによって自動的にダウンロードする:

from diffusers import CogView4Pipeline  
pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B")

5.構成環境

ビデオメモリーが限られている場合は、メモリー最適化オプションを有効にします(例 enable_model_cpu_offload)を、以下の使用説明書に従って使用する。

CogView4の使い方

インストール後、PythonスクリプトでCogView4を呼び出して画像を生成することができます。以下はその詳細な手順です:

1.基本的な画像生成

Pythonファイルを作成する。 generate.py)、以下のコードを入力する:

from diffusers import CogView4Pipeline  
import torch  
# 加载模型到 GPU  
pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B", torch_dtype=torch.bfloat16).to("cuda")  
# 优化显存使用  
pipe.enable_model_cpu_offload()  # 将部分计算移至 CPU  
pipe.vae.enable_slicing()        # 分片处理 VAE  
pipe.vae.enable_tiling()         # 分块处理 VAE  
# 输入提示词  
prompt = "一辆红色跑车停在阳光下的海边公路,背景是蔚蓝的海浪"  
image = pipe(  
prompt=prompt,  
guidance_scale=3.5,        # 控制生成图像与提示的贴合度  
num_images_per_prompt=1,   # 生成一张图像  
num_inference_steps=50,    # 推理步数,影响质量  
width=1024,                # 图像宽度  
height=1024                # 图像高度  
).images[0]  
# 保存图像  
image.save("output.png")

スクリプトを実行する:

python generate.py

その結果、1024x1024の画像が生成され、それを output.png.

2.漢字画像の生成

CogView4は、例えば画像中の中国語テキストの生成をサポートしている:

prompt = "一张写有‘欢迎体验 CogView4’的广告海报,背景是蓝天白云"  
image = pipe(prompt=prompt, width=1024, height=1024).images[0]  
image.save("poster.png")

実行後、画像に "Welcome to CogView4 "の文字がはっきりと表示され、販促物の作成に適している。

3.解像度の調整

CogView4は任意の解像度での出力をサポートしており、例えば2048x2048の画像を生成することができる:

image = pipe(prompt=prompt, width=2048, height=2048).images[0]  
image.save("high_res.png")

注:解像度が高いほど、より多くのビデオメモリが必要となり、24GB以上のビデオメモリを搭載したGPUを推奨します。

4.非常に長いキューを扱う

CogView4は次のような複雑な記述にも対応できる:

prompt = "一个热闹的古代中国集市,摊位上摆满陶瓷和丝绸,远处有山峦和夕阳,人们穿着传统汉服在购物"  
image = pipe(prompt=prompt, num_inference_steps=50).images[0]  
image.save("market.png")

最大1024トークンをサポートし、長いテキストを完全に解析し、詳細な画像を生成します。

5.パフォーマンスの最適化

ビデオメモリが不足している場合は、パラメータを調整してください:

  • 下げる torch_dtype というのも torch.float16
  • 増加 num_inference_steps 品質を高める(デフォルト50、推奨50~100)
  • 利用する pipe.enable_model_cpu_offload() いくつかのモデルをCPU計算に移す

注目の機能

対訳画像の生成

CogView4の最大の魅力はバイリンガル対応だ。例えば、混在したキュー単語を入力する:

prompt = "A futuristic city with neon lights and flying cars, 写着‘未来之城’的标志"  
image = pipe(prompt=prompt).images[0]  
image.save("future_city.png")

出来上がった画像には、未来都市の英語表記と中国語の「未来都市」ロゴの両方が含まれ、強い意味理解が示される。

高品質の細部コントロール

調整中 guidance_scale(範囲1-10、デフォルト3.5)で、画像がどの程度キューにフィットするかを制御します。値が高いほど、ディテールがキューに近づきますが、創造性が犠牲になる可能性があります:

image = pipe(prompt=prompt, guidance_scale=7.0).images[0]

バッチ生成

一度に複数の画像を生成します:

images = pipe(prompt=prompt, num_images_per_prompt=3).images  
for i, img in enumerate(images):  
img.save(f"output_{i}.png")

ほら

  • 必要VGAメモリ1024x1024の画像を生成するには約16GB、2048x2048の場合は24GB以上のビデオメモリが必要です。
  • 推論時間50ステップの推論にかかる時間は約1~2分(ハードウェアによる)。
  • 地域支援もし問題があれば、GitHubのIssuesページで助けを求めるか、公式のREADMEを参照してください。

これらの手順により、ユーザーはすぐにCogView4を使い始め、高品質の画像を生成し、クリエイティブなプロジェクトに応用することができます!


無断転載を禁じます:チーフAIシェアリングサークル " CogView4:中国語と英語の高精細対訳画像を生成するオープンソースのグラフィカルモデル
ja日本語