オープンソースとして発表された画像生成モデルCogView4！

38.8K 00

中国の古典芸術と現代的要素の融合であるこのイメージは、北宋の画家、王羲峰の『千里河山図』からインスピレーションを得ている。画像には壮大な山水画の巻物が描かれており、緑山水画の技法により、なだらかな丘や広大な川、豊かな色彩の層、精緻なディテールが表現されている。この絵のような風景の上に、筆で書かれた「CogView4」という文字が、力強く、力強い字体でさりげなく現れ、墨の濃淡もちょうどよく、まるで美しい風景を楽しみながら即興で書いた古代の文人の印のようだ。CogView4」の文字は周囲の風景を引き立て、唐突すぎず調和しすぎず、むしろ時空を超えた対話の感覚を添えている。画面全体は古典的な景観の趣を持ちながら、現代技術の要素も取り入れ、独特の芸術的緊張感を呈しており、伝統的な美学を鑑賞しながら、現代の創造性の衝突と融合を感じることができる。

本日、我々は最新の画像生成モデルであるCogView4を正式にリリースし、オープンソース化した。

このモデルは強力な複合意味アライメントとコマンド追従機能を持ち、任意の長さのバイリンガル入力をサポートし、与えられた範囲内で任意の解像度の画像を生成し、強力なテキスト生成機能を持つ。このモデルは、Apache 2.0プロトコルの下でオープンソース化された最初の画像生成モデルでもある。

I. 評価

DPG-Bench (Dense Prompt Graph Benchmark)は、テキストから画像への生成モデルを評価するためのベンチマークテストであり、複雑なセマンティックアライメントと命令追従能力の観点からモデルの性能に焦点を当てている。

CogView4-6Bは、DPG-Benchベンチマークで総合スコア1位を獲得し、オープンソースのVincennesグラフィカルモデルでSOTAを達成している。

任意の長さと任意の解像度

CogView4モデルは、任意の長さのテキスト記述と任意の解像度の画像のハイブリッド学習パラダイムを実装している。

1、画像位置コーディング

CogView4は画像の位置情報をモデル化するために2D RoPE（2D Rotational Position Encoding）を使用し、位置エンコーディングを補間することで異なる解像度の画像生成タスクをサポートします。

2.拡散生成モデル

このモデルは、異なる解像度の画像のS/N比の要求に対応するために、パラメトリックな線形ダイナミックノイズ計画と組み合わせた拡散生成のためのフローマッチング方式を用いてモデル化されている。

3、建築デザイン

DiTモデルのアーキテクチャに関しては、CogView4は前作のShare-param DiTアーキテクチャを継承し、効率的なモダール間適応を実現するために、テキストと画像のモダールにそれぞれ独立した適応LayerNormレイヤーを設計している。

4.多段階トレーニング

CogView4はベース解像度トレーニング、パン解像度トレーニング、高品質データ微調整、人間の嗜好に合わせたトレーニングを含む多段階トレーニング戦略を採用しています。この段階的なトレーニングアプローチにより、幅広い画像分布に対応するだけでなく、生成された画像が非常に美的で、人間の嗜好に沿ったものであることを保証します。

5.トレーニングフレームワークの最適化

テキストの観点からは、CogView4は従来の固定トークン長の限界を打ち破り、より大きなトークン長を許容し、学習中のテキストトークンの冗長性を大幅に削減する。訓練キャプションの平均長が200-300トークンの範囲にある場合、CogView4は512トークンを固定した従来のスキームと比較してトークンの冗長性を約50%削減し、モデルの漸進的訓練フェーズにおいて5%-30%の効率改善を達成する。

画像的には、混合解像度の学習により、広い範囲での任意の解像度の生成に対応できるようになり、創作の自由度が大幅に向上した。目標とする解像度は、以下の条件を満たせばよい：

どちらも創造的な自由を大きく広げることができる。

例：超長編（4コマ漫画）

アニメイラスト風の4つのシーンを含む4コマ漫画の作画をお願いします。登場する主なキャラクターは以下の通り：シャオミン：勇敢な心を持つ人間の少年で、剣を持ち、シンプルな戦士の衣装を着ている。

プリンセス：人間の女性で、美しくエレガント、豪華なプリンセスの衣装を身にまとい、モンスターの隠れ家に幽閉されている。

王：人間の男性で、威厳があり、慈悲深く、華麗な王の衣装を身にまとい、王国の玉座に座っている。

フレイムドラゴン：炎のような鱗に覆われ、炎を吐き、巨大なモンスター。

ダーク・ロード：巨大で闇に包まれた怪物で、強大な魔力を持つ。

シーン1：旅に出るシャオミン

壮大な王国の中庭を背景にアニメ風のシーンを作る。このシーンの主人公は言峰（剣を持ち、シンプルな武者装束を身にまとった勇敢な心を持つ人間の少年）で、旅に出るポーズが描かれています。中庭の花と遠くの城のディテールを含み、朝日の光が勇気と決意を伝えている。クオリティ：傑作、最高品質、超細密、4K

シーン2：明が炎龍を倒す

燃え盛る火口を背景にアニメ風のシーンを作る。このシーンの主人公は言峰（剣を持ち、シンプルな武者姿の勇猛な人間の少年）で、炎のドラゴンに勝利する瞬間です。火口の岩や溶岩のディテールを含み、燃えるような赤い照明が獰猛さと勇気を伝えている。品質：傑作、最高品質、超細密、4K

シーン3：明は闇の帝王と戦う！

影のようなモンスターの隠れ家を背景に、アニメ風のシーンを作る。このシーンの主人公は明（勇敢な心を持ち、剣を片手にシンプルな戦士のコスチュームを着た人間の少年）で、闇の帝王との激しい戦いの真っ最中です。隠れ家の闇と魔法のエネルギーのディテールを含み、陰鬱な照明が激しさと緊張感を伝えている。クオリティ：傑作、最高品質、超細密、4K

シーン4：明が王女を救出する

荒れ果てた城の内部を背景に、アニメ風のシーンを作る。主な登場人物は、明（人間の少年で勇敢な心を持ち、剣を持ち、簡素な戦士の衣装を着ている）と姫（人間の女性で美しく優雅、華やかな王女の衣装を着ている）で、明が姫を助ける心温まるシーンです。城内の廃墟や薄暗い照明のディテールを含み、優しい照明が感動と救済を伝える。品質：傑作、最高品質、超細密、4K

C. 中国語と英語への対応

技術的な実装としては、CogView4はテキストエンコーダを英語専用のT5エンコーダからバイリンガルのGLM-4エンコーダに切り替え、バイリンガルのグラフィックペアで学習させることで、CogView4モデルはバイリンガルのプロンプト単語を入力する能力を持つ。

これまでのところ、CogView4はバイリンガルのキューワード入力をサポートする最初のオープンソースのテキスト生成グラフィカルモデルであり、特に中国語のキューを理解し、それに従うことと、中国語の文字を画面内に生成することに優れている。この2つの特徴は、国内広告やショートビデオなど、幅広いクリエイティブニーズに適している。

この画像は、明るくパンチの効いた色彩のパンク風の壁である。深い黒で覆われた壁は、反抗と自由の精神を反映したシャープなライン、リベット、きらめくメタリックのステッカーなど、色鮮やかなグラフィティの層で覆われている。壁の中央には、「CogView-4」の文字が白いスプレーで大胆に描かれ、エッジが擦り切れて飛び散り、硬質なストリート・アートの美学を添えている。CogView-4」の下には、同じ白いスプレーペイントで「Unbroken, Unreliant（壊れず、頼れず）」という文字が、上と同じスタイルで、しかし少し小さめに書かれており、視覚的な階層感を生み出している。この4つの文字を囲むように、星やドクロ、炎などの小さなグラフィティ・シンボルが描かれ、パンク・カルチャーの象徴的要素をさらに強めている。また、壁の背景にはひび割れや剥がれたペンキがかすかに見え、時間の痕跡と絶え間ない変化の力をほのめかしている。絵全体は活気と緊張感に満ち、パンク・カルチャーの反骨精神と革新的なアイデアを完璧に表現している。