Z-Image - Ali Tongyi Labs オープンソース画像生成モデル

49.7K 00

Zイメージとは

Z-Imageは、Ali Tongyi Labによるオープンソースの画像生成モデルで、効率的で高速かつ強力な画像生成機能を備えています。シングルストリーム・ディフュージョン・トランスフォーマー・アーキテクチャ（S3-DiT）を採用し、テキスト、ビジュアルセマンティクス、画像VAEトークンを統一された入力ストリームに統合することで、パラメータ効率を最大化します。Z-Image-Turboバージョンは、わずか8回の関数評価で高品質な画像を生成でき、1秒以下の推論レイテンシをサポートし、低メモリデバイスに適応し、フォトリアリスティックな画像生成とバイリンガルテキストレンダリングに優れています。Z-Image-Editバージョンは、自然言語を手掛かりとした正確な編集を行う画像編集タスクに重点を置いており、Z-Image-Baseは、微調整やカスタム開発のためのより広い範囲をコミュニティに提供する、未開発のベースモデルです。

Z-Imageの特徴

効率的で迅速な生成Z-Image-Turboバージョンは、わずか8回の関数評価で高品質の画像を生成し、秒以下の推論レイテンシを達成し、迅速なプロトタイピングと創造的な探求のための低グラフィックメモリデバイスと互換性があります。
パワフルなテキストレンダリングバイリンガルテキストレンダリングをサポートし、中国語と英語の両方を含む画像を正確に生成できるため、多言語のニーズに対応できます。
フォトリアリスティックな画像生成自然なライティング、リアルなテクスチャー、クリエイティブなデザインやビジュアルエフェクト制作に使用できるシーンを生成する専門知識。
クリエイティブな画像編集Z-Image-Editバージョンは、自然言語プロンプトに基づく正確な画像編集を可能にし、幅広いクリエイティブなニーズに対応するクリエイティブな画像間の生成をサポートします。
オープンソースで柔軟なアプリケーションコード、ウェイト、オンラインデモはオープンソースで、Apache 2.0ライセンスに従っています。

Z-Imageの強み

シングルストリーム・ディフュージョン・トランスフォーマー・アーキテクチャー（S3-DiT）Z-Imageは、このアーキテクチャを使用して、テキスト、視覚的意味トークン、画像VAEトークンを、統一された入力ストリームとしてシーケンスレベルでつなぎ合わせ、パラメータ効率を最大化する。
デカップル-DMD (デカップル分配整合蒸留)このアルゴリズムは、8ステップのZ-Imageモデルを強化します。2つのメカニズムであるCFGオーグメンテーション（CA）とディストリビューションマッチング（DM）を切り離すことで、それぞれ独立に研究・最適化され、その結果、ステップレス生成の性能が大幅に向上した。
DMDR（強化学習と分布マッチングの蒸留融合）強化学習(RL)とディストリビューションマッチング蒸留(DMD)を相乗的に統合することで、より少ないステップのモデルのポストトレーニングフェーズにおいて、セマンティックアライメント、美的品質、構造的一貫性がさらに改善され、より豊かな高周波数ディテールを持つ画像が生成されます。
効率的な少ないステップの推論Decoupled-Distributed Matching Distillation (Decoupled-DMD)技術は、わずか8ステップで高品質な画像を生成するために使用され、推論速度が速く、低グラフィックメモリデバイスに適しており、推論レイテンシが低い。
パワフルなテキストレンダリング英語と中国語のバイリンガルテキストレンダリングをサポートし、複雑なテキストを含む画像を正確に生成し、多言語環境に適しています。
高画質画像生成自然な照明、リアルなテクスチャ、信憑性の高いシーンを備えたフォトリアリスティックな画像を生成し、要求の厳しいビジュアルエフェクトのニーズに応えます。
精密画像編集Z-Image-Editバージョンは、自然言語コマンドに基づく正確な画像編集を可能にし、強力な編集機能を備えた創造的な画像間の生成をサポートします。

Z-Imageの公式ウェブサイトは？

プロジェクトのウェブサイト:: https://tongyi-mai.github.io/Z-Image-blog/
GitHubリポジトリ:: https://github.com/Tongyi-MAI/Z-Image
HuggingFaceモデルライブラリ:: https://huggingface.co/Tongyi-MAI/Z-Image-Turbo

Z-Imageの対象者

クリエイティブ・デザイナークリエイティブなデザインに必要な高品質な画像を素早く生成し、デザイナーがクリエイティブなアイデアを素早く検討、実現できるよう支援します。
コンテンツクリエーター中国語と英語のテキストレンダリングと画像編集をサポートし、ソーシャルメディアの画像や広告デザインなど、テキストを含むビジュアルコンテンツの制作に適しています。
開発者と研究者オープンソースのコードと柔軟なアーキテクチャは、開発者に豊富なカスタマイズと開発スペースを提供し、二次開発や研究の探求に適しています。
ビジネスユーザーApache 2.0ライセンスに準拠し、商用プロジェクトに適用可能で、企業における製品設計、マーケティング資料作成、その他のシナリオに適しています。
個人愛好家低ビデオメモリ装置への適応と高速生成機能は、個人ユーザーが簡単に利用できるため、画像生成に興味を持つ個人ユーザーの創造的な探求に適しています。