Qwen-Image - Tongyi Qianqian、Qwen-Imageのオープンソース基本モデルを発表

クウェン・イメージとは

Qwen-Imageは、Alibaba Tongyi Qianqianチームによってリリースされたオープンソースの画像生成ベースモデルです。マルチモーダル理解、高解像度符号化、拡散モデリングの3つのモジュールを統合したマルチモーダル拡散変換アーキテクチャ（MMDiT）を採用しています。Qwen-Imageの核心的な利点は、複雑なテキストの強力なレンダリングと正確な画像編集機能にあり、複数行のレイアウトや細かいディテールを含む中国語と英語のテキスト画像を生成し、スタイルの移行、追加、削除、変更などのさまざまな操作をサポートします。スタイルの移行、追加、削除などの操作をサポートします。Qwen-Imageは、AI Arenaの公開評価において、中国語テキストレンダリングにおいて優れたパフォーマンスを発揮し、オープンソースモデルの第一位を獲得しました。Qwen-Imageは、ポスターデザイン、PPT制作、ブランドマーケティングなどのシーンに適しており、オンライン体験とローカル展開をサポートし、Hugging Face、ModelScopeなどのプラットフォームを通じてユーザーに提供されます。

Qwen-Imageの主な特徴

画像生成
- マルチスタイル世代リアル、アニメ、サイバーパンク、SF、ミニマリスト、レトロ、シュール、インクなど、数十種類のイメージを生成できます。
- テキストレンダリング複数行のレイアウト、段落レベルのセマンティクス、細かいディテールを扱うことができ、中国語と英語の両方をサポートし、複雑なマルチロケーションのグラフィックレイアウトを可能にします。
画像編集
- スタイル移行画像を特定のアートスタイルに変換します。
- オブジェクト操作シーンエレメントを正確に挿入・削除。
- ディテール強化画像の局所的な品質を最適化します。
- コピーエディター画像に埋め込まれたテキストを修正します。
- 姿勢制御キャラクターの移動パターンを調整する。
図形理解
- 物体検出とセマンティック・セグメンテーション画像中の物体の認識とセグメンテーション。
- 深度/カニーエッジ推定奥行き推定とエッジ検出を行う。
- 新たな視点の統合異なる視点からの画像を生成します。
- 超解像再構成画像解像度の向上。

Qwen-Imageのプロジェクトアドレス

GitHubリポジトリ:: https://github.com/QwenLM/Qwen-Image
HuggingFaceモデルライブラリ:: https://huggingface.co/Qwen/Qwen-Image
技術論文:: https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
オンライン体験デモ:: https://huggingface.co/spaces/Qwen/Qwen-Image

Qwen-Imageの使い方

QwenChatへアクセス Qwenチャット公式サイト
画像生成機能を選択するQwenChat インターフェースで、"画像生成 "機能を探して選択します。
テキストプロンプトを入力テキスト入力ボックスに、生成したい画像の説明を入力します。
画像の生成生成」ボタンをクリックすると、Qwen-Image はテキストプロンプトに従って画像を生成します。
生成された画像の表示とダウンロード生成された画像はインターフェイス上に表示され、ユーザーは生成された効果を確認したり、ダウンロードしてローカルに保存することを選択できます。

Qwen-Imageの核となる強み

複雑なテキストのレンダリング同社のAI画像生成システムは、複数行のレイアウト、段落レベルの意味、細かいディテールを持つ中国語と英語のテキストを正確にレンダリングすることができ、中国語のAI画像生成分野のギャップを埋めている。
精密画像編集スタイルの移行、追加、削除、細部の強調、テキスト編集、文字ジェスチャーの調整など、幅広い操作をサポートし、ユーザーのコマンドに従いながら、画像全体の意味的な一貫性と視覚的な細部を維持することができます。
強力な汎用画像生成機能フォトリアリズム、アニメーション、絵画など、さまざまな芸術的スタイルやテーマで高品質の画像を生成します。

クウェン-イメージ・パフォーマンス

AIアリーナ公開レビューで総合3位、オープンソースモデルで1位を獲得。
CVTG-2Kのようなベンチマークテストでは、中国語のテキストレンダリングは、GPT Image 1やSeedream 3.0のようなクローズドソースモデルを大幅に上回っています。
LongText-Bench、ChineseWord、TextCraftなどのテストでは、そのテキストレンダリング能力、特に中国語のテキスト生成能力は、既存のモデルよりも大幅に優れている。

Qwen-Imageの活用シーン

Qwen-Imageの応用シナリオは以下の通りです：ポスターデザイン、映画ポスター、製品プロモーション、イベントプロモーションなどに使用できます。多層のテキストメッセージを自動的にレイアウトし、ブランドロゴの正確なレンダリングをサポートし、様々な芸術的スタイルを生成できます。Eコマースシナリオでは、商品ディスプレイ図や販促ポスターなどを生成し、ビジュアルアピールを高めて販売を促進します。ソーシャルメディアコンテンツ。マイクロブログのグラフィック、友達のサークル共有など、さまざまなソーシャルメディアプラットフォームのサイズに適応した画像をすばやく生成し、人目を引く視覚効果を実現します。