DreamOmni2 - HKUSTオープンソース・マルチモーダルAI画像編集・生成モデル

22.2K 00

DreamOmni2とは

DreamOmni2は、HKUSTのJiajiaチームによるオープンソースのマルチモーダルAI画像編集・生成モデルである。テキストと画像コマンドを同時に処理でき、複数の参照画像をサポートすることで、クリエイターにより柔軟な作成方法を提供する。DreamOmni2は、マルチモーダルコマンド編集・生成タスクで優れた性能を発揮し、現行のオープンソースモデルを凌駕し、いくつかの側面では商用モデルと比較し、あるいは凌駕している。製品写真、デザインワークフロー、ポートレート編集、創造的な絵画など、さまざまなシナリオで使用できます。

DreamOmni2の特徴

マルチモーダル命令処理具体的なオブジェクトと、素材、テクスチャ、スタイルなどの抽象的なコンセプトの両方を扱うためのテキストとイメージのコマンドをサポートし、クリエイターに豊かな表現方法を提供します。
マルチ参照チャート機能複数のリファレンス画像を組み合わせて編集・生成できるため、複雑で多様なクリエイティブニーズに柔軟に対応できます。
データの統合とトレーニングまた、複数の画像入力における画素の混同を回避し、学習効果とモデルの生成品質を向上させるために、インデックス符号化と位置符号化オフセットスキームも設計されている。
合同トレーニング生成／編集モデルを視覚言語モデル（VLM）と共学習させることで、複雑なコマンドをより正確に理解し、実行することができる。
アイデンティティの一貫性維持編集処理において、被写体の同一性を効果的に維持することで、編集後の画像と元の被写体との整合性を確保し、編集による被写体の特徴の喪失や混同を避けることができる。
パフォーマンスの利点マルチモーダルなコマンド編集・生成タスクにおいて、DreamOmni2は、現行のSOTAオープンソースモデルを大幅に凌駕し、ある面では商用モデルに匹敵するか、凌駕することさえあり、より高品質な画像編集・生成結果をユーザーに提供する。
オープンソースと使いやすさコード、モデルの重み、トレーニングデータセットはGitHubとHugging Faceで自由に利用でき、ローカル実行をサポートしているため、ユーザーは十分なビデオメモリを搭載したCUDA互換GPU上でローカル推論を行うことができ、利用の敷居を下げ、モデルのアクセシビリティを向上させることができます。

DreamOmni2の主な利点

マルチモーダル教育の理解テキストと画像の両方のコマンドを処理し、マテリアル、テクスチャ、スタイル、その他の抽象的な概念の変更など、複雑な編集作業を正確に理解し、実行する能力。
マルチ参照チャート・サポート複数の参照画像と組み合わせて編集・生成できるため、クリエイターの多様なクリエイティブニーズに柔軟に対応できます。
アイデンティティの一貫性維持編集処理では、被写体の同一性を効果的に維持することで、編集後の画像が元の被写体と高い整合性を保ち、被写体の特徴が失われたり混同されたりしないようにします。
共同トレーニングの仕組み生成／編集モデルと視覚言語モデルの共同学習により、複雑なコマンドの理解と実行が向上し、ユーザーの意図により合致した画像が生成される。
優れた性能マルチモーダルなコマンド編集・生成タスクにおいて、現在のオープンソースモデルを大幅に凌駕し、ある意味では商用モデルをも凌駕し、高品質な画像編集・生成結果を提供します。