はじめに
OmniGenはVectorSpaceLabによって開発された "ユニバーサル "な画像生成モデルで、ユーザーは簡単なテキストプロンプトやマルチモーダル入力で、多様でコンテクストに富んだビジュアルを作成することができます。キャラクターの識別や一貫したキャラクターレンダリングを必要とするシーンに特に適しています。ユーザーは最大3枚の画像をアップロードでき、詳細なプロンプトとともに高品質の画像を生成できます。さらに、OmniGenは以前に生成された画像の編集をサポートし、画像の改良や実験に適した柔軟なシード機能を提供します。
OmniGenは、入力画像の特徴を自動的に認識し、目的の画像を生成するために、追加のプラグインや操作を必要としません。既存の画像生成モデルは通常、満足のいく画像を生成するために、いくつかの追加ネットワークモジュール(ControlNet、IP-Adapter、Reference-Netなど)をロードし、追加の前処理ステップ(顔検出、姿勢推定、トリミングなど)を実行する必要があります。しかし、将来の画像生成パラダイムは、よりシンプルで柔軟なもの、すなわち、言語生成におけるGPTの働きと同様に、追加のプラグインや操作なしに、任意のマルチモーダル命令から様々な画像を直接生成するものであるべきだと考えています。
機能一覧
- 画像生成テキストプロンプトやマルチモーダル入力により、多様な画像を生成します。
- パーソナライズされた画像作成最大3枚の画像をアップロードして、オリジナル画像を作成できます。
- キャラクタレンダリング文字の一貫性と認識性を維持し、文字の識別が必要な場面に適しています。
- 画像編集過去に生成された画像を編集することで、柔軟なシード機能を提供します。
- 画像条件生成入力画像の特定の条件に基づいて新しい画像を生成する。
- 高品質出力より鮮明で高品質な画像を生成するための詳細なヒント。
ヘルプの使用
- 写真をアップロードするOmniGenインターフェイスで、キャラクター、アイテム、コンディションマップの画像を3つまでアップロードできます。
- イメージを描写するプロンプト・ボックスに生成したい画像を詳しく記述してください。画像要素を含むセクションについては、以下の書式を使用してください。 <img><|image_i|></img> 彼らを紹介する。
- 調整パラメーターOmniGenの生成パラメータ(画像スケールなど)は設定で調整する。その他の設定はデフォルトのままを推奨。
- 画像の生成生成ボタンをクリックしてキューに入り、画像が生成されるのを待ちます。
- 画像の編集OmniGenのシーディング機能を使って、出来上がった画像を編集し、改良する。
ヒント
- 画像編集タスクやコントロールネットタスクでは、出力画像の高さと幅を入力画像と同じに設定することをお勧めします。例えば、512x512の画像を編集したい場合は、出力画像の高さと幅を512x512に設定する必要があります。 また、出力画像の高さと幅を、入力画像の高さと幅と同じに設定することもできます。
use_input_image_size_as_output。
を使えば、出力画像の高さと幅を自動的に入力画像に合わせることができます。 - メモリ不足や時間コストの問題が発生した場合は、以下のように設定してください。
offload_model=True
または参照 ./docs/inference.md1TP5必要なリソース 適切な設定を選択する。 - 複数の画像を入力する場合、推論時間が長すぎる場合は
最大入力画像サイズ
.詳細については ./docs/inference.md1TP5必要なリソース. - 彩度過多: 画像が彩度過多に見える場合は、"Oversaturation"(彩度過多)を下げます。
ガイダンス・スケール
. - 低品質:より詳細なキュー・ワードがあれば、より良い結果が得られるだろう。
- アニメスタイル:生成された画像がアニメスタイルの場合、プロンプトの単語を追加することができます。
写真
. - 生成した画像の編集:omnigenで画像を生成し、後で編集する場合、同じseedでは編集できません。例えば、seed=0で生成された画像は、seed=1で編集する必要があります。
- 画像の編集作業では、編集コマンドの前に画像を配置することをお勧めします。例えば
<img><|image_1|></img> スーツを脱ぐ
代わりにスーツを脱ぐ <img><|image_1|></img>
.
オムニジェンオンラインアクセスとワンクリックインストールパッケージ
オムニジェン その他のアプリケーション・シナリオ
画像編集
OmniGenには優れた画像編集機能があり、画像のテキスト生成もできる。
指定文字生成
OmniGenは、InstandID、Pulidなどのモデルと同様に、役割一貫性のある画像などを生成する能力、すなわち、1つのオブジェクトを持つ画像を入力し、指示を理解し、それに従い、そのオブジェクトに基づいて新しい画像を出力する能力を持つ。
InstandIDやPulidと異なり、OmniGenは複数の文字からの生成を指定することもできる。
フィンガープリントは
これはOmniGenの最もユニークな機能です。コマンドによって参照されたオブジェクトを識別し、複数のオブジェクトを含む画像から新しい画像を生成する機能です。
OmniGenは、キューワードコマンドに基づき、複数の画像(最大3画像まで選択可能)からターゲットオブジェクトを探し出し、追加のモジュールや操作を行うことなく、コマンドに従った新しい画像を生成するだけです。
汎用画像条件生成
これは、OmniGenが特定の条件に基づいてControlNetのような画像生成をサポートする機能である。現在のところ、主に参照文字のスケルトンに基づいている。オープンポーズ生成する能力と、基準となるキャラクターのデプスマップから生成する能力がある。
条件制御のためにControlNetを必要とする主流のベン図モデルとは異なり、OmniGenはControlNetの全プロセスを1つのモデルで完結します。OmniGenは、追加のプロセッサを必要とせずに、元の図から視覚条件を直接抽出し、抽出された条件に基づいて画像を生成します。さらに、OmniGenは、最初にスケルトンまたは深度マップを生成する必要があるControlNetとは異なり、ワンクリックで参照画像とキューワードに基づいて画像を生成します。
その他のコントロール・コンポーネントの機能
上記のOmniGen 1.0の機能を達成することができたに加えて、関係者はまた、OmniGenは、より多くのコントロールネット機能、ライン、ソフトエッジの生成など、より多くの機能があると述べた。
古典的なコンピュータ・ビジョン・タスク
画像ノイズ除去、エッジ検出、姿勢推定など。
LLMでも、操作の理解度に応じて、ある程度の文脈学習能力(In-context Learning)がある。