InstanceAssemble - リトルレッドブックと復旦大学のオープンソースレイアウト制御生成技術
InstanceAssemble とは
InstanceAssembleは、Xiaohongshuと復旦大学が共同でオープンソース化したレイアウト制御生成技術で、「Instance Assemble Attention」のメカニズムにより、単純なレイアウトから複雑なレイアウトまで、また疎なレイアウトから密なレイアウトまで、正確な画像生成を実現します。2段階のカスケードアーキテクチャを採用し、まず画像背景を生成し、次にレイアウト内のインスタンス情報を1つずつ統合する。InstanceAssembleは、LoRAモジュールにより軽量適応を行う。LoRAモジュールは、少数のパラメータを追加するだけでよく、モデル全体を再トレーニングする必要がないため、計算コストを大幅に削減すると同時に、推論速度を向上させる。マルチモーダル入力に対応し、各インスタンスにテキスト記述や画像情報を付加することができる。

InstanceAssemble の機能
- 精密なレイアウト制御革新的なインスタンス・アセンブリング・アテンション機構は、画像内の各ターゲットオブジェクトの位置、形状、意味属性を正確に制御し、特に複雑なシーン(高密度のマルチインスタンスレイアウトなど)において、生成された画像が与えられたレイアウト指示(バウンディングボックス、テキスト記述など)に高度に整合することを保証します。特に複雑なシーン(高密度のマルチインスタンスレイアウトなど)ではそうです。
- カスケード建築デザインカスケード構造は、ベースモデルを用いて大域的な画像背景と全体的なコンテキストを生成し、インスタンスアセンブリーモジュールを通じて、大域的な品質と局所的な整合を考慮し、インスタンス間の相互干渉を回避しながら、局所的なインスタンス情報を1つずつ統合するために用いられる。
- 軽量化モデル適応にはLoRA(Low-Rank Adaptation)技術を採用し、大規模な再トレーニングを行うことなく、既存の拡散モデル(Stable Diffusion、Fluxなど)をベースに、わずかなパラメータ増加(ベースモデルの3%程度)でレイアウト制御機能を実現し、効率性と互換性の双方に配慮している。
- マルチモーダルサポートテキスト、参照マップ、深度マップ、エッジマップなど様々なモーダル入力をサポートしており、異なる情報を柔軟に組み合わせて画像を生成し、コンテンツ表現を豊かにすることができます。
- オープンソースとアプリケーションの可能性オープンソースのコードと事前に訓練されたモデルを利用することで、デザイン、広告、コンテンツ制作、その他の分野に産業グレードのソリューションを提供することができます。
InstanceAssemble の主な利点
- 精密なレイアウト制御シンプルな画面でも複雑なシーンでも、ユーザーが指定した位置と内容に従って正確に画像を生成し、高精度のレイアウト配置と意味の一貫性を維持します。
- 低い計算コストLoRAによる軽量適応は、少数のパラメータを追加するだけでよいため、97%のオーバヘッドは従来のアプローチよりも削減され、推論速度が大幅に向上する。
- 複雑なレイアウトに対応する能力独立した注意メカニズムを採用することで、各ターゲットインスタンスの注意計算は、対応する画像領域でのみ実行されます。これにより、異なるインスタンス間の干渉を効果的に回避し、重なり合うオブジェクトや小さなオブジェクトなどの複雑なレイアウト状況に対処することができます。
- マルチモーダル入力サポート各インスタンスは、テキスト記述によって指定することも、付加的な画像情報(参照画像、深度マップ、エッジマップなど)でコンテンツ表現を豊かにすることによって指定することもでき、生成される画像の多様性と精度を高めることができる。
InstanceAssemble の公式 Web サイトとは?
- GitHubリポジトリ:: https://github.com/FireRedTeam/InstanceAssemble
- arXivテクニカルペーパー:: https://arxiv.org/pdf/2509.16691
InstanceAssembleの対象者
- クリエイティブ・デザイナー広告デザイン、ポスター制作、UI/UXデザインなど、特定のレイアウトやクリエイティブな要件を満たす画像を素早く生成する必要があります。
- eコマース・プラクティショナー商品ページの魅力とユーザーエクスペリエンスを高めるため、高品質の商品表示画像を生成するために使用します。
- ゲーム開発者ゲームシーンのデザインやキャラクター生成において、複雑なレイアウトを高速に画像生成し、開発効率を向上させます。
- コンテンツクリエーター例えば、ブロガーやセルフパブリッシャーなどは、コンテンツの魅力と専門性を高めるために、パーソナライズされたグラフィックコンテンツを生成することができます。
- 研究員レイアウト制御生成技術の可能性を追求するため、人工知能とコンピュータビジョンの分野で研究を行っています。
- コーポレート・マーケティング・チーム多様なマーケティングニーズに対応するため、ソーシャルメディア画像や販促ポスターなどのマーケティング資料作成に使用。
© 著作権表示
記事の著作権 AIシェアリングサークル 無断転載はご遠慮ください。
関連記事
コメントはありません




