InstanceAssemble - 小红书联合复旦大学开源的布局控制生成技术

17.7K 00

InstanceAssemble是什么

InstanceAssemble是小红书和复旦大学联合开源的布局控制生成技术，通过“实例组装注意力”机制，实现了从简单到复杂、从稀疏到密集布局的精准图像生成。采用两阶段级联架构，先生成图像背景，再逐个整合布局中的实例信息。使用独立注意力机制，避免不同实例间的干扰，能有效处理复杂布局，如重叠或小物体。InstanceAssemble通过LoRA模块进行轻量级适配，仅需增加少量参数，无需重新训练整个模型，大大降低了计算成本，同时提升了推理速度。支持多模态输入，每个实例可以用文本描述或图像信息来丰富内容。

InstanceAssemble的功能特色

精准布局控制：通过创新的“实例组装注意力”（Instance Assembling Attention）机制，能精确控制图像中每个目标对象的位置、形状和语义属性，确保生成的图像与给定的布局指令（如边界框、文本描述）高度对齐，尤其在复杂场景（如高密度多实例布局）中表现突出。
级联架构设计：采用级联结构，先利用基础模型生成全局图像背景和整体语境，再通过实例组装模块逐个整合局部实例信息，兼顾全局质量和局部对齐，避免实例间相互干扰。
轻量级适配：基于LoRA（Low-Rank Adaptation）技术进行模型适配，仅需增加少量参数（约基础模型的3%），即可在现有扩散模型（如Stable Diffusion、Flux等）基础上实现布局控制功能，无需大规模重训，兼顾效率与兼容性。
多模态支持：支持文本、参考图、深度图、边缘图等多种模态输入，可灵活结合不同信息生成图像，丰富内容表达。
开源与应用潜力：已开源代码和预训练模型，提供工业级解决方案，适用于设计、广告、内容创作等领域，未来可拓展至智能排版、虚拟内容生成等场景。

InstanceAssemble的核心优势

精准布局控制：能精确按照用户指定的位置和内容生成图像，无论是简单画面还是复杂场景，都能保持高精度的布局对齐和语义一致性。
计算成本低：通过LoRA轻量级适配，仅需增加少量参数，相比传统方法减少了97%的开销，推理速度也大幅提升。
复杂布局处理能力强：采用独立注意力机制，每个目标实例的注意力计算仅在其对应图像区域内进行，有效避免不同实例间的干扰，能够处理重叠或小物体等复杂布局情况。
多模态输入支持：每个实例既可以通过文本描述指定，也可以利用额外的图像信息（如参考图片、深度图、边缘图等）来丰富内容表示，增强了生成图像的多样性和准确性。