InstanceAssemble - Tecnología de generación de control de diseño de código abierto de Little Red Book y la Universidad de Fudan

堆友AI

Qué es InstanceAssemble

InstanceAssemble es una tecnología de generación de control de disposición de código abierto desarrollada conjuntamente por Xiaohongshu y la Universidad de Fudan, que consigue generar imágenes precisas de disposiciones simples a complejas y de dispersas a densas mediante el mecanismo de "Instance Assemble Attention". Adopta una arquitectura en cascada de dos etapas: primero genera el fondo de la imagen y, a continuación, integra la información de las instancias en el diseño, una por una. Utilizando un mecanismo de atención independiente para evitar interferencias entre diferentes instancias, puede manejar con eficacia diseños complejos, como objetos pequeños o superpuestos. InstanceAssemble realiza una adaptación ligera a través del módulo LoRA, que sólo requiere añadir un pequeño número de parámetros y no necesita volver a entrenar todo el modelo, lo que reduce enormemente los costes computacionales al tiempo que mejora la velocidad de inferencia. Admite entradas multimodales y cada instancia puede enriquecerse con descripciones textuales o información de imágenes.

InstanceAssemble - 小红书联合复旦大学开源的布局控制生成技术

Características de InstanceAssemble

  • Control preciso de la disposiciónEl innovador mecanismo Instance Assembling Attention controla con precisión la posición, la forma y los atributos semánticos de cada objeto de destino en la imagen, garantizando que la imagen generada esté altamente alineada con las instrucciones de disposición dadas (por ejemplo, cuadros delimitadores, descripciones de texto), especialmente en escenarios complejos (por ejemplo, disposiciones multi-instancia de alta densidad). Esto es especialmente cierto en escenarios complejos (por ejemplo, disposiciones multiinstancia de alta densidad).
  • Diseño arquitectónico en cascadaLa estructura en cascada se utiliza para generar el fondo global de la imagen y el contexto general utilizando el modelo base y, a continuación, integrar la información de las instancias locales una a una mediante el módulo de ensamblaje de instancias, teniendo en cuenta la calidad global y la alineación local, y evitando la interferencia mutua entre instancias.
  • Adaptación ligeraLa adaptación del modelo se basa en la tecnología LoRA (Low-Rank Adaptation), que sólo requiere un pequeño aumento de los parámetros (alrededor de 3% del modelo base) para realizar la función de control de la disposición sobre la base de los modelos de difusión existentes (por ejemplo, Difusión Estable, Flujo, etc.) sin un reentrenamiento a gran escala, y tiene en cuenta tanto la eficiencia como la compatibilidad.
  • apoyo multimodal: Admite varias entradas modales, como texto, mapa de referencia, mapa de profundidad, mapa de bordes, etc., que pueden combinar con flexibilidad información diferente para generar imágenes y enriquecer la expresión del contenido.
  • Código abierto y potencial de aplicaciónEl código fuente abierto y los modelos preentrenados están disponibles para proporcionar soluciones de calidad industrial para el diseño, la publicidad, la creación de contenidos y otros campos, que pueden ampliarse a la composición tipográfica inteligente, la generación de contenidos virtuales y otros escenarios en el futuro.

Principales ventajas de InstanceAssemble

  • Control preciso de la disposición: Genera imágenes de forma precisa según la posición y el contenido especificados por el usuario, manteniendo una alineación de diseño de alta precisión y coherencia semántica tanto en pantallas sencillas como en escenas complejas.
  • Bajo coste computacionalAdaptación ligera mediante LoRA: La adaptación ligera mediante LoRA sólo requiere añadir un pequeño número de parámetros, lo que reduce la sobrecarga de 97% en comparación con el enfoque tradicional y aumenta significativamente la velocidad de inferencia.
  • Capacidad para gestionar diseños complejosEl mecanismo de atención independiente permite que el cálculo de la atención de cada instancia objetivo sólo se lleve a cabo en su región de imagen correspondiente, lo que evita eficazmente la interferencia entre distintas instancias y permite hacer frente a situaciones de disposición complejas, como objetos superpuestos o pequeños.
  • Soporte de entrada multimodalCada instancia puede especificarse mediante una descripción textual o enriqueciendo la representación del contenido con información adicional de la imagen (por ejemplo, imágenes de referencia, mapas de profundidad, mapas de bordes, etc.), lo que aumenta la diversidad y precisión de las imágenes generadas.

¿Cuál es el sitio web oficial de InstanceAssemble?

  • Repositorio GitHub:: https://github.com/FireRedTeam/InstanceAssemble
  • Documento técnico arXiv:: https://arxiv.org/pdf/2509.16691

A quién va dirigido InstanceAssemble

  • Diseñador creativoLa necesidad de generar rápidamente imágenes que cumplan requisitos creativos y de maquetación específicos para su uso en ámbitos como el diseño publicitario, la producción de carteles, el diseño UI/UX, etc.
  • profesional del comercio electrónicoImágenes de productos : Se utilizan para generar imágenes de productos de alta calidad que mejoran el atractivo y la experiencia de usuario de las páginas de productos.
  • desarrollador de juegos: Generación rápida de imágenes para trazados complejos en el diseño de escenas de juego y la generación de personajes para mejorar la eficacia del desarrollo.
  • creador de contenidospor ejemplo, blogueros, autoeditores, etc., para generar contenidos gráficos personalizados que aumenten el atractivo y la profesionalidad de los contenidos.
  • investigador: Investigación en los campos de la inteligencia artificial y la visión por ordenador para explorar más posibilidades en las técnicas de generación de control de trazado.
  • Equipo de marketing corporativoCreación de materiales de marketing: se utilizan para crear materiales de marketing como imágenes para redes sociales, carteles promocionales, etc. para satisfacer diversas necesidades de marketing.
© declaración de copyright

Puestos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...