InstanceAssemble - технология генерации управления компоновкой с открытым исходным кодом от Little Red Book и Фуданьского университета

堆友AI

Что такое InstanceAssemble

InstanceAssemble - это технология генерации управления макетом, разработанная совместно Xiaohongshu и Фуданьским университетом, которая обеспечивает точную генерацию изображений от простых к сложным и от разреженных к плотным макетам благодаря механизму "Внимание при сборке экземпляра". Используя двухступенчатую каскадную архитектуру, он сначала генерирует фон изображения, а затем поочередно интегрирует информацию об экземплярах в макет. Используя независимый механизм внимания, чтобы избежать интерференции между различными экземплярами, он может эффективно работать со сложными макетами, такими как перекрывающиеся или мелкие объекты. InstanceAssemble выполняет облегченную адаптацию с помощью модуля LoRA, который требует добавления лишь небольшого количества параметров и не требует повторного обучения всей модели, что значительно снижает вычислительные затраты и повышает скорость вывода. Поддерживается мультимодальный ввод данных, и каждый экземпляр может быть дополнен текстовым описанием или информацией об изображении.

InstanceAssemble - 小红书联合复旦大学开源的布局控制生成技术

Особенности InstanceAssemble

  • Точный контроль расположенияИнновационный механизм Instance Assembling Attention точно контролирует положение, форму и семантические атрибуты каждого целевого объекта на изображении, обеспечивая высокое соответствие сгенерированного изображения заданным инструкциям по компоновке (например, ограничительным рамкам, текстовым описаниям), особенно в сложных сценах (например, в многоэкземплярных макетах высокой плотности). Это особенно актуально в сложных сценариях (например, в многоэкземплярных макетах высокой плотности).
  • Каскадный архитектурный дизайнКаскадная структура используется для создания глобального фона изображения и общего контекста с помощью базовой модели, а затем интегрирует информацию о локальных экземплярах один за другим с помощью модуля сборки экземпляров, принимая во внимание глобальное качество и локальное выравнивание, а также избегая взаимных помех между экземплярами.
  • Легкая адаптацияАдаптация модели основана на технологии LoRA (Low-Rank Adaptation), которая требует лишь небольшого увеличения параметров (около 3% от базовой модели) для реализации функции управления компоновкой на основе существующих диффузионных моделей (например, Stable Diffusion, Flux и т.д.) без масштабного переобучения, и учитывает как эффективность, так и совместимость.
  • мультимодальная поддержкаОн поддерживает различные модальные входы, такие как текст, карта ссылок, карта глубин, карта краев и т.д., которые могут гибко комбинировать различную информацию для создания изображений и обогащения выражения содержания.
  • Открытый исходный код и потенциал примененияОткрытый исходный код и предварительно обученные модели были разработаны для создания решений промышленного уровня для дизайна, рекламы, создания контента и других областей, которые в будущем могут быть расширены до интеллектуального набора текста, создания виртуального контента и других сценариев.

Основные преимущества InstanceAssemble

  • Точный контроль расположения: Он может генерировать изображения в точном соответствии с заданными пользователем позициями и содержанием, обеспечивая высокоточное выравнивание макета и семантическую согласованность как в простых экранах, так и в сложных сценах.
  • Низкая стоимость вычисленийЛегкая адаптация с помощью LoRA требует добавления лишь небольшого количества параметров, что снижает накладные расходы 97% по сравнению с традиционным подходом и значительно увеличивает скорость вывода.
  • Способность работать со сложными макетамиПрименяя механизм независимого внимания, вычисление внимания для каждого целевого объекта производится только в соответствующей области изображения, что позволяет эффективно избегать помех между различными объектами и справляться со сложными ситуациями расположения, такими как перекрытие или маленькие объекты.
  • Поддержка мультимодального вводаКаждый экземпляр может быть указан либо в виде текстового описания, либо путем обогащения представления контента дополнительной информацией об изображении (например, эталонными изображениями, картами глубины, картами краев и т. д.), что повышает разнообразие и точность генерируемых изображений.

Что такое официальный сайт InstanceAssemble

  • Репозиторий GitHub:: https://github.com/FireRedTeam/InstanceAssemble
  • Технический документ arXiv:: https://arxiv.org/pdf/2509.16691

Для кого предназначен InstanceAssemble

  • Креативный дизайнер: Необходимость быстро генерировать изображения, отвечающие определенным макетам и творческим требованиям, для использования в таких областях, как рекламный дизайн, производство плакатов, UI/UX-дизайн и т. д.
  • специалист по электронной коммерции: Используется для создания высококачественных изображений товаров для повышения привлекательности и удобства использования страниц с товарами.
  • разработчик игр: Быстрая генерация изображений для сложных макетов при проектировании игровых сцен и создании персонажей для повышения эффективности разработки.
  • создатель контента: например, блоггерам, издателям и т.д., для создания персонализированного графического контента, чтобы повысить привлекательность и профессионализм контента.
  • научный сотрудник: Проведение исследований в области искусственного интеллекта и компьютерного зрения для изучения дополнительных возможностей в технологиях создания управляющих макетов.
  • Команда корпоративного маркетинга: Используется для создания маркетинговых материалов, таких как изображения для социальных сетей, рекламные плакаты и т. д., для удовлетворения различных маркетинговых потребностей.
© заявление об авторских правах

Похожие посты

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...