ICLR Surprisingly [10,10,10,10,10] Full Score Paper, ControlNet Новая работа автора - адаптация IC-Light V2 к флюсу

Новости ИИОпубликовано 9 месяцев назад Круг обмена ИИ
6.1K 00

Четыре десятки! Редкое зрелище, но как можно не считать его довольно бомбическим, когда оно размещено на ICLR, средний балл которого составляет всего 4,76?

ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

Статья, которая покорила рецензентов, - это IC-Light, новая работа автора ControlNet Люмина Чжана (Lumin Zhang). Редко можно встретить статью, которая получила бы от четырех рецензентов высокую степень согласия: "Оценка: 10: сильное одобрение, должна быть отмечена на конференции".

IC-Light был открыт на Github за полгода до подачи в ICLR и набрал 5,8 тыс. звезд, что говорит о его качестве.

ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

Первоначальная версия была реализована на базе SD 1.5 и SDXL, а всего несколько дней назад команда выпустила версию V2, адаптированную к Flux и показавшую еще лучшие результаты.

Для тех, кому интересно, вы можете просто попробовать.

  • Проект на Github: https://github.com/lllyasviel/IC-Light?tab=readme-ov-file
  • Версия V2: https://github.com/lllyasviel/IC-Light/discussions/98
  • Ссылка на пробную версию: https://huggingface.co/spaces/lllyasviel/IC-Light

IC-Light Это модель редактирования освещения, основанная на модели диффузии, которая позволяет точно управлять эффектом освещения изображения с помощью текста.

ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

Другими словами, эффекты света и тени, которые можно получить, только открыв маску, открыв альфа-канал и отладив разделение светлого и темного в PS, становятся "вопросом шевеления губами" с IC-Light.

Введите подсказку, чтобы получить свет, проникающий через окно, чтобы вы могли видеть солнечный свет через дождливое окно и мягкий контурный свет на боковой части лица фигуры.

ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

IC-Light не только точно воспроизводит направление света, но и точно передает эффект рассеивания света через стекло.

IC-Light одинаково хорошо работает с искусственными источниками света, такими как неоновые вывески.

По сигнальному слову оригинальная сцена в классе тут же взрывается в стиле киберпанк: красные и синие цвета неоновых ламп бьют по персонажам, создавая ощущение технологичности и футуристичности, присущее ночным городам.

ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

Модель не только точно передает эффект цветопроницаемости неона, но и сохраняет целостность фигуры.

IC-Light также поддерживает загрузку фонового изображения для изменения освещения исходного изображения.

ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

Когда речь заходит о ControlNet, мы не должны быть незнакомы с ней, поскольку она решила одну из самых сложных проблем в мире искусственного интеллекта для рисования.

ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

Проект на Github: https://github.com/lllyasviel/ControlNet

Раньше самой большой головной болью для Stable Diffusion была невозможность точно контролировать детали изображения. Будь то композиция, движение, черты лица или пространственные отношения, даже если слова подсказки были заданы очень подробно, результаты, генерируемые SD, все равно должны были соответствовать уникальным идеям ИИ.

Но появление ControlNet было похоже на установку "руля" на SD, и в результате было создано множество коммерческих рабочих процессов.

Академические приложения расцвели, а ControlNet получил награду Marr Award (приз за лучшую работу) на ICCV 2023.

ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

Хотя многие инсайдеры индустрии говорят, что в области создания свернутых изображений становится все труднее и труднее совершить настоящий прорыв. Но Чжан Луминь всегда находит другой путь, и каждый раз он попадает точно в цель. Этот раз не стал исключением.

В реальном мире свет и материал на поверхности объекта тесно связаны. Например, когда вы видите объект, трудно сказать, из-за чего он выглядит так, как мы его видим, - из-за света или из-за материала. Поэтому сложно позволить ИИ редактировать свет, не изменяя материал самого объекта.

Предыдущие исследования пытались решить эту проблему путем создания специальных наборов данных, но без особого успеха. Авторы IC-Light обнаружили, что использование синтетически сгенерированных ИИ данных с некоторой ручной обработкой позволяет добиться хороших результатов. Этот вывод поучителен для всей области исследований.

Когда ICLR 2025 был только что опубликован, IC-Light получил наивысшую оценку - 10-10-8-8. Рецензенты также были весьма благосклонны в своих комментариях:

"Это пример замечательной газеты!"

"Я думаю, что предложенная методология и созданные инструменты сразу же пригодятся многим пользователям!"

ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配FluxICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

В конце опровержения были добавлены некоторые ссылки и эксперименты. Два рецензента, поставившие ей 8 баллов, с радостью изменили оценку на отличную.

ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

Давайте посмотрим, что именно написано в полном эссе.Подробности исследованияICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

  • Название диссертации: Масштабирование обучения в дикой природе для гармонизации и редактирования освещения на основе диффузии путем навязывания последовательного переноса света
  • Ссылка на статью: https://openreview.net/pdf?id=u1cQYxRI1H

В данной работе исследователи предлагают метод навязывания последовательной передачи света (IC-Light) во время обучения, основанный на физике независимости передачи света, которая базируется на линейном смешивании внешнего вида объекта при различных условиях освещения и последовательной передачи внешнего вида при смешанном освещении.

Как показано на рис. 2, исследователь смоделировал распределения световых эффектов, используя различные доступные источники данных: произвольные изображения, 3D-данные и изображения световых сцен. Эти распределения могут отражать различные сложные сценарии освещения в реальном мире, подсветку, ободковое освещение, свечение и так далее. Для простоты все данные здесь обрабатываются в едином формате.

ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

Однако изучение масштабных, сложных и зашумленных данных представляет собой сложную задачу. Без надлежащей регуляризации и ограничений модель может легко выродиться в случайное поведение, не соответствующее ожидаемому редактированию света. Решение, предложенное исследователями, заключается в имплантации последовательной передачи света (IC-Light) во время обучения. ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

Накладывая эту согласованность, исследователи вводят надежное, физически обоснованное ограничение, которое гарантирует, что модель изменяет только аспекты освещения изображения, сохраняя другие внутренние свойства, такие как альбедо и мелкие детали изображения. Метод может быть обучен стабильно и масштабируемо на более чем 10 миллионах различных образцов, включая реальные фотографии со световых сцен, рендерные изображения и полевые изображения с синтетическим усилением света. Метод, предложенный в данной работе, повышает точность редактирования света, уменьшает неопределенность и сокращает артефакты без изменения основных деталей внешнего вида.

В целом, вклад данной диссертации состоит в следующем:

(1) IC-Light, метод расширения обучения моделей редактирования света на основе диффузии путем наложения последовательного пропускания света, предложен для обеспечения точной модификации света при сохранении присущих изображению деталей;

(2) Предоставляются предварительно обученные модели фоторедактирования для облегчения применения фоторедактирования в различных областях создания и обработки контента;

(3) Масштабируемость и производительность этого метода проверяется с помощью обширных экспериментов, показывающих, как он отличается от других методов при работе с различными условиями освещения;

(4) Представлены другие приложения, такие как генерация нормальных карт и художественная обработка освещения, что еще больше демонстрирует универсальность и надежность метода в реальных практических сценах.

 

Результаты

В ходе экспериментов исследователи убедились, что увеличение объема обучения и диверсификация источников данных могут повысить надежность модели и улучшить производительность при решении различных задач, связанных с освещением.

Эксперименты по абляции показали, что применение метода IC-Light во время обучения повышает точность редактирования света, сохраняя при этом присущие ему свойства, такие как альбедо и детализация изображения.

Кроме того, метод, используемый в данной работе, применим к более широкому диапазону распределений света, таких как краевое освещение, контровое освещение, волшебное свечение, свечение на закате и т. д., чем другие модели, обученные на небольших или более структурированных наборах данных.

Исследователи также демонстрируют способность метода работать с более широким спектром сценариев освещения поля, включая художественное освещение и синтетические световые эффекты. Также рассматриваются дополнительные приложения, такие как создание карт нормалей, и обсуждаются различия между этим подходом и типичными основными моделями оценки геометрических параметров.

 

эксперимент по абляции

Сначала исследователи восстановили модель в процессе обучения, но удалили данные об улучшении изображения в полевых условиях. Как показано на рисунке 4, удаление полевых данных сильно повлияло на способность модели к обобщению, особенно для сложных изображений, таких как портреты. Например, шляпы на портретах, которых не было в обучающих данных, часто отображались в неправильных цветах (например, меняли желтый цвет на черный).

ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

Исследователи также попытались устранить постоянство светопередачи. Без этого ограничения способность модели генерировать последовательный свет и сохранять присущие ей свойства, такие как альбедо (отраженный цвет), значительно снизилась. Например, исчезли различия между красным и синим цветом на некоторых изображениях, а на выходе были видны проблемы с насыщенностью цвета.

Вместо этого комплексный подход объединяет множество источников данных и повышает согласованность оптической передачи, создавая равновесную модель, которая может быть обобщена в широком диапазоне ситуаций. Она также сохраняет присущие ей свойства, такие как тонкая детализация изображения и альбедо, уменьшая при этом ошибки в выходном изображении.

 

Другие приложения

Как показано на рис. 5, исследователи также демонстрируют другие приложения, такие как координация освещения с использованием фоновых условий. Обучаясь на дополнительных каналах фонового состояния, модель в данной работе может генерировать освещение исключительно на основе фонового изображения, не полагаясь на отображение среды. Кроме того, модель поддерживает различные базовые модели, такие как SD1.5, SDXL и Flux, функциональность которых продемонстрирована в полученных результатах.

ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

 

количественная оценка

Для количественной оценки исследователи использовали такие метрики, как пиковое отношение сигнал/шум (PSNR), индекс структурного сходства (SSIM) и сходство восприятия фрагментов изображения (LPIPS). Кроме того, для оценки из набора данных было извлечено подмножество из 50 000 образцов 3D-рендеринга, чтобы убедиться, что модель не сталкивалась с ними во время обучения.

Были протестированы такие методы, как SwitchLight, DiLightNet и варианты методов, описанных в данной статье, которые не включают в себя некоторые компоненты (например, без оптической транспортной консистенции, без данных об улучшении, без 3D-данных и без данных о сцене освещения).

Как показано в таблице 1, метод, используемый в данной работе, превосходит другие методы по показателю LPIPS, что свидетельствует о превосходном качестве восприятия. Наибольшее значение PSNR было получено для модели, обученной только на 3D-данных, что может быть связано с погрешностью в оценке рендеринга (поскольку в этом тесте использовались только 3D-рендеринг). Полный метод, объединяющий несколько источников данных, позволяет найти баланс между качеством восприятия и производительностью.

ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

 

визуальное сравнение

Исследователи также провели визуальное сравнение с предыдущими методами. Как показано на рисунке 6, модель в данной работе более устойчива к затенению благодаря большему и более разнообразному набору обучающих данных по сравнению с Relightful Harmonisation. SwitchLight и модель в данной работе дают конкурентоспособные результаты пересвечивания. Качество отображения нормалей в этом подходе несколько выше благодаря методу слияния и получения теней из нескольких представлений. Кроме того, модель создает более качественные карты нормалей человека по сравнению с GeoWizard и DSINE.

ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

Более подробную информацию об исследовании можно найти в оригинальной статье.

 

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...