ICLR Surprenant [10,10,10,10,10] Full Score Paper, ControlNet Nouveau travail de l'auteur - IC-Light V2 Adaptation à Flux

Nouvelles de l'IAPosté il y a 9 mois Cercle de partage de l'IA

13.7K 00

Quatre 10 ! C'est rare, mais comment ne pas considérer que cette présence est assez impressionnante lorsqu'elle est placée sur l'ICLR, qui a une note moyenne de seulement 4,76 ?

ICLR 惊现[10,10,10,10]满分论文，ControlNet作者新作——IC-Light V2适配Flux

L'article qui a séduit les évaluateurs est IC-Light, un nouveau travail de Lumin Zhang, auteur de ControlNet, et il est rare de voir un article pour lequel quatre évaluateurs s'accordent sur la note suivante : "Note : 10 : forte acceptation, devrait être mis en évidence lors de la conférence".

IC-Light a été mis en libre accès sur Github pendant six mois avant d'être soumis à l'ICLR, et a obtenu 5,8k étoiles, ce qui montre à quel point il est bon.

La version initiale a été mise en œuvre sur la base de SD 1.5 et SDXL, et il y a quelques jours, l'équipe a publié une version V2, adaptée à Flux et avec des résultats encore meilleurs.

Les personnes intéressées peuvent l'essayer.

Projet Github : https://github.com/lllyasviel/IC-Light?tab=readme-ov-file
Version V2 : https://github.com/lllyasviel/IC-Light/discussions/98
Lien d'essai : https://huggingface.co/spaces/lllyasviel/IC-Light

IC-Light Il s'agit d'un modèle d'édition de l'éclairage basé sur le modèle de diffusion, qui permet un contrôle précis de l'effet d'éclairage d'une image par le biais du texte.

En d'autres termes, les effets d'ombre et de lumière qui ne peuvent être réalisés qu'en ouvrant des masques, des canaux alpha et en déboguant la séparation de la lumière et de l'obscurité dans PS, deviennent "une question de lèvres" avec IC-Light.

Entrez l'invite pour obtenir la lumière entrant par la fenêtre, de sorte que vous puissiez voir la lumière du soleil entrant par la fenêtre pluvieuse, créant une douce lumière de silhouette sur le côté du visage du personnage.

IC-Light ne reproduit pas seulement avec précision la direction de la lumière, mais aussi l'effet diffus de la lumière à travers le verre.

IC-Light fonctionne également avec des sources de lumière artificielle telles que les enseignes au néon.

Sur la base du mot clé, la scène originale de la salle de classe explose immédiatement dans un style cyberpunk : les couleurs rouge et bleu des néons frappent les personnages, créant un sentiment de technologie et de futurisme propre aux villes nocturnes.

Le modèle reproduit non seulement fidèlement l'effet de pénétration des couleurs du néon, mais conserve également la cohérence de la figure.

IC-Light permet également de télécharger une image d'arrière-plan pour modifier l'éclairage de l'image originale.

ControlNet ne devrait pas nous être inconnu, car il a permis de résoudre l'un des problèmes les plus difficiles dans le monde de la peinture artificielle.

Projet Github : https://github.com/lllyasviel/ControlNet

Auparavant, le plus gros problème de la diffusion stable était l'incapacité à contrôler précisément les détails de l'image. Qu'il s'agisse de la composition, du mouvement, des traits du visage ou des relations spatiales, même si les mots-clés avaient été spécifiés de manière très détaillée, les résultats générés par SD devaient toujours adhérer aux idées uniques de l'IA.

Mais l'avènement de ControlNet a été comme un "volant" pour SD, et de nombreux flux de travail commercialisés ont été créés en conséquence.

Les applications universitaires se sont multipliées et ControlNet a remporté le Marr Award (prix du meilleur article) à l'ICCV 2023.

Bien que de nombreux initiés de l'industrie affirment qu'il est de plus en plus difficile de réaliser une véritable percée dans le domaine de la génération d'images enroulées, Zhang Lumin semble toujours capable de trouver une autre voie. Mais Zhang Lumin semble toujours capable de trouver une autre voie, et chaque fois qu'il frappe, il répond précisément aux besoins de l'utilisateur. Cette fois-ci ne fait pas exception.

Dans le monde réel, la lumière et le matériau à la surface d'un objet sont étroitement liés. Lorsque vous voyez un objet, par exemple, il est difficile de dire si c'est la lumière ou le matériau qui fait apparaître l'objet tel que nous le voyons. Il est donc également difficile de laisser l'IA modifier la lumière sans changer le matériau de l'objet lui-même.

Des recherches antérieures ont tenté de résoudre ce problème en construisant des ensembles de données spécifiques, mais sans grand succès. Les auteurs d'IC-Light ont constaté que l'utilisation de données générées synthétiquement par l'IA avec un certain traitement manuel permet d'obtenir de bons résultats. Cette constatation est instructive pour l'ensemble du domaine de la recherche.

Lorsque le rapport ICLR 2025 vient d'être publié, IC-Light est l'article qui a obtenu le meilleur score avec "10-10-8-8". Les évaluateurs ont également été très élogieux dans leurs commentaires :

"C'est l'exemple même d'un excellent papier !
"Je pense que la méthodologie proposée et les outils qui en découlent seront immédiatement utiles à de nombreux utilisateurs !

À la fin de la réfutation, quelques références et expériences ont été ajoutées. Les deux évaluateurs qui avaient donné un 8 ont été heureux de le transformer en une note parfaite.

Voyons maintenant ce qui est écrit exactement dans la dissertation complète.Détails de l'étude ICLR 惊现[10,10,10,10]满分论文，ControlNet作者新作——IC-Light V2适配Flux

Titre de la thèse : Scaling In-the-Wild Training for Diffusion-based Illumination Harmonization and Editing by Imposing Consistent Light Transport
Lien vers l'article : https://openreview.net/pdf?id=u1cQYxRI1H

Dans cet article, les chercheurs proposent une méthode pour imposer une transmission cohérente de la lumière (IC-Light) pendant la formation, basée sur la physique de l'indépendance de la transmission de la lumière, qui repose sur le mélange linéaire de l'apparence d'un objet dans différentes conditions d'éclairage et sur l'apparence cohérente sous un éclairage mixte.

Comme le montre la figure 2, le chercheur a modélisé des distributions d'effets d'éclairage en utilisant diverses sources de données disponibles : images arbitraires, données 3D et images de scènes lumineuses. Ces distributions peuvent capturer une variété de scénarios d'éclairage complexes dans le monde réel, rétroéclairage, éclairage périphérique, incandescence, etc. Par souci de simplicité, toutes les données sont traitées ici dans un format commun.

Toutefois, l'apprentissage de données complexes et bruyantes à grande échelle constitue un défi. Sans une régularisation et des contraintes appropriées, le modèle peut facilement dégénérer en un comportement aléatoire qui ne correspond pas à l'édition lumineuse attendue. La solution proposée par les chercheurs consiste à implanter une transmission lumineuse cohérente (IC-Light) pendant la formation. ICLR 惊现[10,10,10,10]满分论文，ControlNet作者新作——IC-Light V2适配Flux

En imposant cette cohérence, les chercheurs introduisent une contrainte robuste, basée sur la physique, qui garantit que le modèle ne modifie que les aspects lumineux de l'image, tout en préservant d'autres propriétés intrinsèques telles que l'albédo et les détails de l'image. La méthode peut être entraînée de manière stable et évolutive sur plus de 10 millions d'échantillons différents, y compris des photographies réelles provenant de scènes lumineuses, des images rendues et des images de terrain avec des améliorations lumineuses synthétiques. La méthode proposée dans cet article améliore la précision de l'édition de la lumière, réduit l'incertitude et les artefacts sans altérer les détails de l'apparence sous-jacente.

Dans l'ensemble, les contributions de cette thèse consistent principalement en :

(1) IC-Light, une méthode permettant d'étendre la formation des modèles d'édition de la lumière basés sur la diffusion en imposant une transmission cohérente de la lumière, est proposée pour garantir des modifications précises de la lumière tout en préservant les détails intrinsèques de l'image ;

(2) Des modèles de photo-édition pré-entraînés sont fournis pour faciliter les applications de photo-édition dans différents domaines de la création et du traitement de contenu ;

(3) L'évolutivité et les performances de cette méthode sont vérifiées par le biais d'expériences approfondies, montrant comment elle diffère des autres méthodes dans le traitement de diverses conditions d'éclairage ;

(4) D'autres applications telles que la génération de cartes normales et le traitement artistique de l'éclairage sont présentées, démontrant ainsi la polyvalence et la robustesse de la méthode dans des scènes réelles et pratiques.

Résultats

Lors des expériences, les chercheurs ont vérifié que l'augmentation de la taille de l'entraînement et la diversification des sources de données peuvent renforcer la robustesse du modèle et améliorer les performances de diverses tâches en aval liées à la lumière.

Des expériences d'ablation ont démontré que l'application de la méthode IC-Light pendant la formation améliore la précision de l'édition de la lumière, préservant ainsi les propriétés intrinsèques telles que l'albédo et les détails de l'image.

En outre, la méthode décrite dans cet article est applicable à un plus large éventail de distributions lumineuses, telles que l'éclairage de bord, le rétroéclairage, la lueur magique, la lueur du coucher de soleil, etc., que d'autres modèles formés sur des ensembles de données plus petits ou plus structurés.

Les chercheurs démontrent également la capacité de la méthode à gérer une plus large gamme de scénarios d'éclairage sur le terrain, y compris l'éclairage artistique et les effets d'éclairage synthétiques. D'autres applications telles que la génération de cartes normales sont également explorées, et les différences entre cette approche et les modèles d'estimation géométrique classiques sont discutées.

expérience d'ablation

Les chercheurs ont d'abord restauré le modèle en formation, mais ont supprimé les données d'amélioration de l'image sur le terrain. Comme le montre la figure 4, la suppression des données de terrain a gravement affecté la capacité de généralisation du modèle, en particulier pour les images complexes telles que les portraits. Par exemple, les chapeaux des portraits qui n'étaient pas présents dans les données d'entraînement étaient souvent rendus dans des couleurs incorrectes (par exemple, en passant du jaune au noir).

Les chercheurs ont également tenté de supprimer la cohérence de la transmission de la lumière. Sans cette restriction, la capacité du modèle à générer une lumière cohérente et à conserver des propriétés intrinsèques telles que l'albédo (couleur réfléchie) a été considérablement réduite. Par exemple, les différences de rouge et de bleu dans certaines images ont disparu et des problèmes de saturation des couleurs sont apparus dans les résultats.

Au lieu de cela, l'approche complète combine plusieurs sources de données et améliore la cohérence de la transmission optique, produisant un modèle d'équilibre qui peut être généralisé dans un large éventail de situations. Elle préserve également les propriétés inhérentes telles que la finesse des détails de l'image et l'albédo, tout en réduisant les erreurs dans l'image de sortie.

Autres applications

Comme le montre la figure 5, les chercheurs ont également démontré d'autres applications, telles que la coordination de l'éclairage à l'aide des conditions d'arrière-plan. En s'entraînant sur des canaux supplémentaires de l'arrière-plan, le modèle présenté dans cet article peut générer un éclairage basé uniquement sur l'image de l'arrière-plan sans s'appuyer sur la cartographie de l'environnement. En outre, le modèle prend en charge différents modèles de base tels que SD1.5, SDXL et Flux, dont la fonctionnalité est démontrée dans les résultats générés.

évaluation quantitative

Pour l'évaluation quantitative, les chercheurs ont utilisé des mesures telles que le rapport signal/bruit maximal (PSNR), l'indice de similarité structurelle (SSIM) et l'apprentissage de la perception de la similarité des images (LPIPS). Un sous-ensemble de 50 000 échantillons de données de rendu 3D inédites a été extrait de l'ensemble de données pour l'évaluation, afin de s'assurer que le modèle ne les avait pas rencontrées au cours de la formation.

Les méthodes testées sont SwitchLight, DiLightNet et des variantes des méthodes présentées dans ce document qui n'incluent pas certains composants (par exemple, pas de cohérence du transport optique, pas de données d'amélioration, pas de données 3D et pas de données sur les scènes d'éclairage).

Comme le montre le tableau 1, la méthode présentée dans cet article est plus performante que les autres méthodes en ce qui concerne le PSNR, ce qui indique une qualité perceptuelle supérieure. Le PSNR le plus élevé a été obtenu pour le modèle entraîné sur des données 3D uniquement, ce qui peut être dû au biais dans l'évaluation des données rendues (puisque seules des données rendues en 3D ont été utilisées dans ce test). La méthode complète combinant plusieurs sources de données permet de trouver un équilibre entre la qualité perceptuelle et la performance.

comparaison visuelle

Les chercheurs ont également effectué une comparaison visuelle avec les méthodes précédentes. Comme le montre la figure 6, le modèle présenté dans cet article est plus robuste à l'ombrage en raison de l'ensemble de données d'entraînement plus important et plus diversifié que celui de Relightful Harmonisation.SwitchLight et le modèle présenté dans cet article produisent des résultats compétitifs en matière de ré-éclairage. La qualité de la cartographie normale est un peu plus détaillée dans cette approche, grâce à la méthode de fusion et de dérivation des ombres à partir de représentations multiples. En outre, le modèle produit des cartes normales humaines de meilleure qualité que GeoWizard et DSINE.

De plus amples détails sur l'étude sont disponibles dans l'article original.