ICLR Sorprendentemente [10,10,10,10,10] Ponencia completa, ControlNet Nuevo trabajo del autor - IC-Light V2 Adaptación a Flux

¡Cuatro 10s! Un espectáculo raro de ver, pero ¿cómo no va a considerarse una presencia bastante rimbombante cuando se coloca en ICLR, que tiene una puntuación media de sólo 4,76?

ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

El artículo que ha conquistado a los revisores es IC-Light, un nuevo trabajo de Lumin Zhang, autor de ControlNet, y es raro ver un artículo que consiga que cuatro revisores se pongan de acuerdo en "Calificación: 10: gran aceptación, debería destacarse en la conferencia".

IC-Light ha sido de código abierto en Github durante medio año antes de que se presentó a ICLR, y ha ganado 5,8k estrellas, lo que demuestra lo bueno que es.

ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

La versión inicial se implementó basándose en SD 1.5 y SDXL, y hace sólo unos días el equipo lanzó una versión V2, adaptada a Flux y con resultados aún mejores.

Los interesados pueden probarlo.

  • Proyecto Github: https://github.com/lllyasviel/IC-Light?tab=readme-ov-file
  • Versión V2: https://github.com/lllyasviel/IC-Light/discussions/98
  • Enlace de prueba: https://huggingface.co/spaces/lllyasviel/IC-Light

IC-Light Se trata de un modelo de edición de iluminación basado en el modelo de difusión, que permite controlar con precisión el efecto de iluminación de una imagen a través del texto.

ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

En otras palabras, los efectos de luz y sombra que sólo pueden hacerse abriendo máscaras, canales alfa y depurando la separación de luz y oscuridad en PS, se convierten en "cuestión de mover los labios" con IC-Light.

Entra en prompt para obtener la luz que entra por la ventana, de modo que puedas ver la luz del sol a través de la ventana lluviosa y la suave luz de contorno en el lateral de la cara de la figura.

ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

IC-Light no sólo reproduce con precisión la dirección de la luz, sino también el efecto difuso de la luz a través del cristal.

IC-Light funciona igual de bien con fuentes de luz artificiales como los letreros de neón.

A partir de la palabra clave, la escena original del aula estalla inmediatamente en estilo ciberpunk: los colores rojo y azul de las luces de neón golpean a los personajes, creando una sensación de tecnología y futurismo propia de las ciudades nocturnas.

ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

El modelo no sólo reproduce con precisión el efecto de penetración del color del neón, sino que también mantiene la consistencia de la figura.

IC-Light también permite cargar una imagen de fondo para cambiar la iluminación de la imagen original.

ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

No debemos desconocer ControlNet, ya que ha resuelto uno de los problemas más difíciles en el mundo de la pintura con IA.

ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

Proyecto Github: https://github.com/lllyasviel/ControlNet

Antes, el mayor quebradero de cabeza de la Difusión Estable era la incapacidad de controlar con precisión los detalles de la imagen. Ya se tratara de la composición, el movimiento, los rasgos faciales o las relaciones espaciales, aunque las palabras clave se hubieran especificado con gran detalle, los resultados generados por SD seguían teniendo que ceñirse a las ideas únicas de la IA.

Pero la llegada de ControlNet fue como ponerle un "volante" a la SD, y gracias a ello se crearon muchos flujos de trabajo comercializados.

Las aplicaciones académicas florecieron y ControlNet ganó el premio Marr (Best Paper Award) en ICCV 2023.

ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

Aunque muchos conocedores del sector afirman que cada vez es más difícil lograr un avance real en el campo de la generación de imágenes enrolladas. Pero Zhang Lumin siempre parece capaz de encontrar otro camino, y cada vez que ataca, da en el clavo con las necesidades del usuario. Esta vez no es una excepción.

En el mundo real, la luz y el material de la superficie de un objeto están estrechamente relacionados. Cuando ves un objeto, por ejemplo, es difícil saber si es la luz o el material lo que hace que el objeto aparezca como lo vemos. Por eso también es difícil que la IA modifique la luz sin cambiar el material del propio objeto.

Investigaciones anteriores han intentado resolver este problema construyendo conjuntos de datos específicos, pero con escaso éxito. Los autores de IC-Light descubrieron que el uso de datos generados sintéticamente por IA con cierto procesamiento manual puede dar buenos resultados. Este hallazgo es instructivo para todo el campo de la investigación.

Cuando se publicó el ICLR 2025, IC-Light fue el artículo mejor valorado con "10-10-8-8". Los revisores también fueron muy elogiosos en sus comentarios:

"¡Este es un ejemplo de papel maravilloso!"

"Creo que la metodología propuesta y las herramientas resultantes serán de utilidad inmediata para muchos usuarios".

ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配FluxICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

Al final de la refutación se añadieron algunas referencias y experimentos. Los dos revisores que le dieron un 8 estuvieron encantados de cambiarlo por una puntuación perfecta.

ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

Echemos un vistazo a lo que está escrito exactamente en el ensayo completo.Detalles del estudioICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

  • Título de la tesis: Scaling In-the-Wild Training for Diffusion-based Illumination Harmonization and Editing by Imposing Consistent Light Transport.
  • Enlace al documento: https://openreview.net/pdf?id=u1cQYxRI1H

En este trabajo, los investigadores proponen un método para imponer la transmisión de luz consistente (IC-Light) durante el entrenamiento basado en la física de la independencia de la transmisión de luz, que se basa en la mezcla lineal de la apariencia de un objeto bajo diferentes condiciones de luz y la apariencia consistente bajo luz mezclada.

Como se muestra en la Figura 2, el investigador modeló distribuciones de efectos de iluminación utilizando diversas fuentes de datos disponibles: imágenes arbitrarias, datos 3D e imágenes de escenarios luminosos. Estas distribuciones pueden capturar una variedad de escenarios de iluminación complejos en el mundo real, contraluz, rimlighting, resplandor, etc. Para simplificar, todos los datos se procesan aquí en un formato común.

ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

Sin embargo, el aprendizaje de datos a gran escala, complejos y ruidosos es todo un reto. Sin la regularización y las restricciones adecuadas, el modelo puede degenerar fácilmente en un comportamiento aleatorio que no se ajuste a la edición de luz esperada. La solución aportada por los investigadores consiste en implantar la transmisión de luz coherente (IC-Light) durante el entrenamiento. ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

Al imponer esta coherencia, los investigadores introducen una restricción robusta de base física que garantiza que el modelo modifique únicamente los aspectos lumínicos de la imagen, preservando otras propiedades intrínsecas como el albedo y los detalles finos de la imagen. El método puede entrenarse de forma estable y escalable en más de 10 millones de muestras diferentes, incluidas fotografías reales de escenarios luminosos, imágenes renderizadas e imágenes de campo con mejoras de luz sintética. El método propuesto en este artículo mejora la precisión de la edición de la luz, reduce la incertidumbre y disminuye los artefactos sin alterar los detalles de apariencia subyacentes.

En conjunto, las aportaciones de esta tesis consisten principalmente en:

(1) Se propone IC-Light, un método para ampliar el entrenamiento de los modelos de edición de luz basados en la difusión mediante la imposición de una transmisión de luz coherente, con el fin de garantizar modificaciones precisas de la luz preservando al mismo tiempo los detalles intrínsecos de la imagen;

(2) Se proporcionan modelos de edición fotográfica preentrenados para facilitar las aplicaciones de edición fotográfica en distintos ámbitos de la creación y el tratamiento de contenidos;

(3) La escalabilidad y el rendimiento de este método se verifican mediante amplios experimentos, que muestran en qué se diferencia de otros métodos a la hora de tratar diversas condiciones de iluminación;

(4) Se presentan otras aplicaciones, como la generación de mapas normales y el tratamiento de la iluminación artística, lo que demuestra aún más la versatilidad y solidez del método en escenas prácticas del mundo real.

 

Resultados

En los experimentos, los investigadores comprobaron que el aumento del tamaño del entrenamiento y la diversificación de las fuentes de datos pueden aumentar la robustez del modelo y mejorar el rendimiento de varias tareas descendentes relacionadas con la luz.

Los experimentos de ablación han demostrado que la aplicación del método IC-Light durante el entrenamiento mejora la precisión de la edición de la luz, preservando así propiedades intrínsecas como el albedo y el detalle de la imagen.

Además, el método de este artículo es aplicable a una gama más amplia de distribuciones de luz, como la iluminación de bordes, la retroiluminación, el resplandor mágico, el resplandor del atardecer, etc., que otros modelos entrenados en conjuntos de datos más pequeños o más estructurados.

Los investigadores también demuestran la capacidad del método para manejar una gama más amplia de escenarios de iluminación de campo, incluida la iluminación artística y los efectos de iluminación sintética. También se exploran otras aplicaciones, como la generación de mapas de normales, y se analizan las diferencias entre este método y los modelos habituales de estimación geométrica.

 

experimento de ablación

Los investigadores restauraron primero el modelo en el entrenamiento, pero eliminaron los datos de mejora de la imagen de campo. Como se muestra en la figura 4, la eliminación de los datos de campo afectó gravemente a la capacidad de generalización del modelo, especialmente en el caso de imágenes complejas como los retratos. Por ejemplo, los sombreros de los retratos que no estaban presentes en los datos de entrenamiento se representaban a menudo con colores incorrectos (por ejemplo, cambiaban de amarillo a negro).

ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

Los investigadores también intentaron eliminar la coherencia de la transmisión de la luz. Sin esta restricción, la capacidad del modelo para generar una luz coherente y conservar propiedades intrínsecas como el albedo (color reflejado) se redujo considerablemente. Por ejemplo, desaparecieron las diferencias de rojo y azul en algunas imágenes, y los problemas de saturación del color se hicieron evidentes en la salida.

En su lugar, el enfoque completo combina múltiples fuentes de datos y mejora la coherencia de la transmisión óptica, produciendo un modelo de equilibrio que puede generalizarse en una amplia gama de situaciones. También preserva propiedades inherentes como el detalle de la imagen y el albedo, al tiempo que reduce los errores en la imagen de salida.

 

Otras aplicaciones

Como se muestra en la Fig. 5, los investigadores también demuestran otras aplicaciones, como la coordinación de la luz utilizando las condiciones de fondo. Mediante el entrenamiento en canales adicionales de la condición de fondo, el modelo de este trabajo puede generar iluminación basándose únicamente en la imagen de fondo sin depender del mapeado del entorno. Además, el modelo admite distintos modelos de base, como SD1.5, SDXL y Flux, cuya funcionalidad se demuestra en los resultados generados.

ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

 

evaluación cuantitativa

Para la evaluación cuantitativa, los investigadores utilizaron métricas como la relación señal-ruido máxima (PSNR), el índice de similitud estructural (SSIM) y el aprendizaje de la percepción de la similitud de parches de imagen (LPIPS). Para la evaluación, se extrajo del conjunto de datos un subconjunto de 50.000 muestras de datos renderizados en 3D que no se habían visto, con el fin de garantizar que el modelo no las había encontrado durante el entrenamiento.

Los métodos probados fueron SwitchLight, DiLightNet y variantes de los métodos de este documento que no incluyen determinados componentes (por ejemplo, sin coherencia de transporte óptico, sin datos de mejora, sin datos 3D y sin datos de escenario de iluminación).

Como se muestra en la Tabla 1, el método de este trabajo supera a los demás métodos en lo que respecta a LPIPS, lo que indica una calidad perceptiva superior. La PSNR más alta se obtuvo para el modelo entrenado sólo con datos 3D, lo que puede deberse al sesgo en la evaluación de los datos renderizados (ya que en esta prueba sólo se utilizaron datos renderizados en 3D). El método completo que combina múltiples fuentes de datos logra un equilibrio entre calidad perceptiva y rendimiento.

ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

 

comparación visual

Los investigadores también realizaron una comparación visual con métodos anteriores. Como se muestra en la figura 6, el modelo de este trabajo es más robusto a las sombras gracias al conjunto de datos de entrenamiento más amplio y diverso en comparación con Relightful Harmonisation.SwitchLight y el modelo de este trabajo producen resultados de reiluminación competitivos. La calidad del mapeado normal es algo más detallada en este enfoque, gracias al método de fusión y derivación de sombras a partir de múltiples representaciones. Además, el modelo produce mapas de normales humanas de mayor calidad en comparación con GeoWizard y DSINE.

ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux

Encontrará más detalles del estudio en el artículo original.

 

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...