Quatro notas 10! Uma visão rara de se ver, mas como não ser considerada uma presença bastante bombástica no ICLR, onde a pontuação média é de apenas 4,76?
O artigo que conquistou os revisores foi o IC-Light, um novo trabalho do autor do ControlNet, Lumin Zhang, e é raro ver um artigo que consiga que quatro revisores deem um alto grau de concordância em "Classificação: 10: forte aceitação, deve ser destacado na conferência".
O IC-Light teve seu código aberto no Github por meio ano antes de ser enviado ao ICLR e ganhou 5,8 mil estrelas, o que mostra sua qualidade.
A versão inicial foi implementada com base no SD 1.5 e no SDXL e, há poucos dias, a equipe lançou uma versão V2, adaptada ao Flux e com resultados ainda melhores.
Para os interessados, basta experimentar.
- Projeto do Github: https://github.com/lllyasviel/IC-Light?tab=readme-ov-file
- Versão V2: https://github.com/lllyasviel/IC-Light/discussions/98
- Link do teste: https://huggingface.co/spaces/lllyasviel/IC-Light
IC-Light É um modelo de edição de iluminação baseado no modelo de difusão, que permite o controle preciso do efeito de iluminação de uma imagem por meio de texto.
Em outras palavras, os efeitos de luz e sombra que só podem ser feitos abrindo máscaras, canais alfa e depurando a separação de claro e escuro no PS, tornam-se "uma questão de mover os lábios" com o IC-Light.
Digite o prompt para obter a luz que entra pela janela, para que você possa ver a luz do sol através da janela chuvosa e a luz suave do contorno na lateral do rosto da figura.
O IC-Light não apenas reproduz com precisão a direção da luz, mas também reproduz com precisão o efeito difuso da luz através do vidro.
O IC-Light funciona igualmente bem com fontes de luz artificial, como sinais de neon.
Com base na palavra-chave, a cena original na sala de aula explode imediatamente no estilo cyberpunk: as cores vermelha e azul das luzes de neon atingem os personagens, criando uma sensação de tecnologia e futurismo exclusiva das cidades noturnas.
O modelo não apenas reproduz com precisão o efeito de penetração de cor do neon, mas também mantém a consistência da figura.
O IC-Light também suporta o upload de uma imagem de fundo para alterar a iluminação da imagem original.
Quando se trata da ControlNet, não devemos desconhecê-la, pois ela resolveu um dos problemas mais difíceis no mundo da pintura com IA.
Projeto do Github: https://github.com/lllyasviel/ControlNet
Anteriormente, a maior dor de cabeça da Stable Diffusion era a incapacidade de controlar com precisão os detalhes da imagem. Quer se tratasse de composição, movimento, características faciais ou relações espaciais, mesmo que as palavras-chave tivessem sido especificadas em detalhes, os resultados gerados pelo SD ainda precisavam aderir às ideias exclusivas da IA.
Mas o advento da ControlNet foi como colocar um "volante" no SD, e muitos fluxos de trabalho comercializados foram criados como resultado.
Os aplicativos acadêmicos floresceram, e a ControlNet ganhou o Prêmio Marr (Prêmio de Melhor Artigo) no ICCV 2023.
Embora muitos especialistas do setor digam que um avanço real está cada vez mais difícil no campo da geração de imagens enroladas. Mas Zhang Lumin sempre parece ser capaz de encontrar outro caminho e, toda vez que ele ataca, atende com precisão às necessidades do usuário. Desta vez, não é exceção.
No mundo real, a luz e o material na superfície de um objeto estão intimamente relacionados. Quando você vê um objeto, por exemplo, é difícil dizer se é a luz ou o material que faz com que o objeto apareça como o vemos. Portanto, também é difícil permitir que a IA edite a luz sem alterar o material do próprio objeto.
Pesquisas anteriores tentaram resolver esse problema criando conjuntos de dados específicos, mas com pouco sucesso. Os autores do IC-Light descobriram que o uso de dados gerados sinteticamente por IA com algum processamento manual pode alcançar bons resultados. Essa descoberta é instrutiva para todo o campo de pesquisa.
Quando o ICLR 2025 acabou de ser lançado, o IC-Light foi o artigo com a maior pontuação, com "10-10-8-8". Os revisores também foram muito elogiosos em seus comentários:
"Este é um exemplo de um trabalho maravilhoso!"
"Acho que a metodologia proposta e as ferramentas resultantes serão imediatamente úteis para muitos usuários!"
No final da refutação, foram acrescentadas algumas referências e experimentos. Os dois revisores que deram nota 8 ficaram felizes em alterá-la para uma pontuação perfeita.
Vamos dar uma olhada no que exatamente está escrito no ensaio completo.Detalhes da pesquisa
- Título da tese: Dimensionamento de treinamento in-the-Wild para harmonização e edição de iluminação com base em difusão impondo um transporte de luz consistente
- Link para o artigo: https://openreview.net/pdf?id=u1cQYxRI1H
Neste artigo, os pesquisadores propõem um método para impor a transmissão de luz consistente (IC-Light) durante o treinamento com base na física da independência da transmissão de luz, que se baseia na mistura linear da aparência de um objeto sob diferentes condições de luz e na aparência consistente sob luz mista.
Conforme mostrado na Figura 2, o pesquisador modelou distribuições de efeitos de iluminação usando uma variedade de fontes de dados disponíveis: imagens arbitrárias, dados 3D e imagens de palco de luz. Essas distribuições podem capturar uma variedade de cenários de iluminação complexos no mundo real, iluminação de fundo, iluminação de borda, brilho e assim por diante. Para simplificar, todos os dados são processados aqui em um formato comum.
No entanto, o aprendizado de dados em grande escala, complexos e com ruído é um desafio. Sem a regularização e as restrições adequadas, o modelo pode facilmente degenerar em um comportamento aleatório que não corresponde à edição de luz esperada. A solução dada pelos pesquisadores é implantar a transmissão de luz consistente (IC-Light) durante o treinamento.
Ao impor essa consistência, os pesquisadores introduzem uma restrição robusta, com base física, que garante que o modelo modifique apenas os aspectos de iluminação da imagem, preservando outras propriedades intrínsecas, como albedo e detalhes finos da imagem. O método pode ser treinado de forma estável e em escala em mais de 10 milhões de amostras diferentes, incluindo fotografias reais de estágios de luz, imagens renderizadas e imagens de campo com aprimoramentos de luz sintética. O método proposto neste artigo melhora a precisão da edição de luz, reduz a incerteza e reduz os artefatos sem alterar os detalhes da aparência subjacente.
De modo geral, as contribuições desta tese consistem principalmente em:
(1) IC-Light, um método para estender o treinamento de modelos de edição de luz baseados em difusão, impondo uma transmissão de luz consistente, é proposto para garantir modificações precisas da luz e, ao mesmo tempo, preservar os detalhes intrínsecos da imagem;
(2) Modelos de edição de fotos pré-treinados são fornecidos para facilitar os aplicativos de edição de fotos em diferentes domínios de criação e processamento de conteúdo;
(3) A escalabilidade e o desempenho desse método são verificados por meio de experimentos abrangentes, mostrando como ele difere de outros métodos ao lidar com várias condições de iluminação;
(4) Outras aplicações, como a geração de mapeamento normal e o processamento de iluminação artística, são apresentadas, demonstrando ainda mais a versatilidade e a robustez do método em cenas práticas do mundo real.
Resultados
Nos experimentos, os pesquisadores verificaram que o aumento do tamanho do treinamento e a diversificação das fontes de dados podem aumentar a robustez do modelo e melhorar o desempenho de várias tarefas downstream relacionadas à luz.
Os experimentos de ablação demonstraram que a aplicação do método IC-Light durante o treinamento melhora a precisão da edição de luz, preservando assim as propriedades intrínsecas, como albedo e detalhes da imagem.
Além disso, o método deste artigo é aplicável a uma variedade maior de distribuições de luz, como iluminação de borda, luz de fundo, brilho mágico, brilho do pôr do sol etc., do que outros modelos treinados em conjuntos de dados menores ou mais estruturados.
Os pesquisadores também demonstram a capacidade do método de lidar com uma variedade maior de cenários de iluminação de campo, incluindo iluminação artística e efeitos de iluminação sintética. Outros aplicativos, como a geração de mapas normais, também são explorados, e as diferenças entre essa abordagem e os modelos de estimativa geométrica convencionais são discutidas.
experimento de ablação
Os pesquisadores primeiro restauraram o modelo no treinamento, mas removeram os dados de aprimoramento da imagem de campo. Conforme mostrado na Figura 4, a remoção dos dados de campo afetou gravemente a capacidade de generalização do modelo, especialmente para imagens complexas, como retratos. Por exemplo, os chapéus em retratos que não estavam presentes nos dados de treinamento eram frequentemente renderizados em cores incorretas (por exemplo, mudando de amarelo para preto).
Os pesquisadores também tentaram remover a consistência da transmissão de luz. Sem essa restrição, a capacidade do modelo de gerar luz consistente e reter propriedades intrínsecas, como o albedo (cor refletida), foi significativamente reduzida. Por exemplo, as diferenças de vermelho e azul em algumas imagens desapareceram, e os problemas com a saturação de cores ficaram evidentes no resultado.
Em vez disso, a abordagem completa combina várias fontes de dados e aprimora a consistência da transmissão óptica, produzindo um modelo de equilíbrio que pode ser generalizado em uma ampla gama de situações. Ela também preserva propriedades inerentes, como detalhes de imagem de granulação fina e albedo, além de reduzir os erros na imagem de saída.
Outros aplicativos
Conforme mostrado na Fig. 5, os pesquisadores também demonstram outras aplicações, como a coordenação de luz usando condições de fundo. Ao treinar em canais adicionais da condição do plano de fundo, o modelo deste artigo pode gerar iluminação com base apenas na imagem do plano de fundo sem depender do mapeamento do ambiente. Além disso, o modelo suporta diferentes modelos básicos, como SD1.5, SDXL e Flux, cuja funcionalidade é demonstrada nos resultados gerados.
avaliação quantitativa
Para a avaliação quantitativa, os pesquisadores usaram métricas como Peak Signal-to-Noise Ratio (PSNR), Structural Similarity Index (SSIM) e Learning to Perceive Image Patch Similarity (LPIPS). E um subconjunto de 50.000 amostras de dados renderizados em 3D não vistos foi extraído do conjunto de dados para avaliação, a fim de garantir que o modelo não os tivesse encontrado durante o treinamento.
Os métodos testados foram o SwitchLight, o DiLightNet e as variantes dos métodos deste documento que não incluem determinados componentes (por exemplo, nenhuma consistência de transporte óptico, nenhum dado de aprimoramento, nenhum dado 3D e nenhum dado de estágio de iluminação).
Conforme mostrado na Tabela 1, o método deste trabalho supera os outros métodos no que diz respeito ao LPIPS, indicando uma qualidade perceptual superior. O PSNR mais alto foi obtido para o modelo treinado somente em dados 3D, o que pode ser devido ao viés na avaliação dos dados renderizados (já que somente dados renderizados em 3D foram usados nesse teste). O método completo que combina várias fontes de dados atinge um equilíbrio entre a qualidade perceptiva e o desempenho.
comparação visual
Os pesquisadores também fizeram uma comparação visual com os métodos anteriores. Conforme mostrado na Figura 6, o modelo deste artigo é mais robusto em relação ao sombreamento devido ao conjunto de dados de treinamento maior e mais diversificado em comparação com o Relightful Harmonisation.SwitchLight e o modelo deste artigo produzem resultados competitivos de reacendimento. A qualidade do mapeamento normal é um pouco mais detalhada nessa abordagem, graças ao método de mesclar e derivar sombras de várias representações. Além disso, o modelo produz mapas normais humanos de maior qualidade em comparação com o GeoWizard e o DSINE.
Mais detalhes sobre o estudo podem ser encontrados no artigo original.