ICLR Überraschenderweise [10,10,10,10,10] Volles Notenpapier, ControlNet Neues Werk des Autors - IC-Light V2 Anpassung an Flux

AI-NachrichtenGeschrieben vor 9 Monaten AI-Austauschkreis

13.8K 00

Vier 10er! Ein seltener Anblick, aber wie kann man das nicht als eine ziemlich bombastische Präsenz im ICLR betrachten, wo die Durchschnittsnote nur 4,76 beträgt?

ICLR 惊现[10,10,10,10]满分论文，ControlNet作者新作——IC-Light V2适配Flux

Das Papier, das die Gutachter überzeugt hat, ist IC-Light, ein neues Werk des ControlNet-Autors Lumin Zhang, und es ist selten, dass ein Papier vier Gutachter dazu bringen kann, ein hohes Maß an Übereinstimmung zu geben: "Bewertung: 10: starke Akzeptanz, sollte auf der Konferenz hervorgehoben werden".

IC-Light wurde ein halbes Jahr lang auf Github veröffentlicht, bevor es bei ICLR eingereicht wurde, und hat 5,8k Sterne erhalten, was zeigt, wie gut es ist.

Die erste Version wurde auf der Grundlage von SD 1.5 und SDXL implementiert, und vor wenigen Tagen hat das Team eine V2-Version veröffentlicht, die an Flux angepasst wurde und noch bessere Ergebnisse liefert.

Wer Interesse hat, kann es einfach ausprobieren.

Github-Projekt: https://github.com/lllyasviel/IC-Light?tab=readme-ov-file
V2-Version: https://github.com/lllyasviel/IC-Light/discussions/98
Link zur Testversion: https://huggingface.co/spaces/lllyasviel/IC-Light

IC-Licht Es handelt sich um ein Beleuchtungsbearbeitungsmodell auf der Grundlage des Diffusionsmodells, das eine präzise Steuerung der Beleuchtungswirkung eines Bildes durch Text ermöglicht.

Mit anderen Worten: Licht- und Schatteneffekte, die in PS nur durch das Öffnen von Masken, Alphakanälen und die Fehlersuche bei der Trennung von Hell und Dunkel möglich sind, werden mit IC-Light zu einer "Sache der Lippenbewegung".

Geben Sie die Eingabeaufforderung ein, um das durch das Fenster einfallende Licht zu erhalten, so dass Sie das Sonnenlicht sehen können, das durch das regnerische Fenster einfällt und ein weiches Silhouettenlicht auf der Seite des Gesichts der Figur erzeugt.

IC-Light gibt nicht nur die Richtung des Lichts genau wieder, sondern auch den diffusen Effekt von Licht durch Glas.

IC-Light funktioniert ebenso gut mit künstlichen Lichtquellen wie Neonschildern.

Ausgehend vom Stichwort explodiert die ursprüngliche Szene im Klassenzimmer sofort im Cyberpunk-Stil: Die roten und blauen Farben der Neonlichter treffen auf die Figuren und erzeugen ein technologisches und futuristisches Gefühl, wie es nur in spätabendlichen Städten vorkommt.

Das Modell gibt nicht nur den Farbdurchdringungseffekt von Neon genau wieder, sondern bewahrt auch die Konsistenz der Figur.

IC-Light unterstützt auch das Hochladen eines Hintergrundbildes, um die Beleuchtung des Originalbildes zu ändern.

ControlNet sollte uns nicht fremd sein, denn es hat eines der schwierigsten Probleme in der Welt der KI-Malerei gelöst.

Github-Projekt: https://github.com/lllyasviel/ControlNet

Das größte Problem für Stable Diffusion war bisher die Unfähigkeit, Bilddetails genau zu kontrollieren. Ob es nun um Komposition, Bewegung, Gesichtszüge oder räumliche Beziehungen ging - obwohl die Stichworte sehr detailliert festgelegt waren, mussten sich die von SD generierten Ergebnisse immer noch an die einzigartigen Vorstellungen der KI halten.

Aber die Einführung von ControlNet war wie ein "Lenkrad" für SD, und viele kommerzielle Arbeitsabläufe wurden in der Folge geschaffen.

Akademische Anwendungen blühten auf, und ControlNet gewann den Marr Award (Best Paper Award) auf der ICCV 2023.

Obwohl viele Branchenkenner sagen, dass ein echter Durchbruch im Bereich der Generierung aufgerollter Bilder immer schwieriger wird. Aber Zhang Lumin scheint immer einen anderen Weg zu finden, und jedes Mal, wenn er zuschlägt, trifft er genau die Bedürfnisse der Nutzer. Dieses Mal ist keine Ausnahme.

In der realen Welt sind Licht und das Material auf der Oberfläche eines Objekts eng miteinander verbunden. Wenn man zum Beispiel ein Objekt sieht, ist es schwer zu sagen, ob es das Licht oder das Material ist, das das Objekt so erscheinen lässt, wie wir es sehen. Daher ist es auch schwierig, KI das Licht bearbeiten zu lassen, ohne das Material des Objekts selbst zu verändern.

In früheren Forschungsarbeiten wurde versucht, dieses Problem durch die Erstellung spezieller Datensätze zu lösen, allerdings mit wenig Erfolg. Die Autoren von IC-Light fanden heraus, dass die Verwendung von synthetisch erzeugten KI-Daten mit einer gewissen manuellen Bearbeitung gute Ergebnisse erzielen kann. Diese Erkenntnis ist lehrreich für das gesamte Forschungsgebiet.

Als der ICLR 2025 gerade veröffentlicht wurde, war IC-Light mit "10-10-8-8" das am besten bewertete Papier. Auch die Gutachter waren in ihren Kommentaren sehr lobend:

"Dies ist ein Beispiel für ein wunderbares Papier!"
"Ich denke, dass die vorgeschlagene Methodik und die daraus resultierenden Werkzeuge für viele Nutzer sofort nützlich sein werden!"

Am Ende der Erwiderung wurden einige Referenzen und Experimente hinzugefügt. Die beiden Gutachter, die die Arbeit mit 8 Punkten bewertet hatten, waren froh, sie in eine perfekte Bewertung umzuwandeln.

Werfen wir einen Blick darauf, was genau in dem vollständigen Aufsatz steht.Einzelheiten der Studie ICLR 惊现[10,10,10,10]满分论文，ControlNet作者新作——IC-Light V2适配Flux

Titel der Dissertation: Skalierung des In-the-Wild-Trainings für diffusionsbasierte Beleuchtungsharmonisierung und -bearbeitung durch Erzwingen eines konsistenten Lichttransports
Link zum Papier: https://openreview.net/pdf?id=u1cQYxRI1H

In dieser Arbeit schlagen die Forscher eine Methode vor, um eine konsistente Lichtdurchlässigkeit (IC-Licht) während des Trainings zu erzwingen, die auf der Physik der Unabhängigkeit der Lichtdurchlässigkeit basiert, die auf der linearen Mischung des Aussehens eines Objekts unter verschiedenen Lichtbedingungen und dem konsistenten Aussehen unter Mischlicht beruht.

Wie in Abbildung 2 dargestellt, modellierte der Forscher Verteilungen von Beleuchtungseffekten unter Verwendung einer Vielzahl verfügbarer Datenquellen: beliebige Bilder, 3D-Daten und Lichtbühnenbilder. Diese Verteilungen können eine Vielzahl komplexer Beleuchtungsszenarien in der realen Welt abbilden, z. B. Gegenlicht, Randlicht, Glühen usw. Der Einfachheit halber werden hier alle Daten in einem gemeinsamen Format verarbeitet.

Das Lernen großer, komplexer und verrauschter Daten ist jedoch eine Herausforderung. Ohne geeignete Regularisierung und Einschränkungen kann das Modell leicht zu einem zufälligen Verhalten degenerieren, das nicht mit dem erwarteten Lichtschnitt übereinstimmt. Die von den Forschern vorgeschlagene Lösung besteht darin, beim Training eine konsistente Lichtübertragung (IC-Light) zu implantieren. ICLR 惊现[10,10,10,10]满分论文，ControlNet作者新作——IC-Light V2适配Flux

Durch diese Konsistenz führen die Forscher eine robuste, physikalisch basierte Einschränkung ein, die sicherstellt, dass das Modell nur die Beleuchtungsaspekte des Bildes verändert, während andere intrinsische Eigenschaften wie die Albedo und feine Bilddetails erhalten bleiben. Die Methode kann stabil und skalierbar auf mehr als 10 Millionen verschiedene Muster trainiert werden, darunter echte Fotos von Lichtbühnen, gerenderte Bilder und Feldbilder mit synthetischen Lichtverstärkungen. Die in dieser Arbeit vorgeschlagene Methode verbessert die Genauigkeit der Lichtbearbeitung, verringert die Unsicherheit und reduziert Artefakte, ohne die zugrundeliegenden Erscheinungsdetails zu verändern.

Insgesamt bestehen die Beiträge dieser Arbeit hauptsächlich aus:

(1) IC-Light, eine Methode zur Erweiterung des Trainings von diffusionsbasierten Lichtbearbeitungsmodellen durch Auferlegung einer konsistenten Lichtdurchlässigkeit, wird vorgeschlagen, um genaue Lichtmodifikationen zu gewährleisten und gleichzeitig intrinsische Bilddetails zu erhalten;

(2) Vorgefertigte Bildbearbeitungsmodelle werden bereitgestellt, um Bildbearbeitungsanwendungen in verschiedenen Bereichen der Inhaltserstellung und -verarbeitung zu erleichtern;

(3) Die Skalierbarkeit und Leistungsfähigkeit dieser Methode wird durch umfangreiche Experimente verifiziert, die zeigen, wie sie sich von anderen Methoden im Umgang mit verschiedenen Lichtverhältnissen unterscheidet;

(4) Weitere Anwendungen wie die Erzeugung von Normalen und die Verarbeitung künstlerischer Beleuchtung werden vorgestellt, um die Vielseitigkeit und Robustheit der Methode in realen, praktischen Szenen zu demonstrieren.

Ergebnisse

In den Experimenten konnten die Forscher nachweisen, dass eine Vergrößerung des Trainingsumfangs und eine Diversifizierung der Datenquellen die Robustheit des Modells erhöhen und die Leistung bei verschiedenen lichtbezogenen nachgelagerten Aufgaben verbessern kann.

Ablationsexperimente haben gezeigt, dass die Anwendung der IC-Light-Methode während des Trainings die Genauigkeit der Lichtbearbeitung verbessert, wodurch intrinsische Eigenschaften wie Albedo und Bilddetails erhalten bleiben.

Darüber hinaus ist die hier vorgestellte Methode auf ein breiteres Spektrum von Lichtverteilungen anwendbar, wie z. B. Kantenbeleuchtung, Gegenlicht, magisches Glühen, Sonnenuntergangsglühen usw., als andere Modelle, die auf kleineren oder stärker strukturierten Datensätzen trainiert wurden.

Die Forscher demonstrieren auch die Fähigkeit der Methode, ein breiteres Spektrum von Beleuchtungsszenarien zu bewältigen, einschließlich künstlerischer Beleuchtung und synthetischer Lichteffekte. Zusätzliche Anwendungen wie die Erstellung von Normalkarten werden ebenfalls untersucht, und es werden die Unterschiede zwischen diesem Ansatz und typischen geometrischen Schätzungsmodellen diskutiert.

Abtragsexperiment

Die Forscher stellten das Modell zunächst im Training wieder her, entfernten aber die Daten zur Bildverbesserung. Wie in Abbildung 4 zu sehen ist, beeinträchtigte das Entfernen der Felddaten die Verallgemeinerungsfähigkeit des Modells erheblich, insbesondere bei komplexen Bildern wie Porträts. So wurden z. B. Hüte in Porträts, die in den Trainingsdaten nicht vorhanden waren, oft in falschen Farben wiedergegeben (z. B. von gelb nach schwarz).

Die Forscher versuchten auch, die Konsistenz der Lichtübertragung zu beseitigen. Ohne diese Einschränkung war die Fähigkeit des Modells, konsistentes Licht zu erzeugen und intrinsische Eigenschaften wie die Albedo (reflektierte Farbe) beizubehalten, erheblich eingeschränkt. So verschwanden beispielsweise die Rot- und Blauunterschiede in einigen Bildern, und in der Ausgabe wurden Probleme mit der Farbsättigung deutlich.

Stattdessen kombiniert der vollständige Ansatz mehrere Datenquellen und verbessert die Konsistenz der optischen Übertragung, so dass ein Gleichgewichtsmodell entsteht, das für ein breites Spektrum von Situationen verallgemeinert werden kann. Außerdem werden inhärente Eigenschaften wie die Feinkörnigkeit des Bildes und die Albedo bewahrt und gleichzeitig Fehler im Ausgabebild reduziert.

Andere Anwendungen

Wie in Abb. 5 gezeigt, demonstrieren die Forscher auch andere Anwendungen, wie z. B. die Lichtkoordination anhand von Hintergrundbedingungen. Durch Training auf zusätzlichen Kanälen der Hintergrundbedingungen kann das Modell in dieser Arbeit die Beleuchtung allein auf der Grundlage des Hintergrundbildes generieren, ohne sich auf die Umgebungsabbildung zu verlassen. Darüber hinaus unterstützt das Modell verschiedene Basismodelle wie SD1.5, SDXL und Flux, deren Funktionalität in den generierten Ergebnissen demonstriert wird.

quantitative Bewertung

Zur quantitativen Bewertung verwendeten die Forscher Metriken wie Peak Signal-to-Noise Ratio (PSNR), Structural Similarity Index (SSIM) und Learning to Perceive Image Patch Similarity (LPIPS). Außerdem wurde eine Teilmenge von 50.000 ungesehenen gerenderten 3D-Daten aus dem Datensatz für die Bewertung extrahiert, um sicherzustellen, dass das Modell während des Trainings nicht auf sie gestoßen war.

Die getesteten Methoden waren SwitchLight, DiLightNet und Varianten der Methoden in dieser Arbeit, die bestimmte Komponenten nicht enthalten (z. B. keine optische Transportkonsistenz, keine Anreicherungsdaten, keine 3D-Daten und keine Lichtstufendaten).

Wie aus Tabelle 1 hervorgeht, übertrifft die hier vorgestellte Methode die anderen Methoden in Bezug auf LPIPS, was auf eine bessere Wahrnehmungsqualität hinweist. Der höchste PSNR-Wert wurde für das Modell erzielt, das nur auf 3D-Daten trainiert wurde, was auf die Verzerrung bei der Bewertung der gerenderten Daten zurückzuführen sein könnte (da in diesem Test nur gerenderte 3D-Daten verwendet wurden). Die vollständige Methode, die mehrere Datenquellen kombiniert, bietet ein ausgewogenes Verhältnis zwischen Wahrnehmungsqualität und Leistung.

visueller Vergleich

Die Forscher haben auch einen visuellen Vergleich mit früheren Methoden durchgeführt. Wie in Abbildung 6 zu sehen ist, ist das Modell in dieser Arbeit aufgrund des größeren und vielfältigeren Trainingsdatensatzes im Vergleich zu Relightful Harmonisation robuster gegenüber Schattierungen. Die Qualität der Normalenabbildung ist bei diesem Ansatz etwas detaillierter, was auf die Methode der Zusammenführung und Ableitung von Schatten aus mehreren Darstellungen zurückzuführen ist. Darüber hinaus erzeugt das Modell im Vergleich zu GeoWizard und DSINE qualitativ hochwertigere menschliche Normalkarten.

Weitere Einzelheiten der Studie sind in der Originalarbeit zu finden.