AIパーソナル・ラーニング
と実践的なガイダンス

ICLR驚きの[10,10,10,10,10]フルスコアペーパー、ControlNet著者の新作 - IC-Light V2のFluxへの適応

10点台が4つ!平均点が4.76点しかないICLRの中で、10点台が4つもあるのは稀有な光景だが、これをかなりの爆買いだと思わないわけがない。


レビュアーを圧倒した論文は、コントロールネットの著者であるルミン・ジャンの新作「IC-Light」で、4人のレビュアーから「評価:10:強く受け入れられる、カンファレンスで強調されるべき」という高い同意を得られる論文は珍しい。

IC-LightはICLRに投稿される半年前からGithubでオープンソース化されており、5.8kスターを獲得している。

初期バージョンはSD 1.5とSDXLに基づいて実装され、つい数日前、チームはFLUXに適応し、さらに優れた結果を持つV2バージョンをリリースした。

興味のある方は、お試しだけでもどうぞ。

  • Githubプロジェクト:https://github.com/lllyasviel/IC-Light?tab=readme-ov-file
  • V2バージョン:https://github.com/lllyasviel/IC-Light/discussions/98
  • トライアルリンク:https://huggingface.co/spaces/lllyasviel/IC-Light

ICライト 拡散モデルに基づいた照明編集モデルで、テキストを通して画像の照明効果を正確にコントロールすることができる。

つまり、PSでマスクやアルファチャンネルを開き、明暗の分離をデバッグすることでしかできない光と影のエフェクトが、IC-Lightでは「唇を動かすだけ」になるのだ。

プロンプトを入力し、窓から差し込む光を得る。そうすれば、雨の窓から差し込む日差しと、人物の顔の横の柔らかい輪郭の光が見える。

IC-Lightは光の方向を正確に再現するだけでなく、ガラス越しの光の拡散効果も正確に表現する。

IC-Lightは、ネオンサインのような人工的な光源でも同様に機能する。

ネオンの赤と青が登場人物を襲い、深夜都市ならではのテクノロジーと未来感を醸し出している。

このモデルは、ネオンの色透過効果を正確に再現しているだけでなく、フィギュアの一貫性も保っている。

IC-Lightは、オリジナル画像のライティングを変更するための背景画像のアップロードもサポートしています。

コントロールネットといえば、AI絵画の世界で最も困難な問題のひとつを解決したのだから、知らない人はいないはずだ。

Githubプロジェクト:https://github.com/lllyasviel/ControlNet

これまで、Stable Diffusionにとって最大の頭痛の種は、画像の細部を正確に制御できないことだった。構図であれ、動きであれ、顔の特徴であれ、空間的な関係であれ、手がかりとなる言葉を細かく指定しても、SDが生成する結果はAI独自の考えに従わなければならなかった。

しかし、コントロールネットの登場は、SDに「ハンドル」をつけたようなもので、その結果、多くの商品化されたワークフローが生まれた。

学術的な応用が花開き、コントロールネットはICCV 2023でマー賞(最優秀論文賞)を受賞した。

多くの業界関係者は、巻き画生成の分野では真のブレークスルーは難しくなっていると言う。しかし、張魯敏はいつも別の方法を見つけることができるようで、そのたびにユーザーのニーズを的確に突いてくる。今回も例外ではない。

現実の世界では、光と物体の表面の素材は密接に関係している。たとえば物体を見たとき、その物体を見たように見せているのが光なのか素材なのか、見分けるのは難しい。だから、物体の素材そのものを変えることなく、AIに光を編集させることも難しい。

これまでの研究では、特定のデータセットを構築することでこの問題を解決しようとしてきたが、ほとんど成功しなかった。IC-Lightの著者たちは、AIによって合成されたデータに手作業による処理を加えることで、良い結果が得られることを発見した。この発見は、研究分野全体にとって有益である。

ICLR2025が発表されたばかりの頃、IC-Lightは「10-10-8-8」で最高得点の論文だった。査読者のコメントも非常に褒めていた:

"これは素晴らしい論文の一例だ!"

"提案された方法論とその結果生まれたツールは、多くのユーザーにとってすぐに役立つと思います!"

反論の最後に、いくつかの参考文献と実験を追加した。8点をつけた2人のレビュアーは、満点に変更して喜んでいた。

ここで、エッセイ全文に書かれていることを具体的に見てみよう。研究内容

  • 論文題目名:一貫した光輸送を課すことで、拡散に基づくイルミネーションの調和と編集のためのスケーリング・イン・ザ・ワイルド・トレーニング
  • 論文へのリンク:https://openreview.net/pdf?id=u1cQYxRI1H

この論文では、異なる光条件下での物体の外観の線形混合と混合光下での一貫した外観に基づく光透過独立性の物理学に基づいて、トレーニング中に一貫した光(IC-Light)透過を課す方法を提案している。

図2に示すように、研究者は、任意の画像、3Dデータ、ライトステージ画像など、利用可能なさまざまなデータソースを用いて照明効果の分布をモデル化した。これらの分布は、現実世界におけるさまざまな複雑な照明シナリオ、バックライト、リムライト、グローイングなどを捉えることができる。簡単のため、すべてのデータは共通のフォーマットで処理されます。

しかし、大規模で複雑なノイズの多いデータを学習することは困難である。適切な正則化と制約がなければ、モデルは簡単に、期待される光の編集と一致しないランダムな挙動に陥ってしまう。研究者が提示した解決策は、トレーニング中に一貫した光(IC-Light)伝送を埋め込むことである。

この一貫性を課すことで、研究者らは、モデルがアルベドや画像の細部などの他の固有特性を保持しながら、画像の照明面のみを変更することを保証する、ロバストで物理ベースの制約を導入している。この方法は、光ステージからの実写真、レンダリング画像、合成光を強調したフィールド画像など、1,000万以上の異なるサンプルに対して安定かつスケーラブルに学習させることができる。本論文で提案する方法は、光編集の精度を向上させ、不確実性を低減し、根本的な外観の詳細を変えることなくアーティファクトを低減する。

全体として、本論文の貢献は主に以下のようなものである:

(1)画像固有のディテールを保持しつつ、正確な光修正を保証するために、一貫した光透過率を課すことによって拡散ベースの光編集モデルの学習を拡張する手法であるIC-Lightを提案する;

(2)コンテンツ作成と処理のさまざまな領域における写真編集アプリケーションを容易にするために、事前に訓練された写真編集モデルが提供される;

(3)この手法の拡張性と性能は、様々な照明条件への対応において他の手法とどのように異なるかを示す、広範な実験を通じて検証される;

(4)法線マッピング生成や芸術的な照明処理などの他の応用例も紹介し、実世界の実用的なシーンにおけるこの手法の汎用性と頑健性をさらに実証する。

 

結果

実験では、トレーニングサイズを拡大し、データソースを多様化することで、モデルのロバスト性が向上し、光に関連するさまざまな下流タスクのパフォーマンスが向上することが検証された。

アブレーション実験では、トレーニング中にIC-Light法を適用することで、光の編集精度が向上し、アルベドや画像のディテールといった本来の特性が保たれることが実証された。

加えて、本論文の手法は、より小規模な、あるいはより構造化されたデータセットで訓練された他のモデルよりも、エッジ照明、逆光、マジックグロー、サンセットグローなど、より広範囲の光分布に適用可能である。

研究者らはまた、この手法が、芸術的照明や合成照明効果を含む、より広範なフィールド照明シナリオを扱う能力も実証している。法線マップの生成などの追加的な応用も検討され、このアプローチと一般的な主流の幾何学的推定モデルとの違いについても議論されている。

 

アブレーション実験

研究者たちはまず、トレーニングでモデルを復元したが、現場の画像強調データは削除した。図4に示すように、現場データを削除すると、特に肖像画のような複雑な画像の場合、モデルの汎化能力に深刻な影響を与えた。例えば、トレーニングデータには存在しなかった肖像画の帽子は、しばしば間違った色でレンダリングされた(例えば、黄色から黒に変化)。

研究者たちはまた、光の透過率の一貫性を取り除こうとした。この制限がないと、一貫性のある光を生成し、アルベド(反射色)のような固有の特性を保持するモデルの能力が著しく低下した。例えば、いくつかの画像では赤と青の違いが消え、出力では彩度の問題が明らかになった。

その代わりに、この完全なアプローチは、複数のデータソースを組み合わせ、光透過の一貫性を高め、幅広い状況にわたって一般化できる平衡モデルを生成する。また、きめ細かな画像の詳細やアルベドなどの固有の特性を維持しながら、出力画像の誤差を低減します。

 

その他の用途

図5に示すように、研究者らは、背景条件を利用した照明調整など、他の応用例も示している。背景条件の追加チャンネルで学習することにより、本論文のモデルは、環境マッピングに依存することなく、背景画像のみに基づいて照明を生成することができる。さらに、このモデルはSD1.5、SDXL、Fluxなどの異なるベースモデルをサポートしており、その機能は生成された結果で実証されている。

 

定量評価

定量的評価には、PSNR(Peak Signal-to-Noise Ratio)、SSIM(Structural Similarity Index)、LPIPS(Learning to Perceive Image Patch Similarity)といった指標を用いた。また、モデルがトレーニング中に遭遇していないことを確認するため、評価のためにデータセットから50,000の未見の3Dレンダリングデータサンプルのサブセットを抽出した。

テストされた方法は、SwitchLight、DiLightNet、および特定のコンポーネント(例えば、光トランスポート一貫性なし、エンハンスメントデータなし、3Dデータなし、照明ステージデータなし)を含まないこの論文の方法の変形である。

表1に示すように、本論文の手法はLPIPSに関する限り他の手法を上回り、優れた知覚品質を示している。最も高いPSNRは3Dデータのみで学習したモデルで得られたが、これはレンダリングデータの評価に偏りがあるためと考えられる(このテストでは3Dレンダリングデータのみを使用したため)。複数のデータソースを組み合わせた完全な方法は、知覚品質と性能のバランスを取っている。

 

視覚的比較

研究者はまた、従来の方法との視覚的比較も行った。図6に示すように、Relightful Harmonisation.SwitchLightと本論文のモデルを比較すると、より大規模で多様なトレーニングデータセットのおかげで、本論文のモデルは陰影に対してよりロバストであり、競争力のあるリライティング結果が得られる。SwitchLightと本論文のモデルは、競争力のあるリライティング結果を生成します。このアプローチでは、複数の表現から影をマージして導出する方法のおかげで、法線マッピングの品質がいくらか詳細になります。さらに、このモデルは、GeoWizardやDSINEと比較して、より高品質の人間の法線マップを生成します。

研究の詳細は原著論文に掲載されている。

 

無断転載を禁じます:チーフAIシェアリングサークル " ICLR驚きの[10,10,10,10,10]フルスコアペーパー、ControlNet著者の新作 - IC-Light V2のFluxへの適応

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語