ICLR 놀랍게도 [10,10,10,10,10] 전체 악보 논문, 컨트롤넷 저자의 신작 - IC-Light V2의 플럭스 적응기
10점대 4개! 보기 드문 광경이지만, 평균 점수가 4.76점에 불과한 ICLR에 올려놓으면 어떻게 꽤나 폭탄 같은 존재감으로 여겨지지 않을 수 있을까요?
![ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux](https://aisharenet.com/wp-content/uploads/2024/12/8989dba3bb6d866.png)
리뷰어들의 마음을 사로잡은 논문은 컨트롤넷의 저자 루민 장의 신작인 IC-Light로, 4명의 리뷰어로부터 "평점: 10: 강한 수용, 학회에서 강조해야 한다"는 높은 수준의 동의를 얻은 논문은 보기 드문 경우입니다.
IC-Light는 ICLR에 제출되기 반년 전부터 깃허브에서 오픈소스화되어 5.8천 개의 별을 획득하며 그 우수성을 입증했습니다.
![ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux](https://aisharenet.com/wp-content/uploads/2024/12/4c3e253c8ca4cba.png)
초기 버전은 SD 1.5와 SDXL을 기반으로 구현되었으며, 며칠 전 팀은 Flux에 맞게 조정되어 더 나은 결과를 제공하는 V2 버전을 출시했습니다.
관심이 있으신 분은 직접 사용해 보세요.
- 깃허브 프로젝트: https://github.com/lllyasviel/IC-Light?tab=readme-ov-file
- V2 버전: https://github.com/lllyasviel/IC-Light/discussions/98
- 평가판 링크: https://huggingface.co/spaces/lllyasviel/IC-Light
IC-Light 확산 모델을 기반으로 하는 조명 편집 모델로, 텍스트를 통해 이미지의 조명 효과를 정밀하게 제어할 수 있습니다.
![ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux](https://aisharenet.com/wp-content/uploads/2024/12/48466cd29c63f82.jpg)
즉, PS에서 마스크, 알파 채널을 열고 명암 분리를 디버깅해야만 할 수 있는 빛과 그림자 효과를 IC-Light를 사용하면 "입술만 움직이면" 할 수 있게 됩니다.
창문을 통해 빛이 들어오도록 프롬프트를 입력하여 비오는 창문을 통해 들어오는 햇빛과 인물 얼굴 측면의 부드러운 윤곽 조명을 볼 수 있도록 합니다.
![ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux](https://aisharenet.com/wp-content/uploads/2024/12/03a622e9930bc1f.jpg)
IC-Light는 빛의 방향을 정확하게 재현할 뿐만 아니라 유리를 통한 빛의 확산 효과도 정확하게 렌더링합니다.
IC-Light는 네온사인과 같은 인공 광원에서도 똑같이 잘 작동합니다.
큐 워드에 따라 교실의 원래 장면은 곧바로 사이버 펑크 스타일로 바뀌고, 빨간색과 파란색의 네온 불빛이 캐릭터에 부딪히며 심야 도시 특유의 기술력과 미래적인 느낌을 자아냅니다.
![ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux](https://aisharenet.com/wp-content/uploads/2024/12/87b905ffff32707.jpg)
이 모델은 네온의 색상 투과 효과를 정확하게 재현할 뿐만 아니라 그림의 일관성을 유지합니다.
IC-Light는 배경 이미지를 업로드하여 원본 이미지의 조명을 변경하는 기능도 지원합니다.
![ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux](https://aisharenet.com/wp-content/uploads/2024/12/9def520176fca58.png)
컨트롤넷은 AI 페인팅 분야에서 가장 어려운 문제 중 하나를 해결했기 때문에 우리에게 낯설지 않은 기술입니다.
![ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux](https://aisharenet.com/wp-content/uploads/2024/12/bbcd67180a017b5.jpg)
깃허브 프로젝트: https://github.com/lllyasviel/ControlNet
이전에는 이미지 디테일을 정밀하게 제어할 수 없다는 점이 안정적 확산의 가장 큰 골칫거리였습니다. 구도, 움직임, 얼굴 특징, 공간 관계 등 큐워드가 매우 세밀하게 지정되어 있어도 SD가 생성한 결과는 여전히 AI의 고유한 아이디어를 따라야 했습니다.
하지만 컨트롤넷의 등장은 SD에 '스티어링 휠'을 장착한 것과 같았고, 그 결과 많은 상용화된 워크플로우가 탄생했습니다.
학술적 응용이 꽃을 피우며 ControlNet은 ICCV 2023에서 마르상(최우수 논문상)을 수상했습니다.
![ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux](https://aisharenet.com/wp-content/uploads/2024/12/8d79c3f201e6ece.jpg)
많은 업계 관계자들은 롤업 사진 생성 분야에서 진정한 돌파구가 점점 더 어려워지고 있다고 말합니다. 하지만 장 루민은 항상 다른 방법을 찾을 수 있는 것 같고, 매번 사용자의 요구를 정확하게 맞추고 있습니다. 이번에도 예외는 아닙니다.
현실 세계에서 빛과 물체 표면의 재질은 밀접한 관련이 있습니다. 예를 들어, 물체를 볼 때 우리가 보는 것처럼 보이게 하는 것이 빛인지 아니면 물체의 재질인지 구분하기 어렵습니다. 따라서 물체의 재질 자체를 변경하지 않고 AI가 빛을 편집하도록 하는 것도 어렵습니다.
이전 연구에서는 특정 데이터 세트를 구성하여 이 문제를 해결하려고 시도했지만 거의 성공하지 못했습니다. IC-Light의 저자들은 인공적으로 생성된 데이터를 일부 수동 처리와 함께 사용하면 좋은 결과를 얻을 수 있다는 사실을 발견했습니다. 이 발견은 연구 분야 전체에 시사하는 바가 큽니다.
ICLR 2025가 막 발표되었을 때 IC-Light는 "10-10-8-8"로 가장 높은 점수를 받은 논문이었습니다. 리뷰어들의 평가도 매우 호평적이었습니다:
"이것은 멋진 논문의 예입니다!"
"제안된 방법론과 그 결과 도구가 많은 사용자에게 즉시 유용할 것이라고 생각합니다!"
![ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux](https://aisharenet.com/wp-content/uploads/2024/12/a7220c2d1978be5.png)
![ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux](https://aisharenet.com/wp-content/uploads/2024/12/2e3a45f17f8ed6e.png)
반박의 마지막에 몇 가지 참고 문헌과 실험이 추가되었습니다. 8점을 준 두 명의 리뷰어는 기꺼이 만점으로 변경했습니다.
![ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux](https://aisharenet.com/wp-content/uploads/2024/12/fd6328ce5447bba.png)
이제 에세이 전문에 정확히 어떤 내용이 담겨 있는지 살펴보겠습니다.연구 세부 정보
- 논문 제목: 확산 기반 조명 조화와 일관된 광원 전송을 통한 편집을 위한 스케일링 인더와일드 교육
- 논문 링크: https://openreview.net/pdf?id=u1cQYxRI1H
이 논문에서 연구진은 서로 다른 빛 조건에서 물체의 외관이 선형적으로 혼합되고 혼합된 빛에서도 일관된 외관을 유지하는 광투과 독립성 물리학을 기반으로 훈련 시 일관된 빛(IC-Light) 투과를 부과하는 방법을 제안합니다.
그림 2에서 볼 수 있듯이 연구진은 임의의 이미지, 3D 데이터, 조명 무대 이미지 등 다양한 데이터 소스를 사용하여 조명 효과의 분포를 모델링했습니다. 이러한 분포는 백라이트, 림라이팅, 글로잉 등 현실 세계의 다양하고 복잡한 조명 시나리오를 캡처할 수 있습니다. 간소화를 위해 모든 데이터는 여기서 공통 형식으로 처리됩니다.
![ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux](https://aisharenet.com/wp-content/uploads/2024/12/120e61bf41390a4.png)
그러나 대규모의 복잡하고 노이즈가 많은 데이터를 학습하는 것은 어려운 일입니다. 적절한 정규화 및 제약 조건이 없으면 모델은 예상되는 조명 편집과 일치하지 않는 임의의 동작으로 쉽게 변질될 수 있습니다. 연구진이 제시한 해결책은 훈련 중에 일관된 빛(IC-Light) 전송을 이식하는 것입니다.
이러한 일관성을 부과함으로써 연구진은 강력한 물리 기반 제약 조건을 도입하여 모델이 이미지의 조명 측면만 수정하고 알베도 및 미세한 이미지 디테일과 같은 다른 고유 속성은 보존하도록 보장합니다. 이 방법은 조명 단계의 실제 사진, 렌더링된 이미지, 합성 조명이 향상된 현장 이미지 등 천만 개 이상의 다양한 샘플을 안정적이고 확장 가능하게 학습할 수 있습니다. 이 논문에서 제안한 방법은 조명 편집의 정확도를 향상시키고 불확실성을 줄이며 기본 외관 디테일을 변경하지 않고도 인공물을 줄입니다.
전반적으로 이 논문의 주요 내용은 다음과 같습니다:
(1) 이미지 고유의 디테일을 보존하면서 정확한 광원 수정을 보장하기 위해 일관된 광 투과를 부과하여 확산 기반 광원 편집 모델의 학습을 확장하는 방법인 IC-Light가 제안되었습니다;
(2) 콘텐츠 제작 및 처리의 다양한 영역에서 사진 편집 애플리케이션을 쉽게 사용할 수 있도록 사전 학습된 사진 편집 모델이 제공됩니다;
(3) 이 방법의 확장성과 성능은 광범위한 실험을 통해 검증되어 다양한 조명 조건에서 다른 방법과 어떻게 다른지 보여줍니다;
(4) 노멀 매핑 생성 및 예술적 조명 처리와 같은 다른 애플리케이션이 소개되어 실제 실제 장면에서 이 방법의 다양성과 견고함을 더욱 잘 보여 줍니다.
결과
연구진은 실험을 통해 학습 규모를 확대하고 데이터 소스를 다양화하면 모델의 견고성을 높이고 다양한 빛 관련 다운스트림 작업의 성능을 향상시킬 수 있음을 확인했습니다.
제거 실험을 통해 훈련 중에 IC-Light 방식을 적용하면 조명 편집의 정확도가 향상되어 알베도 및 이미지 디테일과 같은 고유한 속성을 보존할 수 있다는 것이 입증되었습니다.
또한 이 백서의 방법은 더 작거나 구조화된 데이터 세트에서 학습된 다른 모델보다 가장자리 조명, 백라이트, 매직 글로우, 일몰 글로우 등과 같은 광범위한 광 분포에 적용할 수 있습니다.
또한 연구자들은 이 방법이 예술적 조명과 합성 조명 효과를 포함한 광범위한 현장 조명 시나리오를 처리할 수 있음을 보여줍니다. 노멀 맵 생성과 같은 추가 애플리케이션도 살펴보고, 이 접근 방식과 일반적인 주류 기하학적 추정 모델 간의 차이점에 대해 논의합니다.
절제 실험
연구원들은 먼저 훈련에서 모델을 복원했지만 현장 이미지 향상 데이터는 제거했습니다. 그림 4에서 볼 수 있듯이 필드 데이터를 제거하면 특히 인물 사진과 같은 복잡한 이미지의 경우 모델의 일반화 능력에 심각한 영향을 미쳤습니다. 예를 들어, 훈련 데이터에 없는 인물 사진의 모자가 잘못된 색상(예: 노란색에서 검은색으로 변경)으로 렌더링되는 경우가 많았습니다.
![ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux](https://aisharenet.com/wp-content/uploads/2024/12/9c1ad3fef19857c.png)
연구진은 또한 빛 투과 일관성을 제거하려고 시도했습니다. 이 제한이 없으면 일관된 빛을 생성하고 알베도(반사된 색상)와 같은 고유한 특성을 유지하는 모델의 능력이 현저히 감소했습니다. 예를 들어 일부 이미지에서 빨간색과 파란색의 차이가 사라지고 채도 문제가 출력에서 분명하게 드러났습니다.
대신, 완전한 접근 방식은 여러 데이터 소스를 결합하고 광학 전송의 일관성을 향상시켜 다양한 상황에서 일반화할 수 있는 평형 모델을 생성합니다. 또한 세밀한 이미지 디테일과 알베도와 같은 고유한 속성을 보존하는 동시에 출력 이미지의 오류를 줄입니다.
기타 애플리케이션
그림 5에서 볼 수 있듯이 연구진은 배경 조건을 사용한 조명 조정과 같은 다른 애플리케이션도 시연합니다. 이 백서의 모델은 배경 조건의 추가 채널을 학습함으로써 환경 매핑에 의존하지 않고 배경 이미지만을 기반으로 조명을 생성할 수 있습니다. 또한 이 모델은 생성된 결과에서 그 기능이 입증된 SD1.5, SDXL 및 Flux와 같은 다양한 기본 모델을 지원합니다.
![ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux](https://aisharenet.com/wp-content/uploads/2024/12/e94edfc26e3fc2b.png)
정량적 평가
정량적 평가를 위해 연구진은 피크 신호 대 잡음비(PSNR), 구조적 유사성 지수(SSIM), 이미지 패치 유사성 인식 학습(LPIPS) 등의 메트릭을 사용했습니다. 그리고 데이터 세트에서 보이지 않는 50,000개의 3D 렌더링 데이터 샘플을 추출하여 모델이 훈련 중에 이러한 데이터와 마주치지 않도록 평가했습니다.
테스트한 방법은 SwitchLight, DiLightNet 및 특정 구성 요소(예: 광전송 일관성 없음, 향상 데이터 없음, 3D 데이터 없음, 조명 단계 데이터 없음)를 포함하지 않는 이 백서의 방법의 변형입니다.
표 1에서 볼 수 있듯이 이 백서의 방법은 LPIPS에 관한 한 다른 방법보다 성능이 뛰어나며, 이는 우수한 지각 품질을 나타냅니다. 3D 데이터로만 훈련된 모델에서 가장 높은 PSNR을 얻었는데, 이는 렌더링된 데이터의 평가 편향 때문일 수 있습니다(이 테스트에서는 3D 렌더링 데이터만 사용되었기 때문). 여러 데이터 소스를 결합하는 완전한 방법은 지각 품질과 성능 간의 균형을 맞춥니다.
![ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux](https://aisharenet.com/wp-content/uploads/2024/12/635657ca6ca745f.png)
시각적 비교
연구진은 또한 이전 방법과 시각적으로 비교했습니다. 그림 6에서 볼 수 있듯이, 이 백서의 모델은 Relightful Harmonisation에 비해 더 크고 다양한 훈련 데이터 세트로 인해 음영에 더 강합니다.SwitchLight와 이 백서의 모델은 경쟁력 있는 재조명 결과를 생성합니다. 이 접근 방식에서는 여러 표현에서 그림자를 병합하고 도출하는 방법 덕분에 노멀 매핑의 품질이 다소 더 세밀합니다. 또한 이 모델은 지오위저드 및 DSINE에 비해 더 높은 품질의 휴먼 노멀 맵을 생성합니다.
![ICLR 惊现[10,10,10,10]满分论文,ControlNet作者新作——IC-Light V2适配Flux](https://aisharenet.com/wp-content/uploads/2024/12/68e139549709fc8.png)
연구에 대한 자세한 내용은 원본 논문에서 확인할 수 있습니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...