엔비디아 오픈 소스 빈센느 그래프 모델 SANA: 4K 이미지에서 바로 로컬 배포 가능

42.4K 00

최근 엔비디아는 매사추세츠 공과대학 및 칭화대학교와 함께 최대 4096 × 4096 해상도의 이미지를 효율적으로 생성할 수 있을 뿐만 아니라 생성 속도도 매우 빠른 오픈 소스 이미지 생성 모델인 SANA를 출시했습니다.

SANA의 성능

SANA는 '빠르다'라는 단어가 특징입니다. SANA-0.6B는 1024×1024 해상도 이미지를 생성하는 데 1초도 걸리지 않아 Flux-Dev보다 25배 빠르며, 4096×4096 해상도 이미지 생성은 Flux-Dev보다 106배 빠릅니다.

생성 품질 측면에서 SANA는 DPG-Bench 테스트 벤치마크에서 Flux와 동등한 점수를 받았으며, GenEval 메트릭에서는 Flux 모델보다 약간 낮은 점수를 받았습니다.

SANA의 핵심 설계

SANA의 성공은 네 가지 핵심 설계 덕분입니다:

1. 딥 압축 자동 인코더(DC-AE)

기존 자동 인코더(AE)는 일반적으로 이미지를 8배로 압축하지만, SANA는 압축 계수를 32로 높이는 딥 압축 자동 인코더를 도입했습니다. 이 설계는 잠재적인 마커의 수를 대폭 줄여 SANA가 초고해상도 이미지(예: 4K 해상도)를 효율적으로 생성하는 동시에 학습 및 생성에 필요한 계산 비용을 크게 절감할 수 있게 해줍니다.

2. 선형 DIT(확산 이미지 트랜스포머)

SANA는 기존의 이차적 주의 메커니즘 대신 새로운 선형 주의 메커니즘을 채택하여 복잡성을 O(N²)에서 O(N)으로 줄였습니다. 이러한 개선으로 고해상도 이미지 생성의 효율성이 높아질 뿐만 아니라 위치 코딩이 필요 없어져 위치 임베딩이 필요 없는 최초의 DIT 모델이 되었습니다.

3. 텍스트 인코더로서의 소형 디코더 전용 LLM

SANA는 Gemma 2와 같은 소형 디코더 전용 언어 모델을 텍스트 인코더로 사용하여 기존의 CLIP 또는 T5 모델을 대체하며, Gemma는 뛰어난 텍스트 이해 및 명령어 준수 기능을 갖추고 있어 정교한 수동 명령어 설계와 결합하여 이미지와 텍스트의 정렬을 크게 개선합니다.

4. 효율적인 교육 및 추론 전략

SANA는 여러 VLM(시각 언어 모델)으로 다양한 리캡션을 생성하고 CLIPScore를 기반으로 고품질 캡션을 선택하는 자동 라벨링 및 학습 전략을 제안하여 모델 융합을 가속화하고 텍스트와 이미지의 정렬을 향상시킵니다. 또한 SANA는 추론 단계를 대폭 줄이고 생성 효율을 더욱 향상시키는 Flow-DPM-Solver를 도입했습니다.

저비용 배포 및 오픈 소스

SANA의 또 다른 장점은 저렴한 구축 비용입니다. SANA-0.6B는 16GB 노트북 GPU에서 실행되어 1024×1024 해상도 이미지를 1초 이내에 생성할 수 있으며, 22GB의 비디오 메모리는 4096×4096 해상도 이미지를 바로잡을 수 있어 하이엔드 컴퓨팅 장치에 적합할 뿐만 아니라 일반 사용자의 노트북에서도 효율적으로 실행할 수 있습니다. 또한 NVIDIA는 SANA의 코드와 모델을 공개하여 텍스트-이미지 생성 기술의 대중화와 적용을 더욱 촉진할 것이라고 발표했습니다.

활용

NVIDIA는 누구나 무료로 사용해 볼 수 있는 8개의 3090 웹 사용 인터페이스를 구축했습니다. SANA 모델은 중국어 프롬프트 단어와 함께 직접 사용할 수 있다는 점을 언급할 가치가 있습니다.

아이콘 기호가 있는 큐 워드 사용도 가능하므로 텍스트 인코더로 Gemma2 2B 시각 언어 모델을 사용하면 이점을 누릴 수 있습니다.

ComfyUI_ExtraModels 플러그인을 사용하면 기본 Comfyui에서 SANA 모델을 매우 쉽게 사용할 수 있습니다. 플러그인 설치는 매우 간단하며 자체 종속성을 구성할 필요가 없으며 설치 후 실행하면 필요한 모델 파일이 자동으로 다운로드됩니다.

딥 압축 자동 인코더, 선형 DIT, 디코더 전용 소형 LLM, 효율적인 학습 및 추론 전략을 갖춘 SANA는 초고해상도 이미지를 효율적으로 생성할 수 있을 뿐만 아니라 강력한 텍스트-이미지 정렬 기능과 저비용 배포 이점도 갖추고 있습니다. 이미지를 빠르게 생성해야 하는 사람들에게는 SANA가 여전히 좋은데, 즉 생태학적인 측면에서 Flux와 비교할 수 없습니다.

프로젝트 페이지:

github.com/NVlabs/Sana

웹 사용:

nv-sana.mit.edu

컴피유 플러그인:

github.com/Efficient-Large-Model/ComfyUI_ExtraModels