드림옴니2 - HKUST 오픈 소스 멀티모달 AI 이미지 편집 및 생성 모델

34.5K 00

드림옴니2란?

드림옴니2는 HKUST의 Jiajia 팀이 개발한 오픈 소스 멀티모달 AI 이미지 편집 및 생성 모델입니다. 텍스트와 이미지 명령을 동시에 처리하고 여러 참조 이미지를 지원할 수 있어 크리에이터에게 보다 유연한 제작 방법을 제공합니다. 생성/편집 모델과 시각 언어 모델을 공동으로 학습하는 3단계 데이터 합성 프로세스를 통해 모델을 학습하여 이미지 피사체의 정체성을 효과적으로 유지하며, 드림옴니2는 다중 모드 명령 편집 및 생성 작업에서 기존 오픈 소스 모델보다 성능이 뛰어나고 일부 측면에서는 상용 모델과 비교하거나 능가하는 성능을 발휘합니다. 제품 사진, 디자인 워크플로우, 인물 사진 편집, 창의적인 페인팅 등 다양한 시나리오에서 사용할 수 있습니다.

드림옴니2의 특징

멀티모달 명령어 처리텍스트 및 이미지 명령을 지원하여 구체적인 개체와 재질, 질감, 스타일 등과 같은 추상적인 개념으로 작업할 수 있어 크리에이터에게 더욱 풍부한 표현 방법을 제공합니다.
다중 참조 차트 기능여러 개의 참조 이미지를 결합하여 편집 및 생성할 수 있는 기능을 통해 크리에이터는 복잡하고 다양한 창작 요구를 유연하게 충족할 수 있습니다.
데이터 합성 및 교육특징 혼합 방법, 편집 및 추출 모델을 포함한 3단계 데이터 합성 프로세스를 사용하여 학습 데이터를 생성하고, 여러 이미지 입력에서 픽셀 혼동을 방지하고 모델의 학습 효과와 생성 품질을 향상시키기 위해 인덱스 코딩 및 위치 코딩 오프셋 체계도 설계했습니다.
공동 교육생성/편집 모델을 시각 언어 모델(VLM)과 공동 학습시켜 복잡한 명령을 더 잘 처리하도록 하면 모델이 사용자의 멀티모달 명령을 더 정확하게 이해하고 실행할 수 있습니다.
ID 일관성 유지편집 과정에서 이미지 피사체의 식별 특성을 효과적으로 유지하여 편집된 이미지와 원본 피사체 간의 일관성을 보장하고 편집으로 인한 피사체의 특성 손실이나 혼동을 방지할 수 있습니다.
성능 이점멀티모달 명령 편집 및 생성 작업에서 드림옴니2는 기존 SOTA 오픈소스 모델을 크게 능가하며 일부 측면에서는 상용 모델과 비슷하거나 능가하여 사용자에게 고품질의 이미지 편집 및 생성 결과를 제공합니다.
오픈 소스 및 사용 편의성코드, 모델 가중치, 학습 데이터 세트는 GitHub와 Hugging Face에서 무료로 제공되며, 로컬 실행을 지원하여 사용자가 충분한 비디오 메모리를 갖춘 CUDA 호환 GPU에서 로컬 추론을 수행할 수 있어 사용의 문턱을 낮추고 모델의 접근성을 개선합니다.

드림옴니2의 핵심 이점

멀티모달 교육 이해텍스트와 이미지 명령을 모두 처리하고, 재질, 질감, 스타일 및 기타 추상적인 개념의 수정과 같은 복잡한 편집 작업을 정확하게 이해하고 수행할 수 있는 능력입니다.
다중 참조 차트 지원여러 참조 이미지와 결합하여 편집 및 생성할 수 있어 크리에이터가 다양한 창작 요구를 충족할 수 있는 유연성을 제공합니다.
ID 일관성 유지편집 과정에서 이미지 피사체의 식별 특성을 효과적으로 유지하여 편집된 이미지가 원본 피사체와 높은 일관성을 유지하고 피사체의 특성이 손실되거나 혼동되는 것을 방지합니다.
공동 교육 메커니즘생성/편집 모델과 시각 언어 모델의 공동 학습은 복잡한 명령의 이해와 실행을 개선하고 사용자의 의도에 더 잘 부합하는 이미지를 생성합니다.
뛰어난 성능멀티모달 명령 편집 및 생성 작업에서 현재 오픈 소스 모델을 크게 능가하며, 어떤 면에서는 상용 모델을 능가하여 고품질의 이미지 편집 및 생성 결과를 제공합니다.