DeepSeek, 통합 멀티모달 이해 및 생성 모델 출시: 야누스플로우에서 야누스-프로까지

AI 뉴스6개월 전 업데이트 AI 공유 서클
1.9K 00

야누스플로우 속도 읽기

DeepSeek 팀은 28일 새벽에 멀티모달 이해와 생성 작업을 동시에 처리할 수 있는 통합 모델인 혁신적인 멀티모달 프레임워크인 야누스-프로를 출시하며 또 다른 새로운 모델을 출시했습니다. DeepSeek-LLM-1.5b 기반/DeepSeek-LLM-7b 기반에 구축된 이 모델은 384 x 384 이미지 입력을 지원하며 이미지 생성에 특정 토큰라이저를 사용합니다. 가장 중요한 기능은 시각적 인코딩을 별도의 채널로 분할하는 동시에 하나의 변압기 아키텍처로 처리합니다.

이 혁신적인 디자인은 비주얼 인코더에서 기존 모델의 역할이 상충되는 문제를 해결할 뿐만 아니라 전체 시스템을 더욱 유연하게 만들어 줍니다. 실제로 야누스 프로는 이전의 통합 모델보다 성능이 뛰어나며 일부 작업에서는 전용 작업 기반 모델과도 경쟁합니다. GenEval 및 DPG-Bench 벤치마크에서 OpenAI의 DALL-E 3 및 Stable Diffusion을 능가했습니다.

 

야누스 모델 제품군은 야누스플로우를 구축하는 것을 목표로멀티모달 이해 및 생성을 위한 통합 프레임워크핵심 아이디어는 자동 회귀 언어 모델(LLM)과 정류된 흐름 생성 모델을 결합하는 것입니다. 핵심 아이디어는 자동 회귀 언어 모델(LLM)과 정류된 흐름 생성 모델을 결합하여 단일 모델 내에서 뛰어난 시각적 이해와 고품질 이미지 생성 기능을 모두 달성하는 것입니다.야누스 프로 야누스의 고급 버전인 야누스 모델은 학습 전략, 데이터 크기, 모델 차원을 포괄적으로 최적화하여 성능을 더욱 향상시켰으며 여러 벤치마크 테스트에서 상당한 성과를 거두었습니다. 이 백서에서는 기능, 매개변수 특성, 주요 개선 사항에 초점을 맞춰 야누스 모델이 야누스플로우에서 야누스프로로 진화하는 과정을 체계적으로 살펴봅니다.

 

1. 야누스플로우: 통합 아키텍처의 초석

종이 주소:: https://arxiv.org/pdf/2411.07975

야누스플로우 핵심 혁신은미니멀리스트 통합 아키텍처이 아키텍처는 LLM 구조를 복잡하게 수정할 필요 없이 수정된 흐름 생성 모델을 자동 회귀 LLM 프레임워크에 원활하게 통합합니다. 이 아키텍처의 핵심 기능은 다음과 같습니다:

  • 스트리밍 이미지 생성을 수정했습니다: 야누스플로우에서는 이미지 생성을 위해 가우스 노이즈에서 시작하여 속도 벡터를 반복적으로 예측하여 이미지의 잠재 공간 표현을 업데이트하고, 궁극적으로 디코더를 통해 고품질 이미지를 생성하는 수정된 흐름 모델을 활용합니다. 이 접근 방식은 LLM이 조건부 생성기 역할만 하고 직접 생성 기능이 부족한 기존 방법의 한계를 피합니다.
  • 디커플링된 비주얼 인코더: 통합 모델의 성능을 최적화하기 위해 야누스플로우에서는디커플링 인코더전략에서는 이해 작업과 생성 작업을 각각 처리하기 위해 별도의 비주얼 코더가 사용됩니다:
    • 인코더(펜) 이해하기: 사전 교육 SigLIP-Large-Patch/16 모델은 이미지의 의미적 특징을 추출하여 멀티모달 이해를 향상시키는 역할을 합니다.
    • 인코더(genc) 및 디코더(gdec)를 생성합니다: 스크래치 교육 ConvNeXt 이미지 생성 작업 전용 모듈을 사용하여 생성 품질을 최적화합니다.
  • 표현 정렬 메커니즘: 야누스플로우는 통합 교육 과정에서 다음과 같은 기능을 소개합니다.문자 정렬생성 및 이해 모듈의 중간 표현을 정렬하는 메커니즘을 통해 생성 프로세스의 의미적 일관성과 일관성을 향상시킵니다.
  • 3단계 교육 전략: 야누스플로우에서는 세분화된 3단계 교육 프로그램을 설계했습니다:
    1. 1단계: 무작위 초기화 컴포넌트 적응 - 선형 레이어, 제너레이터 인코더 및 디코더는 후속 학습을 위한 초기화 단계로 사전 학습된 LLM 및 SigLIP 인코더와 함께 작동하도록 학습됩니다.
    2. 2단계: 사전 교육의 조화 - 시각 인코더를 제외한 전체 모델을 학습시키고, 멀티모달 이해, 이미지 생성, 일반 텍스트 데이터를 융합하여 모델의 통합 기능을 초기에 설정합니다.
    3. 3단계: 미세 조정 모니터링 - 명령 미세 조정 데이터는 사용자 명령에 대한 응답을 개선하고 이 단계에서 시그립 인코더의 파라미터를 고정 해제하기 위해 모델을 추가로 학습시키는 데 사용됩니다.

매개변수 특성:

  • 파운데이션 LLM: 1.3억 개의 파라미터를 갖춘 경량 LLM 아키텍처.
  • 비주얼 인코더: SigLIP-Large-Patch/16(이해), ConvNeXt(인코더 및 디코더 생성).
  • 이미지 해상도: 384 × 384 픽셀.

성능: JanusFlow는 텍스트-이미지 생성 및 다중 모드 이해 작업 모두에서 상당한 성능을 달성하여 많은 전문 모델을 능가하고 통합 아키텍처의 효과를 입증했습니다.

 

2. 야누스 프로: 데이터, 모델 및 전략의 완전한 업그레이드

종이 주소:: https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf

야누스 프로 야누스의 개선 버전인 야누스플로우는 세 가지 주요 영역에서 업그레이드되었습니다:

  • 최적화된 교육 전략: 야누스 프로는 야누스플로우의 3단계 교육 전략을 미세 조정하여 교육 효율과 성능 병목 현상을 해결합니다:
    • 1단계: 확장된 ImageNet 데이터 세트 학습 - 이미지넷 데이터 세트의 훈련 단계 수를 늘리면 모델이 픽셀 종속성을 더 완벽하게 학습할 수 있어 이미지 생성의 기본 기능이 향상됩니다.
    • 2단계: 텍스트-이미지 데이터 학습에 집중하기 - 2단계 학습에서는 이미지넷 데이터가 제거되고 일반 텍스트-이미지 데이터 세트가 직접 사용되므로 모델이 밀도가 높은 텍스트 설명을 기반으로 고품질 이미지를 생성하는 방법을 보다 효율적으로 학습할 수 있습니다.
    • 3단계: 데이터 확장 - 감독 미세 조정 단계에서는 멀티모달 이해 데이터, 일반 텍스트 데이터, 텍스트 대 이미지 데이터의 비율을 7:3:10에서 5:1:4로 미세 조정하여 시각 생성 기능을 보장하면서 멀티모달 이해 성능을 더욱 향상시켰습니다.
  • 확장된 학습 데이터: 야누스 프로는 학습 데이터의 크기와 다양성을 획기적으로 확장하여 모델의 일반화 능력과 생성 품질을 향상시킵니다:
    • 데이터에 대한 멀티모달 이해: 2단계 사전 학습 단계에서는 약 9천만 개의 새로운 샘플이 추가되어 더 광범위한 이미지 캡션 데이터(예: YFCC)와 표, 차트, 문서 이해 데이터(예: Docmatix)를 포괄합니다. 3단계 미세 조정에서는 더 많은 샘플이 도입됩니다. DeepSeek-VL2 데이터 세트뿐만 아니라 MEME 이해력, 중국어 대화 데이터 등을 추가하여 모델의 대화 능력과 멀티태스킹 능력을 크게 향상시켰습니다.
    • 시각적으로 생성된 데이터: 야누스 프로는 생성된 이미지의 미적 품질과 안정성을 높이기 위해 약 7200만 개의 고품질 합성 미적 데이터를 도입하고 실제 데이터와 합성 데이터의 비율을 1:1로 조정합니다. 실험 결과 합성 데이터를 추가하면 모델의 수렴이 가속화되고 생성된 이미지의 미적 품질과 안정성이 크게 향상되는 것으로 나타났습니다.
  • 확장된 모델 크기: 야누스-프로는 야누스플로우의 15억 개 파라메트릭 모델을 유지할 뿐만 아니라 더 확장하여 7B 매개변수를 제공하고 야누스 프로 시리즈는 1.5B 및 7B 모델 크기로 제공됩니다.실험 결과는 대규모 LLM이 모델 성능을 크게 개선하고 수렴 속도를 가속화할 수 있음을 보여줍니다. 실험 결과는 대규모 LLM이 모델의 성능을 크게 향상시키고 수렴 속도를 가속화하여 야누스 모델 아키텍처의 확장성을 검증할 수 있음을 보여줍니다.

매개변수 특성:

  • 모델 치수: 1.5B 및 7B 모델 크기로 제공됩니다.
  • 아키텍처: 야누스플로우의 디커플링된 비주얼 코더 아키텍처를 따릅니다.
  • 학습 데이터: 멀티모달 이해 및 시각적 생성을 위해 훈련 데이터를 대폭 확장하고 최적화했습니다.
  • 이미지 해상도: 실험에 사용된 이미지 해상도는 384×384픽셀을 유지했습니다.

성능: 야누스 프로는 모든 벤치마크에서 상당한 성능 향상을 달성함으로써 데이터, 모델 및 전략 업그레이드의 효과를 입증했으며, 특히 멀티모달 이해 벤치마크인 MMBench와 텍스트-이미지 생성 벤치마크인 GenEval 및 DPG-Bench에서 야누스플로우와 다른 고급 통합 및 전문 모델보다 뛰어난 성능을 보였습니다.

 

3.야누스 실제 사용 시나리오

시각적 이해 기능:

  • 이미지 설명/캡션.
    • 상세 장면 설명: 장면 요소, 사물, 환경 분위기 등 이미지 콘텐츠를 기반으로 상세한 텍스트 설명을 생성할 수 있습니다. (예: 서호의 세 웅덩이, 해변 풍경 등 설명). (예: 서호의 세 개의 수영장, 해변 풍경 등 설명)
    • 그래픽 설명: 막대 그래프의 데이터 표현 및 추세 분석과 같은 그래프와 차트의 정보를 이해하고 설명할 수 있습니다. (예: '어린이가 가장 좋아하는 과일' 막대 그래프 해석)
  • 객체 인식/분류.
    • 이미지에 있는 사물의 종류 식별하기: 이미지에 나타나는 사물의 종류를 식별하고 나열할 수 있습니다. (예: 사진에서 과일의 종류 식별하기)
  • 오브젝트 계산.
    • 이미지에 있는 개체 수 정확하게 세기: 이미지에 있는 특정 개체의 수를 정확하게 세는 기능입니다. (예: 이미지에 있는 펭귄의 수 세기)
  • 랜드마크 인식.
    • 이미지에서 유명한 랜드마크 식별하기: 이미지에 나타나는 랜드마크나 위치를 식별할 수 있습니다. (예: 서호(西湖)의 세 웅덩이 식별하기)
  • 텍스트 인식/OCR.
    • 이미지의 텍스트 콘텐츠 인식: 이미지에 나타나는 텍스트를 인식하고 텍스트 정보를 추출할 수 있습니다. (예: 칠판에서 "스물두 살부터 봉사하는 영혼"을 식별할 수 있습니다.)
  • 시각적 질문 답변.
    • 이미지 콘텐츠에 기반한 질문에 답변하기: 이미지의 내용을 이해하고 사용자의 질문에 따라 합리적인 답변을 제공할 수 있어야 합니다. (예: 이미지에 대한 응답으로 "사진에 어떤 과일이 있나요?"라고 질문).
  • 시각적 추론/지식 통합.
    • 이미지 뒤에 숨겨진 의미와 연관성 이해: 더 깊은 수준에서 시각적으로 추론하고 지식을 맥락화할 수 있습니다. (예: 모나리자 개 그림의 유머 설명하기, 케이크의 만화 테마 맥락 이해하기)
  • 코드 생성(플롯용 Python).
    • 사용자 명령에 따라 코드 생성: 차트에 대한 사용자 요구 사항을 이해하고 그에 따라 Python 코드를 생성합니다. (예: 막대형 차트를 그리기 위한 Python 코드 생성)

텍스트-이미지 생성 기능:

  • 텍스트 안내 이미지 생성.
    • 텍스트 설명을 기반으로 이미지 생성: 사용자가 입력한 텍스트 프롬프트를 기반으로 의미적으로 연관된 이미지를 생성할 수 있습니다.
    • 창의적인 이미지 생성: 추상적이고 상상력이 풍부한 텍스트 프롬프트를 이해하여 창의적이고 예술적인 이미지를 생성할 수 있는 능력. (예: 하늘을 나는 고래, 우주 성운 코기 등)
    • 양식화된 이미지 생성: 텍스트 프롬프트의 스타일 설명에 따라 특정 예술적 스타일로 이미지를 생성합니다. (예: 르네상스 스타일의 교회, 중국 수묵화 스타일의 산악 마을 등)
    • 이미지에 간단한 텍스트 생성: 간단한 텍스트 요소로 이미지를 생성할 수 있는 기능입니다. (예: 칠판에 "안녕하세요"라고 쓰기)

실제 적용 시나리오의 예

  • 지능형 어시스턴트: 사용자가 업로드한 이미지를 이해하고 Q&A, 설명, 분석 등을 수행하는 멀티모드 지능형 어시스턴트 역할을 합니다.
  • 콘텐츠 제작: 콘텐츠 제작자가 소셜 미디어 그래픽, 기사 일러스트레이션 등 고품질 이미지 자료를 빠르게 생성할 수 있도록 지원합니다.
  • 교육용 애플리케이션: 이미지 인식 교육, 도표 해석 교육 등에 사용되어 학생들의 시각적 정보 이해를 돕습니다.
  • 정보 검색: 텍스트 이해 및 생성 기능과 결합된 이미지 검색을 통해 더욱 풍부한 검색 결과를 제공합니다.
  • 예술적 창작: 창작 도구로서 아티스트가 이미지를 만들고 새로운 형태의 시각적 표현을 탐구할 수 있도록 지원합니다.

주의해야 할 매개변수 특성 및 제한 사항:

  • 이미지 해상도 제한: 현재 모델 훈련 및 테스트는 주로 384x384 해상도 이미지를 기반으로 하므로 더 높은 해상도가 필요한 시나리오에는 한계가 있을 수 있습니다.
  • 디테일 정교함: 이미지가 의미적으로 풍부하지만 비전 토큰화기의 해상도 및 재구성 손실로 인해 디테일 정교함이 개선될 여지가 있을 수 있습니다(예: 작은 크기의 얼굴 영역이 충분히 세밀하지 않을 수 있음).

 

4. 요약 및 전망

야누스 플로우에서 야누스 프로에 이르는 야누스 모델 제품군은 통합 멀티모달 이해 및 생성 분야에서 지속적인 혁신의 가능성을 보여줍니다.야누스 플로우가 통합 아키텍처의 기반을 마련한 반면, 야누스 프로는 최적화된 훈련 전략, 데이터 확장 및 모델 크기 업그레이드를 통해 성능의 비약적인 도약을 제공합니다.야누스 프로의 성공은 다음과 같습니다. 야누스-프로의 성공은 다음을 입증합니다.데이터 기반 및 모델 확장은 통합 모델의 성능을 향상시키는 핵심 요소입니다.야누스 모델 제품군의 진화는 멀티모달 모델의 발전을 앞당길 뿐만 아니라 더욱 다양하고 지능적인 AI 시스템을 구축하기 위한 견고한 기반을 마련합니다.

 

 

논문 전문 '야누스 프로: 데이터 및 모델 확장을 통한 통합된 멀티모달 이해 및 생성 모델'

작성자천샤오캉, 지유 우, 싱차오 류, 지정 판, 웬 류, 젠다 시에, 싱카이 유, 총 루안
프로젝트 페이지: https://github.com/deepseek-ai/Janus

초록

이번 작업에서는 이전 야누스 모델의 향상된 버전인 야누스 프로를 소개합니다. 구체적으로 Janus-Pro는 (1) 최적화된 학습 전략, (2) 확장된 학습 데이터, (3) 더 큰 모델 크기로의 확장을 통합합니다. 이러한 개선을 통해 야누스 프로는 텍스트 생성 이미지에 대한 멀티모달 이해와 명령 추종 기능을 크게 향상시키는 동시에 텍스트 생성 이미지의 안정성을 강화했습니다. 이 작업이 이 분야에 대한 더 많은 탐구를 촉진할 수 있기를 바랍니다. 코드와 모델은 공개적으로 사용할 수 있습니다.

1. 소개

DeepSeek发布统一多模态理解与生成模型:从 JanusFlow 到 Janus-Pro
(a) 네 가지 멀티모달 이해력 벤치마크의 평균 성능. (b) 벤치마크에 따른 텍스트-생성-이미지 명령의 성능.

그림 1 | 야누스 프로의 다중 모드 이해 및 시각 생성 결과. 멀티모달 이해의 경우 POPE, MME-Perception, GQA, MMMU의 정확도를 평균화했으며, MME-Perception의 점수는 20으로 나누어 [0, 100] 범위로 조정했습니다. 시각적 생성의 경우, GenEval 및 DPG-Bench 명령 후속 벤치마크의 성능을 평가했습니다. 전반적으로 야누스 프로는 이전의 최신 통합 멀티모달 모델과 일부 작업별 모델보다 성능이 뛰어났습니다. 화면 보기에서 가장 좋은 결과를 얻었습니다.

 

DeepSeek发布统一多模态理解与生成模型:从 JanusFlow 到 Janus-Pro
1. 주황색 귤의 단순한 사진 2. 녹색 표면과 흰색 분필로 정확하고 선명하게 쓰여진 '안녕하세요'라는 단어가 있는 깨끗한 칠판 3. 녹색 줄기와 잎, 활짝 핀 꽃잎, 햇빛에 반짝이는 날개를 가진 번영을 상징하는 해바라기를 클로즈업한 사진 4. 그 위에 벌이 쉬고 있는 사진입니다.

그림 2 | 야누스 프로와 이전 버전인 야누스의 텍스트 생성 이미지 비교. 야누스 프로는 더 높은 시각적 품질, 더 풍부한 디테일, 간단한 텍스트 생성 기능으로 짧은 프롬프트에 대해 더 일관성 있는 출력을 제공합니다. 이미지 해상도는 384x384이며 화면에서 가장 잘 보입니다.

 

최근 멀티모달 이해와 생성 모델을 통합하는 데 상당한 진전이 있었습니다[30, 40, 45, 46, 48, 50, 54, 55]. 이러한 접근 방식은 시각적 생성 작업에서 지침 준수를 강화하는 동시에 모델 중복성을 줄이는 것으로 나타났습니다. 이러한 접근 방식의 대부분은 동일한 시각 코더를 사용하여 멀티모달 이해와 생성 작업 모두에 대한 입력을 처리합니다. 이 경우 일반적으로 두 작업에 필요한 표현이 다르기 때문에 멀티모달 이해 성능이 저하됩니다. 이 문제를 해결하기 위해 야누스[46]는 다중 모달 이해와 생성 작업 간의 충돌을 완화하여 두 작업 모두에서 우수한 성능을 달성하는 분리형 시각 코딩을 제안했습니다.

선구적인 모델인 야누스는 1B 매개변수 규모로 검증되었습니다. 그러나 학습 데이터의 한계와 상대적으로 작은 모델 용량으로 인해 짧은 큐 이미지 생성 시 성능이 떨어지고 텍스트 생성 이미지의 품질이 일관되지 않는 등 몇 가지 단점을 드러냈습니다. 본 논문에서는 학습 전략, 데이터, 모델 크기 등 세 가지 측면에서 개선된 야누스의 향상된 버전인 야누스 프로를 소개하며, 야누스 프로 제품군은 1B와 7B의 두 가지 모델 크기로 구성되어 시각 코딩-디코딩 방법의 확장성을 보여줍니다.

여러 벤치마크에서 야누스 프로를 평가한 결과, 우수한 멀티모달 이해력과 텍스트 생성 이미지 명령어 준수 성능이 크게 향상된 것으로 나타났습니다. 특히, 야누스-Pro-7B는 멀티모달 이해도 벤치마크인 MMBench [29]에서 79.2점을 기록해 야누스 [46](69.4점), 토큰플로우 [34](68.9점), 메타모프 [42]와 같은 이전의 최신 통합 멀티모달 모델보다 더 뛰어난 성능을 보였습니다(75.2점). 또한, 야누스-Pro-7B는 리더보드 GenEval [14]에 이어 텍스트-이미지 생성 지시어에서 0.80점을 기록하여 야누스 [46](0.61), DALL-E 3(0.67), Stable Diffusion 3 Medium [11](0.74)보다 우수한 성능을 보였습니다.

DeepSeek发布统一多模态理解与生成模型:从 JanusFlow 到 Janus-Pro
그림 3 | 야누스 프로의 아키텍처. 멀티모달 이해와 시각적 생성을 위해 비주얼 코딩을 분리합니다. "언. 인코더"와 "젠. 인코더"는 각각 "인코더 이해"와 "인코더 세대"의 약어입니다. "언. 인코더"와 "젠. 인코더"는 각각 "인코더 이해"와 "인코더 세대"의 약어입니다. 화면에서 가장 잘 보입니다.

 

2. 방법론

2.1.

야누스 프로의 아키텍처는 그림 3에 표시되어 있으며 야누스 [46]와 동일합니다. 전체 아키텍처의 핵심 설계 원칙은 멀티모달 이해와 생성을 위해 시각적 코딩을 분리하는 것입니다. 독립적인 코딩 방법을 적용하여 원시 입력을 특징으로 변환한 다음 통합된 자동 회귀 트랜스포머로 처리합니다. 멀티모달 이해를 위해서는 SigLIP[53] 인코더를 사용해 이미지에서 고차원 의미적 특징을 추출합니다. 이러한 특징들은 2-D 메시에서 1-D 시퀀스로 확산되며, 이러한 이미지 특징들은 이해 어댑터를 사용하여 LLM의 입력 공간에 매핑됩니다. 시각 생성 작업에서는 [38]의 VQ 태거를 사용하여 이미지를 개별 ID로 변환하고, ID 시퀀스를 1-D로 평탄화한 후 생성 어댑터를 사용하여 각 ID에 해당하는 코드북 임베딩을 LLM의 입력 공간에 매핑합니다. 그런 다음 이러한 특징 시퀀스를 연결하여 멀티모달 특징 시퀀스를 형성하고, 이후 처리를 위해 LLM에 공급합니다. 시각 생성 작업에서 이미지 예측을 위해 LLM에 내장된 예측 헤더 외에도 임의로 초기화된 예측 헤더를 사용합니다. 전체 모델은 자동 회귀 프레임워크를 따릅니다.

2.2 최적화된 교육 전략

이전 버전의 야누스는 3단계 훈련 프로세스를 사용했습니다. 첫 번째 단계는 어댑터와 이미지 헤드를 훈련하는 데 중점을 두었습니다. 두 번째 단계에서는 이해 인코더와 생성 인코더를 제외한 모든 구성 요소가 매개 변수를 업데이트하는 균일한 사전 학습을 처리했습니다. 세 번째 단계는 훈련 과정에서 이해 인코더의 파라미터를 추가로 잠금 해제하여 두 번째 단계를 기반으로 하는 감독 미세 조정입니다. 이 훈련 전략에는 몇 가지 문제가 있습니다. 야누스는 두 번째 단계에서 텍스트-이미지 변환 기능의 학습을 PixArt [4]에 따라 두 부분으로 나눕니다. 첫 번째 부분은 이미지 카테고리 이름을 텍스트 생성 이미지의 단서로 사용하여 이미지넷[9] 데이터를 사용하여 훈련했으며, 픽셀 종속성을 모델링하는 것을 목표로 했습니다. 두 번째 부분은 일반 텍스트 생성 이미지 데이터를 사용하여 학습했습니다. 구현에서는 두 번째 단계의 텍스트 생성 이미지 훈련 단계 중 66.67%가 첫 번째 단계에 할당되었습니다. 그러나 추가 실험을 통해 이 전략이 최적이 아니며 상당한 계산 비효율을 초래한다는 사실을 발견했습니다.

이 문제를 해결하기 위해 두 가지 변경 사항이 적용되었습니다.

첫 번째 단계의 더 긴 교육이미지넷 데이터 세트에 대한 전체 학습이 가능한 1단계 학습 단계를 추가했습니다. 그 결과, 고정된 LLM 파라미터를 사용하더라도 이 모델이 픽셀 종속성을 효과적으로 모델링하고 카테고리 이름을 기반으로 합리적인 이미지를 생성할 수 있음을 보여주었습니다.
2단계 집중 교육두 번째 단계에서는 이미지넷 데이터를 버리고 일반 텍스트 생성 이미지 데이터를 직접 활용하여 밀도 높은 설명을 기반으로 이미지를 생성하도록 모델을 훈련시켰습니다. 이렇게 재설계된 접근 방식을 통해 두 번째 단계에서는 텍스트 생성 이미지 데이터를 보다 효율적으로 활용할 수 있어 학습 효율과 전반적인 성능이 향상되었습니다.

또한 감독 미세 조정 프로세스의 세 번째 단계에서 다양한 유형의 데이터 세트의 데이터 비율을 조정하여 멀티모달 데이터, 텍스트 전용 데이터, 텍스트 생성 이미지 데이터의 비율을 7:3:10에서 5:1:4로 변경했습니다. 텍스트 생성 이미지 데이터의 비율을 약간 줄임으로써 강력한 시각 생성 기능을 유지하면서 향상된 멀티모달 이해 성능을 달성할 수 있었습니다.

2.3 데이터 확장

야누스가 멀티모달 이해 및 비전 생성에 사용하는 학습 데이터를 확장합니다.

멀티모달 이해2단계 사전 학습 데이터의 경우, DeepSeekVL2 [49]를 참조하여 약 9천만 개의 샘플을 추가합니다. 여기에는 이미지 캡션 데이터 세트(예: YFCC [31])와 표, 차트 및 문서 이해용 데이터(예: Docmatix [20])가 포함됩니다. 세 번째 단계의 지도 미세 조정 데이터에는 MEME 이해도, 중국어 대화 데이터, 대화 경험을 향상시키기 위해 설계된 데이터 세트와 같은 DeepSeek-VL2의 데이터 세트도 추가했습니다. 이러한 추가 기능으로 모델의 기능이 크게 확장되어 다양한 작업을 처리하는 동시에 전반적인 대화 환경을 개선할 수 있는 능력이 강화되었습니다.

비주얼 프로덕션이전 버전의 야누스에 사용된 실제 데이터는 품질이 부족하고 노이즈가 심해 일반적으로 텍스트 생성 이미지가 불안정하여 미적으로 좋지 않은 결과물을 만들어내는 경우가 많았습니다. 야누스 프로에서는 통합된 사전 훈련 단계에서 실제 데이터와 합성 데이터의 비율을 1:1로 맞추기 위해 약 7,200만 개의 합성 미학 데이터 샘플을 포함했으며, 이러한 합성 데이터 샘플에 대한 힌트는 [43]과 같이 공개적으로 사용할 수 있습니다. 실험에 따르면 합성 데이터로 훈련할 때 모델이 더 빠르게 수렴하고 더 안정적인 텍스트 생성 이미지 출력을 생성할 뿐만 아니라 심미적 품질도 훨씬 더 향상되는 것으로 나타났습니다.

2.4 모델 확장

이전 버전의 야누스에서는 비주얼 코딩 디커플링에 1.5B LLM을 사용하는 것이 효과적임을 검증했습니다. 야누스 프로에서는 모델을 7B로 확장했으며, 1.5B 및 7B LLM의 하이퍼파라미터는 표 1에 자세히 나와 있습니다. 작은 모델에 비해 더 큰 LLM을 사용할 때 멀티모달 이해의 수렴 속도와 시각적 생성 손실이 크게 증가하는 것을 관찰했습니다. 이 발견은 이 접근법의 강력한 확장성을 더욱 입증합니다.

표 1 | 야누스 프로의 아키텍처 구성. 아키텍처의 하이퍼파라미터를 나열합니다.

야누스 프로-1BJanus-Pro-7B
어휘 크기100K100K
임베드 크기20484096
컨텍스트 창40964096
주의 집중 시간1632
2430

 

표 2 야누스 프로 학습을 위한 세부 하이퍼파라미터. 데이터 비율은 다중 모드 이해 데이터, 일반 텍스트 데이터 및 시각적으로 생성된 데이터의 비율을 나타냅니다.

DeepSeek发布统一多模态理解与生成模型:从 JanusFlow 到 Janus-Pro

 

3. 실험

3.1 구현 세부 사항

실험에서는 최대 지원되는 시퀀스 길이가 4096인 기본 언어 모델로 DeepSeek-LLM(1.5B 및 7B)[3]을 사용했으며, 이해 작업에 사용되는 시각 코더로는 SigLIP-Large-Patch16-384[53]를 선택했습니다. 생성 인코더는 16,384 크기의 코드북을 가지고 있으며 이미지를 16번 다운샘플링합니다. 이해 어댑터와 생성 어댑터는 모두 2계층 MLP입니다. 각 단계에 대한 자세한 하이퍼파라미터는 표 2에 나와 있습니다. 모든 이미지의 크기는 384x384픽셀로 조정되었습니다. 다중 모드 이해 데이터의 경우 이미지의 긴 쪽은 384로 크기를 조정하고 짧은 쪽은 배경색(RGB: 127, 127, 127)으로 채워 384가 되도록 합니다. 시각 생성 데이터의 경우 짧은 쪽은 384로 크기를 조정하고 긴 쪽은 384로 자릅니다. 훈련 과정에서 시퀀스 패킹을 사용하여 훈련 효율을 높입니다. 단일 훈련 단계에서 모든 데이터 유형을 지정된 비율에 따라 혼합합니다. 야누스는 파이토치 기반의 가볍고 효율적인 분산 훈련 프레임워크인 HAI-LLM[15]을 사용해 훈련하고 평가했습니다. 전체 훈련 과정은 1.5B/7B 모델에 대해 8개의 Nvidia A100(40GB) GPU가 장착된 16/32 노드 클러스터에서 약 7/14일이 소요되었습니다.

3.2 설정 평가하기

멀티모달 이해: 멀티모달 이해도를 평가하기 위해 GQA [17], POPE [23], MME [12], SEED [21], MMB [29], MM-Vet [51], MMMU [52] 등 널리 알려진 이미지 기반 시각-언어 벤치마크에서 저희 모델을 평가했습니다.

 

표 3 | 멀티모달 이해 벤치마킹의 최신 기법과의 비교. "Und."와 "Gen."은 각각 "이해"와 "세대"를 나타냅니다. 외부의 사전 학습된 확산 모델을 사용하는 모델은 †로 표시되어 있습니다.

DeepSeek发布统一多模态理解与生成模型:从 JanusFlow 到 Janus-Pro

 

비주얼 제너레이션: 시각 생성 기능을 평가하기 위해 GenEval [14]과 DPG-Bench [16]를 사용했습니다. GenEval은 시각 생성 모델의 조합 기능에 대한 상세한 인스턴스 수준 분석을 통해 시각 생성 모델의 전체 생성 기능을 반영하도록 설계된 까다로운 이미지-텍스트 생성 벤치마크입니다.DPG-Bench(Dense Prompted Graph Benchmark)는 다음을 포함하는 종합 데이터 세트입니다. 텍스트-이미지 모델의 복잡한 의미 정렬 기능을 평가하도록 설계된 포괄적인 데이터 세트에 1065개의 길고 밀도가 높은 단서가 포함되어 있습니다.

3.3 최신 기술과의 비교

멀티모달 성능 이해: 표 3에서 제안된 접근 방식을 최첨단 통합 모델 및 이해력 전용 모델과 비교한 결과, 야누스 프로가 전반적으로 가장 우수한 결과를 얻었습니다. 이는 멀티모달 이해와 생성된 시각적 코딩의 분리로 인해 두 작업 간의 충돌이 완화되었기 때문일 수 있습니다. 야누스 프로는 훨씬 더 큰 모델과 비교했을 때 여전히 경쟁력이 높습니다. 예를 들어, Janus-Pro-7B는 GQA를 제외한 모든 벤치마크에서 TokenFlow-XL(13B)보다 성능이 뛰어납니다.

 

표 4 GenEval 벤치마크에서 텍스트-이미지 생성 평가. "Und." 및 "Gen."은 각각 "이해 중"과 "생성 중"을 나타냅니다. 외부의 사전 학습된 확산 모델을 사용하는 모델은 †로 표시됩니다.

DeepSeek发布统一多模态理解与生成模型:从 JanusFlow 到 Janus-Pro

 

표 5 성능입니다. 야누스 및 야누스 프로를 제외한 이 표의 모든 메서드는 작업 생성에 사용된 모델에 따라 다릅니다.

DeepSeek发布统一多模态理解与生成模型:从 JanusFlow 到 Janus-Pro

 

비주얼 생성 성능: 시각적 생성 성능을 GenEval과 DPG-Bench에 보고합니다. 표 4에서 볼 수 있듯이, 야누스-Pro-7B는 GenEval에서 80%의 전체 정확도를 얻었으며, 이는 다른 모든 통합 또는 세대 전용 지원 방법(예: Transfusion [55](63%), SD3-Medium(74%), DALL-E 3(67%)보다 우수한 성능을 보였습니다. 이는 우리의 방법이 더 나은 명령어 추종 능력을 가지고 있음을 보여줍니다. 표 5에서 볼 수 있듯이 야누스 프로는 DPG 벤치에서 84.19점을 획득하여 다른 모든 방법보다 우수한 성능을 보였습니다. 이는 야누스 프로가 텍스트-이미지 생성을 위한 밀도 높은 명령어를 잘 따른다는 것을 보여줍니다.

3.4 정성적 결과

그림 4는 다중 모드 이해 결과를 보여줍니다. 야누스 프로는 다양한 문맥의 입력을 처리할 때 인상적인 이해력을 보여줌으로써 그 성능을 입증합니다. 그림 4의 하단에는 텍스트로 생성된 이미지 생성 결과도 보여줍니다. 야누스-Pro-7B가 생성한 이미지는 해상도가 $384\times384$에 불과하지만 매우 사실적이며 매우 많은 디테일을 포함하고 있습니다. 상상력이 풍부하고 창의적인 시나리오를 위해 야누스-Pro-7B는 프롬프트의 의미 정보를 정확하게 캡처하고 감각적이고 일관된 이미지를 생성합니다.

DeepSeek发布统一多模态理解与生成模型:从 JanusFlow 到 Janus-Pro
그림 4 | 멀티모달 이해 및 시각적 생성 기능의 정성적 결과. 모델은 야누스-Pro-7B이며 시각적으로 생성된 이미지 출력의 해상도는 $384\배384$로 화면에서 가장 잘 보입니다.

4. 결론

이 백서에서는 학습 전략, 데이터, 모델 크기 측면에서 야누스를 개선했습니다. 이러한 개선으로 인해 다중 모드 이해와 텍스트 생성 이미지 명령 팔로잉이 크게 향상되었습니다. 하지만 야누스 프로에는 여전히 몇 가지 한계가 있습니다. 다중 모드 이해의 경우 입력 해상도가 $384\배384$로 제한되어 있어 OCR과 같은 세분화된 작업에서 성능에 영향을 미칩니다. 텍스트 생성 이미지의 경우 낮은 해상도와 시각적 태거에 의한 재구성 손실이 결합되어 의미적으로는 풍부하지만 디테일이 부족한 이미지가 생성됩니다. 예를 들어, 제한된 이미지 공간을 차지하는 작은 얼굴 영역은 디테일이 충분하지 않은 것처럼 보일 수 있습니다. 이미지 해상도를 높이면 이러한 문제를 완화할 수 있습니다.

참고 문헌

[1] J. Bai, S. Bai, S. Yang, S. Wang, S. Tan, P. Wang, J. Lin, C. Zhou, J. Zhou. qwen-vl: 다목적성을 갖춘 최첨단 대규모 시각 언어 모델. arXiv preprint arXiv:2308.12966, 2023.
[2] J. Betker, G. Goh, L. Jing, T. Brooks, J. Wang, L. Li, L. Ouyang, J. Zhuang, J. Lee, Y. Guo et al. 더 나은 캡션을 통한 이미지 생성 개선. 컴퓨터 과학. https://cdn.openai.com/papers/dall-e-3.pdf, 2(3):8, 2023.
[3] X. Bi, D. Chen, G. Chen, S. Chen, D. Dai, C. Deng, H. Ding, K. Dong, Q. Du, Z. Fu, et al. DeepSeek LLM: 장기주의를 사용한 오픈 소스 언어 모델 확장. arXiv 사전 인쇄물 arXiv:2401.02954, 2024.
[4] J. Chen, J. Yu, C. Ge, L. Yao, E. Xie, Y. Wu, Z. Wang, J. Kwok, P. Luo, H. Lu, et al. PixArtℎ: 사실적인 텍스트 생성 이미지 합성을 위한 빠른 훈련 확산 변환기. arXiv 프리프린트 arXiv:2310.00426, 2023.
[5] J. Chen, C. Ge, E. Xie, Y. Wu, L. Yao, X. Ren, Z. Wang, P. Luo, H. Lu, Z. Li. PixArt-Sigma: 4K 텍스트 생성 이미지 생성을 위한 약대강 확산 변환기 훈련. arXiv preprint arXiv:2403.04692, 2024.
6] X. 추, L. 챠오, X. 린, S. 쉬, Y. 양, Y. 후, F. 웨이, X. 장, B. 장, X. 웨이 외. [6] X. 추, L. 챠오, X. 린, S. 쉬, Y. 양, Y. 후, F. 웨이, X. 웨이. Mobilevlm: 모바일 장치를 위한 빠르고 재현 가능하며 강력한 시각 언어 도우미. arXiv 사전 인쇄물 arXiv:2312.16886, 2023.
[7] X. Chu, L. Qiao, X. Zhang, S. Xu, F. Wei, Y. Yang, X. Sun, Y. Hu, X. Lin, B. Zhang, et al. Mobilevlm v2: 시각 언어 모델링을 위한 더 빠르고 강력한 기반. arXiv 프리프린트 arXiv:2402.03766, 2024.
[8] W. Dai, J. Li, D. Li, A. M. H. Tiong, J. Zhao, W. Wang, B. Li, P. Fung, S. Hoi, Instructblip: 명령 미세 조정을 통한 일반화된 시각 언어 모델을 향하여, 2023.
[9] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, L. Fei-Fei. Imagenet: 대규모 계층적 이미지 데이터베이스. 2009 IEEE 컴퓨터 비전 및 패턴 인식 컨퍼런스 논문집, 248-255쪽. 전기 및 전자 공학자 협회, 2009.
[10] R. Dong, C. Han, Y. Peng, Z. Qi, Z. Ge, J. Yang, L. Zhao, J. Sun, H. Zhou, H. Wei, et al. Dreamllm: 멀티모달 협업 이해 및 생성. arXiv 사전 인쇄 arXiv:2309.11499, 2023.
[11] P. Esser, S. Kulal, A. Blattmann, R. Entezari, J. Mller, H. Saini, Y. Levi, D. Lorenz, A. Sauer, F. Boesel, D. Podell, T. Dockhorn, Z. English, K. Lacey. 고해상도 이미지 합성을 위한 스케일링 보정 스트림 트랜스포머, 2024. URL https://arxiv.org/abs/2403.03206.
[12] C. Fu, P. Chen, Y. Shen, Y. Qin, M. Zhang, X. Lin, J. Yang, X. Zheng, K. Li, X. Sun, et al. MME: 멀티모달 대규모 언어 모델에 대한 포괄적인 평가 벤치마크. arXiv preprint arXiv:2306.13394, 2023.
[13] Y. Ge, S. Zhao, J. Zhu, Y. Ge, K. Yi, L. Song, C. Li, X. Ding, Y. Shan. SEED-X: 통합된 다중 입도 이해 및 생성 기능을 갖춘 멀티모달 모델. arXiv preprint arXiv:2404.14396, 2024.
[14] D. Ghosh, H. Hajishirzi, L. Schmidt. GenEval: 텍스트 생성 이미지 정렬을 평가하기 위한 객체 지향 프레임워크. 신경 정보 처리 시스템의 발전, 36, 2024.
[15] 하이플라이어. HAI-LLM: 효율적이고 가벼운 대형 모델 훈련 도구, 2023. URL https://www.high-flyer.cn/en/blog/hai-llm.
[16] X. Hu, R. Wang, Y. Fang, B. Fu, P. Cheng, G. Yu. ELLA: 향상된 의미적 정렬을 위한 확산 모델 장착. arXiv preprint arXiv:2403.05135, 2024.
[17] D. A. 허드슨과 C. D. 매닝. gqa: 실제 시각적 추론과 조합 퀴즈를 위한 새로운 데이터 세트. 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스 논문집, 6700-6709페이지, 2019.
[18] Y. Jin, K. Xu, L. Chen, C. Liao, J. Tan, B. Chen, C. Lei, A. Liu, C. Song, X. Lei, et al. 통합 언어의 시각적 사전 학습을 위한 동적 이산 시각 토큰화. arXiv 프리프린트 arXiv:2309.04669, 2023.
[19] H. Laurenon, D. van Strien, S. Bekman, L. Tronchon, L. Saulnier, T. Wang, S. Karamcheti, A. Singh, G. Pistilli, Y. Jernite, et al. IDEFICS 소개: 최첨단 시각 언어 모델 재현을 위한 개방형 모델, 2023. URL https://huggingface.co/blog/id efics.
[20] H. Laurenon, A. Marafioti, V. Sanh, L. Tronchon. 시각 언어 모델 구축 및 이해도 향상: 인사이트와 향후 방향, 2024.
[21] B. Li, R. Wang, G. Wang, Y. Ge, Y. Ge, Y. Shan. SEED-Bench: 생성적 이해를 사용한 멀티모달 LLM 벤치마킹. arXiv preprint arXiv:2307.16125, 2023.
[22] D. Li, A. Kamko, E. Akhgari, A. Sabet, L. Xu, S. Doshi. 놀이터 v2.5: 텍스트 생성 이미지 생성의 미적 품질을 향상시키기 위한 세 가지 인사이트. arXiv 프리프린트 arXiv:2402.17245, 2024.
[23] Y. Li, Y. Du, K. Zhou, J. Wang, W. X. Zhao, J.-R. Wen. 대규모 시각 언어 모델에서 객체 환영 평가. arXiv preprint arXiv:2305.10355, 2023.
[24] Z. Li, H. Li, Y. Shi, A. B. Farimani, Y. Kluger, L. Yang 및 P. Wang. 통합 이미지 생성 및 이해를 위한 이중 확산. arXiv preprint arXiv:2501.00289, 2024.
[25] Z. Li, J. Zhang, Q. Lin, J. Xiong, Y. Long, X. Deng, Y. Zhang, X. Liu, M. Huang, Z. Xiao, et al. Hunyuan-DiT: 중국어를 잘 이해하는 강력한 다중 해상도 확산 변환기. arXiv 사전 인쇄물 arXiv:2405.08748, 2024.
[26] H. Liu, C. Li, Y. Li, Y. J. Lee. 시각적 명령의 미세 조정 기준선 개선. 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스 논문집, 26296-26306 페이지, 2024.
[27] H. Liu, C. Li, Q. Wu, Y. J. Lee. 시각적 명령 미세 조정. 신경 정보 처리 시스템의 발전, 36, 2024.
[링 주의를 이용한 백만 길이 동영상 및 언어에 대한 세계 모델. arXiv preprint arXiv:2402.08268, 2024.
[29] Y. Liu, H. Duan, Y. Zhang, B. Li, S. Zhang, W. Zhao, Y. Yuan, J. Wang, C. He, Z. Liu, et al. MMBench: 멀티모달 모델이 다재다능한 모델인가요? arXiv 사전 인쇄본 arXiv:2307.06281, 2023.
[30] Y. Ma, X. Liu, X. Chen, W. Liu, C. Wu, Z. Wu, Z. Pan, Z. Xie, H. Zhang, X. yu, L. Zhao, Y. Wang, J. Liu 및 C. Ruan. Janusflow: 통합된 다중 모드 이해 및 생성을 위한 자동 회귀 및 수정 흐름의 조정, 2024.
[31] mehdidc. https://huggingface.co/datasets/mehdidc/yfcc15 m, 2024.
[32] D. Podell, Z. English, K. Lacey, A. Blattmann, T. Dockhorn, J. Mller, J. Penna 및 R. Rombach. sdxl: 고해상도 이미지 합성을 위한 잠재 확산 모델 개선. arXiv preprint arXiv:2307.01952,. 2023.
[33] D. Podell, Z. English, K. Lacey, A. Blattmann, T. Dockhorn, J. Mller, J. Penna, R. Rombach. sdxl: 고해상도 이미지 합성을 위한 잠재 확산 모델 개선, 2024.
[34] L. Qu, H. Zhang, Y. Liu, X. Wang, Y. Jiang, Y. Gao, H. Ye, D. K. Du, Z. Yuan, X. Wu. Tokenflow: 멀티모달 이해 및 생성을 위한 통합 이미지 태거. arXiv preprint arXiv:2412.03069, 2024.
[35] A. 라메쉬, P. 다리왈, A. 니콜, C. 추, M. 첸. CLIP 잠재 값을 이용한 계층적 텍스트 조건부 이미지 생성. arXiv preprint arXiv:2204.06125, 1(2):3, 2022.
[36] R. 롬바흐, A. 블랫만, D. 로렌츠, P. 에서, B. 오머. 잠복 확산 모델을 이용한 고해상도 이미지 합성 2022.
[37] R. Rombach, A. Blattmann, D. Lorenz, P. Esser, B. Ommer. 잠복 확산 모델을 사용한 고해상도 이미지 합성. 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스 논문집, 10684-10695페이지, 2022.
[38] P. Sun, Y. Jiang, S. Chen, S. Zhang, B. Peng, P. Luo, Z. Yuan. 자동 회귀 모델이 확산을 이긴다: 확장 가능한 이미지 생성을 위한 LLama. arXiv 사전 인쇄본 arXiv:2406.06525, 2024.
[39] Q. Sun, Q. Yu, Y. Cui, F. Zhang, X. Zhang, Y. Wang, H. Gao, J. Liu, T. Huang 및 X. Wang. 멀티모달 생성 사전 교육. arXiv preprint arXiv:2307.05222, 2023.
[40] C. 팀. 카멜레온: 혼합 모드의 초기 융합을 위한 기본 모델. arXiv preprint arXiv:2405.09818, 2024.
[41] G. Team, R. Anil, S. Borgeaud, Y. Wu, J.-B. Alayrac, J. Yu, R. Soricut, J. Schalkwyk, A. M. Dai, A. Hauth, et al. 쌍둥이자리유능한 멀티모달 모델 제품군. arXiv preprint arXiv:2312.11805, 2023.
[42] S. 통, D. 팬, J. 주, Y. 시옹, X. 첸, K. 신하, M. 라바트, Y. 르쿤, S. 시에, Z. 류. 메타모프: 명령 미세 조정을 통한 다중 모드 이해 및 생성. arXiv 사전 인쇄본 arXiv:2412.14164,. 2024.
[43] 비빔. 중간 여정 프롬프트 데이터 세트: https://huggingface.co/datasets/vivym/midjourney-prompts, 2023. 방문 날짜: [방문 날짜 삽입(예: 2023-10-15)].
[44] C. Wang, G. Lu, J. Yang, R. Huang, J. Han, L. Hou, W. Zhang, H. Xu. Illume: 보고, 그리고, 스스로 향상시키기 위한 LLM 조명. arXiv preprint arXiv:2412.06673, 2024.
[45] X. Wang, X. Zhang, Z. Luo, Q. Sun, Y. Cui, J. Wang, F. Zhang, Y. Wang, Z. Li, Q. Yu, et al. Emu3: 다음 태그 예측만 있으면 됩니다. arXiv preprint arXiv:2409.18869, 2024.
[46] C. Wu, X. Chen, Z. Wu, Y. Ma, X. Liu, Z. Pan, W. Liu, Z. Xie, X. Yu, C. Ruan, et al. 야누스: 통합된 멀티모달 이해 및 생성을 위한 시각적 코딩 분리. arXiv 사전 인쇄물 arXiv:2410.13848, 2024.
[47] S. Wu, H. Fei, L. Qu, W. Ji, T.-S. Chua. next-gpt: Any-to-Any 멀티모달 LLM. arXiv preprint arXiv:2309.05519, 2023.
[48] Y. Wu, Z. Zhang, J. Chen, H. Tang, D. Li, Y. Fang, L. Zhu, E. Xie, H. Yin, L. Yi, et al. VILA-U: 시각적 이해와 생성을 통합하기 위한 기초 모델. arXiv 사전 인쇄물 arXiv:2409.04429, 2024.
[49] Z. Wu, X. Chen, Z. Pan, X. Liu, W. Liu, D. Dai, H. Gao, Y. Ma, C. Wu, B. Wang, et al. DeepSeek-VL2: 고급 멀티모달 이해를 위한 하이브리드 전문가 시각 언어 모델. arXiv 프리프린트 arXiv:2412.10302, 2024.
[50] J. Xie, W. Mao, Z. Bai, D. J. Zhang, W. Wang, K. Q. Lin, Y. Gu, Z. Chen, Z. Yang 및 M. Z. Shou. show-o: 통합된 다중 모드 이해 및 생성을 위한 단일 변환기. arXiv preprint arXiv:2408.12528,. 2024.
[51] W. Yu, Z. Yang, L. Li, J. Wang, K. Lin, Z. Liu, X. Wang, L. Wang. MM-Vet: 대규모 멀티모달 모델의 통합력 평가. arXiv preprint arXiv:2308.02490, 2023.
[52] X. Yue, Y. Ni, K. Zhang, T. Zheng, R. Liu, G. Zhang, S. Stevens, D. Jiang, W. Ren, Y. Sun, et al. MMMU: 전문가 AGI를 위한 대규모 다분야 다중 모드 이해 및 추론 벤치마크. IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스 논문집, 9556-9567페이지, 2024.
[53] X. 자이, B. 무스타파, A. 콜레스니코프, L. 베이어. 언어 이미지 사전 학습을 위한 시그모이드 손실. IEEE/CVF 컴퓨터 비전 국제 컨퍼런스 논문집, 11975-11986쪽, 2023.
[54] C. Zhao, Y. Song, W. Wang, H. Feng, E. Ding, Y. Sun, X. Xiao, J. Wang. 모노포머: 확산 및 자동 회귀를 위한 단일 변환기. arXiv preprint arXiv:2409.16280, 2024.
[55] C. Zhou, L. Yu, A. Babu, K. Tirumala, M. Yasunaga, L. Shamis, J. Kahn, X. Ma, L. Zettlemoyer 및 O. Levy. 수혈 : 다중 모드 모델을 사용하여 다음 라벨링 및 확산 이미지 예측. arXiv Preprint. arXiv:2408.11039, 2024.
[56] Y. Zhu, M. Zhu, N. Liu, Z. Ou, X. Mou, J. Tang. lLAVA-Phi: 작은 언어 모델을 사용한 효율적인 멀티모달 어시스턴트. arXiv preprint arXiv:2401.02330, 2024.

[57] L. Zhuo, R. Du, H. Xiao, Y. Li, D. Liu, R. Huang, W. Liu, L. Zhao, F.-Y. Wang, Z. Ma, et al. Lumina-Next: Next-DiT로 Lumina-T2X를 더 강력하고 빠르게 만들기. arXiv 사전 인쇄물 arXiv:2406.18583, 2024.

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...