dots.vlm1 - 작은 레드북 하이랩 오픈소스 멀티모달 대형 모델

34.3K 00

dots.vlm1이란 무엇인가요?

dots.vlm1은 리틀 레드북 하이랩에서 오픈소스화한 최초의 멀티모달 매크로 모델입니다. 0에서 학습된 12억 개의 매개변수 시각 코더 NaViT와 DeepSeek 강력한 시각적 인식 및 텍스트 추론 기능을 갖춘 V3 대규모 언어 모델(LLM). 이 모델은 시각적 이해 및 추론 작업에서 클로즈드 소스 SOTA 모델 수준에 근접하는 우수한 성능을 발휘하며 텍스트 작업에서도 경쟁력을 유지합니다. dots.vlm1의 시각 코더인 NaViT는 처음부터 완전히 학습되고 동적 해상도를 기본적으로 지원하며 텍스트 감독에 순수한 시각 감독을 추가하여 지각 기능을 향상시킵니다. 훈련 데이터는 데이터 품질을 향상시키기 위해 다양한 이미지 유형과 설명을 포함하는 다양한 합성 데이터 아이디어를 도입합니다.

dots.vlm1의 주요 기능

강력한 시각적 이해력복잡한 차트, 표, 문서, 그래프 등 이미지의 콘텐츠를 정확하게 인식하고 이해하며, 다양한 시각적 작업을 위한 동적 해상도를 지원합니다.
효율적인 텍스트 생성 및 추론DeepSeek V3 LLM을 기반으로 고품질 텍스트 설명을 생성하고 수학 및 코드와 같은 텍스트 추론 작업에서 우수한 성능을 발휘합니다.
멀티모달 데이터 처리그래픽 및 텍스트 인터레이스 데이터 처리를 지원하며 시각적 정보와 텍스트 정보를 결합하여 통합 추론할 수 있어 멀티모달 애플리케이션 시나리오에 적합합니다.
유연한 적응 및 확장MLP 어댑터는 시각 인코더를 언어 모델에 연결하여 다양한 작업에 유연하게 적용하고 확장할 수 있도록 합니다.
오픈 소스 및 개방성개발자의 연구 및 애플리케이션 개발을 지원하고 멀티모달 기술 개발을 촉진하기 위해 완전한 오픈 소스 코드와 모델을 제공합니다.

dots.vlm1의 프로젝트 주소

GitHub 리포지토리:: https://github.com/rednote-hilab/dots.vlm1
포옹하는 얼굴 모델 라이브러리:: https://huggingface.co/rednote-hilab/dots.vlm1.inst
온라인 경험 데모:: https://huggingface.co/spaces/rednote-hilab/dots-vlm1-demo

dots.vlm1의 기술 원리

NaViT 비주얼 인코더dots.vlm1은 기존의 성숙한 모델을 기반으로 미세 조정하지 않고 처음부터 훈련된 12억 개의 파라미터로 구성된 시각적 코더인 NaViT를 사용합니다. 동적 해상도를 기본적으로 지원하여 다양한 해상도의 이미지 입력을 처리할 수 있으며, 텍스트 감독에 순수 시각적 감독을 추가하여 이미지에 대한 모델의 인식을 개선합니다.
멀티모달 데이터 교육일반 이미지, 복잡한 차트, 표, 문서, 그래프 등 다양한 멀티모달 학습 데이터와 해당 텍스트 설명(예: 대체 텍스트, 밀도 높은 캡션, 접지 등)을 채택합니다. 합성 데이터 아이디어와 웹 페이지 및 PDF와 같은 그래픽-텍스트 인터리브 데이터를 도입하여 재작성 및 정리를 통해 데이터 품질을 향상시키고 모델의 멀티모달 이해 능력을 향상시킵니다.
시각 및 언어 모델 융합dots.vlm1은 시각 인코더와 경량 MLP 어댑터를 통해 연결된 DeepSeek V3 LLM(대규모 언어 모델)을 결합하여 시각 및 언어 정보를 효과적으로 융합하여 멀티모달 작업 처리를 지원할 수 있도록 합니다.
3단계 교육 프로세스모델의 학습은 비주얼 코더 사전 학습, VLM 사전 학습, VLM 사후 학습의 3단계로 나뉩니다. 이미지 해상도를 점차 높이고 다양한 학습 데이터를 도입하여 모델의 일반화 능력과 복합 작업 처리 능력을 향상시킵니다.

dots.vlm의 핵심 이점1

처음부터 훈련된 비주얼 코더시각적 인식의 상한선을 높이기 위해 네이티브 동적 해상도 지원 및 순수 시각적 감독을 통해 처음부터 완전히 훈련된 NaViT 비주얼 코더입니다.
멀티모달 데이터 혁신다양한 이미지 유형과 설명을 포함하기 위해 다양한 합성 데이터 아이디어를 도입하고 멀티모달 매크로 모델을 사용하여 웹 페이지 데이터를 재작성하면 학습 데이터의 품질이 크게 향상됩니다.
SOTA에 가까운 성능시각적 인식 및 추론에서 클로즈드 소스 SOTA 모델에 가까운 성능을 달성하여 오픈 소스 시각 언어 모델의 새로운 성능 상한을 설정합니다.
강력한 텍스트 기능일반 텍스트 작업에서 경쟁력을 유지하면서 약간의 수학 및 코딩 기술을 갖춘 텍스트 추론 작업을 잘 수행합니다.
유연한 아키텍처 설계MLP 어댑터는 시각 인코더를 언어 모델에 연결하여 다양한 작업에 유연하게 적용하고 확장할 수 있도록 합니다.

dots.vlm1의 대상 사용자

인공 지능 연구원멀티모달 매크로 모델링에 관심이 있으며 시각 및 언어 처리 분야에서 이를 적용하고 개선하고자 합니다.
개발자 및 엔지니어프로젝트에서 이미지 인식, 텍스트 생성, 시각적 추론 등과 같은 멀티모달 기능을 통합해야 할 필요성.
교육자이 모델은 교육을 지원하고 학생들이 복잡한 도표, 문서 및 기타 콘텐츠를 더 잘 이해하고 분석하는 데 사용할 수 있습니다.
콘텐츠 크리에이터고품질 그래픽 콘텐츠를 생성하거나 콘텐츠 추천 및 개인화된 창작물을 만들어야 할 필요성.
비즈니스 사용자지능형 고객 서비스, 콘텐츠 추천, 데이터 분석 등 복합적인 데이터를 처리해야 하는 비즈니스 시나리오에서 모델을 사용하여 효율성과 효과를 개선할 수 있습니다.