DeepSeek-VL2: 고급 멀티모달 이해를 위한 전문 시각 언어 모델

일반 소개

DeepSeek-VL2는 이전 모델인 DeepSeek-VL의 성능을 크게 개선한 고급 전문가 혼합(MoE) 시각 언어 모델 시리즈입니다. 이 모델은 시각적 질문 답변, 광학 문자 인식, 문서/표/도표 이해, 시각적 현지화와 같은 작업에서 탁월한 성능을 발휘하며, DeepSeek-VL2 제품군은 DeepSeek-VL2-Tiny, DeepSeek-VL2-Small, DeepSeek-VL2의 세 가지 변형으로 구성되며 각각 1.0B, 2.8B, 4.5B의 활성화 매개변수를 각각 가지고 있습니다. 이 모델들은 파라미터 수가 비슷하거나 적은 기존 오픈 소스 밀도 및 MoE 모델과 비슷하거나 더 우수한 성능을 달성합니다.

데모: https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small

기능 목록

시각적 Q&A정확한 답을 제공하여 복잡한 시각적 퀴즈 작업을 지원합니다.
광학 문자 인식(OCR)이미지의 텍스트 콘텐츠를 효율적으로 인식합니다.
문서 이해복잡한 문서 구조와 콘텐츠를 구문 분석하고 이해합니다.
양식 이해표 형식의 데이터를 식별하고 처리하여 유용한 정보를 추출합니다.
그래픽 이해그래프와 차트로 데이터와 추세를 분석하고 해석합니다.
시각적 방향이미지에서 대상 물체를 정확하게 찾습니다.
다중 배리언트 지원다양한 요구 사항을 충족하기 위해 소형, 소형 및 표준 모델을 사용할 수 있습니다.
고성능: 고성능을 유지하면서 활성화 매개변수 수를 줄입니다.

도움말 사용

설치 프로세스

Python 버전이 3.8 이상인지 확인합니다.
DeepSeek-VL2 리포지토리 복제:

   git clone https://github.com/deepseek-ai/DeepSeek-VL2.git

프로젝트 디렉토리로 이동하여 필요한 종속성을 설치합니다:

   cd DeepSeek-VL2
pip install -e .

사용 예

간단한 추론의 예

아래는 DeepSeek-VL2를 사용한 간단한 추론을 위한 샘플 코드입니다:

import torch
from transformers import AutoModelForCausalLM
from deepseek_vl2.models import DeepseekVLV2Processor, DeepseekVLV2ForCausalLM
from deepseek_vl2.utils.io import load_pil_images
# 指定模型路径
model_path = "deepseek-ai/deepseek-vl2-tiny"
vl_chat_processor = DeepseekVLV2Processor.from_pretrained(model_path)
vl_model = DeepseekVLV2ForCausalLM.from_pretrained(model_path)
# 加载图像
images = load_pil_images(["path_to_image.jpg"])
# 推理
inputs = vl_chat_processor(images=images, return_tensors="pt")
outputs = vl_model.generate(**inputs)
print(outputs)

세부 기능 작동 흐름

시각적 Q&A::
- 모델 및 프로세서를 로드합니다.
- 이미지와 질문을 입력하면 모델이 답변을 반환합니다.
광학 문자 인식(OCR)::
- 활용 DeepseekVLV2Processor 이미지 로드.
- 이 모델은 이미지의 텍스트를 추출하기 위해 추론을 위해 호출됩니다.
문서 이해::
- 문서 이미지가 포함된 입력을 로드합니다.
- 모델은 문서 구조를 구문 분석하고 구문 분석 결과를 반환합니다.
양식 이해::
- 양식이 포함된 이미지를 입력합니다.
- 모델은 양식의 구조와 내용을 인식하고 주요 정보를 추출합니다.
그래픽 이해::
- 차트 이미지를 로드합니다.
- 이 모델은 그래픽 데이터를 분석하여 해석과 추세 분석을 제공합니다.
시각적 방향::
- 대상 개체에 대한 설명과 이미지를 입력합니다.
- 모델은 이미지에서 대상 개체를 찾아 위치 좌표를 반환합니다.