DeepSeek-VL2: 고급 멀티모달 이해를 위한 전문 시각 언어 모델

최신 AI 리소스게시됨 6 개월 전 AI 공유 서클
2.8K 00

일반 소개

DeepSeek-VL2는 이전 모델인 DeepSeek-VL의 성능을 크게 개선한 고급 전문가 혼합(MoE) 시각 언어 모델 시리즈입니다. 이 모델은 시각적 질문 답변, 광학 문자 인식, 문서/표/도표 이해, 시각적 현지화와 같은 작업에서 탁월한 성능을 발휘하며, DeepSeek-VL2 제품군은 DeepSeek-VL2-Tiny, DeepSeek-VL2-Small, DeepSeek-VL2의 세 가지 변형으로 구성되며 각각 1.0B, 2.8B, 4.5B의 활성화 매개변수를 각각 가지고 있습니다. 이 모델들은 파라미터 수가 비슷하거나 적은 기존 오픈 소스 밀도 및 MoE 모델과 비슷하거나 더 우수한 성능을 달성합니다.

DeepSeek-VL2:高级多模态理解的专家级视觉语言模型

데모: https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small

DeepSeek-VL2:高级多模态理解的专家级视觉语言模型

 

기능 목록

  • 시각적 Q&A정확한 답을 제공하여 복잡한 시각적 퀴즈 작업을 지원합니다.
  • 광학 문자 인식(OCR)이미지의 텍스트 콘텐츠를 효율적으로 인식합니다.
  • 문서 이해복잡한 문서 구조와 콘텐츠를 구문 분석하고 이해합니다.
  • 양식 이해표 형식의 데이터를 식별하고 처리하여 유용한 정보를 추출합니다.
  • 그래픽 이해그래프와 차트로 데이터와 추세를 분석하고 해석합니다.
  • 시각적 방향이미지에서 대상 물체를 정확하게 찾습니다.
  • 다중 배리언트 지원다양한 요구 사항을 충족하기 위해 소형, 소형 및 표준 모델을 사용할 수 있습니다.
  • 고성능: 고성능을 유지하면서 활성화 매개변수 수를 줄입니다.

 

도움말 사용

설치 프로세스

  1. Python 버전이 3.8 이상인지 확인합니다.
  2. DeepSeek-VL2 리포지토리 복제:
   git clone https://github.com/deepseek-ai/DeepSeek-VL2.git
  1. 프로젝트 디렉토리로 이동하여 필요한 종속성을 설치합니다:
   cd DeepSeek-VL2
pip install -e .

사용 예

간단한 추론의 예

아래는 DeepSeek-VL2를 사용한 간단한 추론을 위한 샘플 코드입니다:

import torch
from transformers import AutoModelForCausalLM
from deepseek_vl2.models import DeepseekVLV2Processor, DeepseekVLV2ForCausalLM
from deepseek_vl2.utils.io import load_pil_images
# 指定模型路径
model_path = "deepseek-ai/deepseek-vl2-tiny"
vl_chat_processor = DeepseekVLV2Processor.from_pretrained(model_path)
vl_model = DeepseekVLV2ForCausalLM.from_pretrained(model_path)
# 加载图像
images = load_pil_images(["path_to_image.jpg"])
# 推理
inputs = vl_chat_processor(images=images, return_tensors="pt")
outputs = vl_model.generate(**inputs)
print(outputs)

세부 기능 작동 흐름

  1. 시각적 Q&A::
    • 모델 및 프로세서를 로드합니다.
    • 이미지와 질문을 입력하면 모델이 답변을 반환합니다.
  2. 광학 문자 인식(OCR)::
    • 활용 DeepseekVLV2Processor 이미지 로드.
    • 이 모델은 이미지의 텍스트를 추출하기 위해 추론을 위해 호출됩니다.
  3. 문서 이해::
    • 문서 이미지가 포함된 입력을 로드합니다.
    • 모델은 문서 구조를 구문 분석하고 구문 분석 결과를 반환합니다.
  4. 양식 이해::
    • 양식이 포함된 이미지를 입력합니다.
    • 모델은 양식의 구조와 내용을 인식하고 주요 정보를 추출합니다.
  5. 그래픽 이해::
    • 차트 이미지를 로드합니다.
    • 이 모델은 그래픽 데이터를 분석하여 해석과 추세 분석을 제공합니다.
  6. 시각적 방향::
    • 대상 개체에 대한 설명과 이미지를 입력합니다.
    • 모델은 이미지에서 대상 개체를 찾아 위치 좌표를 반환합니다.

위의 단계를 통해 사용자는 DeepSeek-VL2의 강력한 기능을 최대한 활용하여 다양하고 복잡한 시각 언어 작업을 완료할 수 있습니다.

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...