DeepSeek-VL2: экспертная модель визуального языка для расширенного мультимодального понимания

Общее введение

DeepSeek-VL2 - это серия усовершенствованных визуальных языковых моделей Mixture-of-Experts (MoE), которые значительно превосходят по производительности свою предшественницу DeepSeek-VL. Модели отлично справляются с такими задачами, как визуальный ответ на вопрос, оптическое распознавание символов, понимание документов/таблиц/диаграмм и визуальная локализация. Семейство DeepSeek-VL2 состоит из трех вариантов: DeepSeek-VL2-Tiny, DeepSeek-VL2-Small и DeepSeek-VL2, которые имеют 1,0B, 2,8B и 4,5B параметров активации соответственно. параметров активации, соответственно. Эти модели по производительности сопоставимы или превосходят существующие открытые модели плотности и MoE с аналогичным или меньшим числом параметров.

DeepSeek-VL2:高级多模态理解的专家级视觉语言模型

Демо: https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small

DeepSeek-VL2:高级多模态理解的专家级视觉语言模型

 

Список функций

  • Визуальные вопросы и ответы: Поддерживает сложные задания визуальных викторин, предоставляя точные ответы.
  • Оптическое распознавание символов (OCR)Эффективное распознавание текстового содержимого на изображениях.
  • Понимание документов: Разбор и понимание сложной структуры и содержания документов.
  • Понимание формы: Идентификация и обработка табличных данных для извлечения полезной информации.
  • Графическое пониманиеАнализировать и интерпретировать данные и тенденции на графиках и диаграммах.
  • визуальная ориентация: Точное определение местоположения целевого объекта на изображении.
  • Поддержка нескольких вариантовДля удовлетворения различных потребностей предлагаются модели Tiny, Small и Standard.
  • Высокая производительность: Сокращение количества параметров активации при сохранении высокой производительности.

 

Использование помощи

Процесс установки

  1. Убедитесь, что версия Python >= 3.8.
  2. Клонирование репозитория DeepSeek-VL2:
   git clone https://github.com/deepseek-ai/DeepSeek-VL2.git
  1. Перейдите в каталог проекта и установите необходимые зависимости:
   cd DeepSeek-VL2
pip install -e .

Пример использования

Пример простого рассуждения

Ниже приведен пример кода для простого вывода с помощью DeepSeek-VL2:

import torch
from transformers import AutoModelForCausalLM
from deepseek_vl2.models import DeepseekVLV2Processor, DeepseekVLV2ForCausalLM
from deepseek_vl2.utils.io import load_pil_images
# 指定模型路径
model_path = "deepseek-ai/deepseek-vl2-tiny"
vl_chat_processor = DeepseekVLV2Processor.from_pretrained(model_path)
vl_model = DeepseekVLV2ForCausalLM.from_pretrained(model_path)
# 加载图像
images = load_pil_images(["path_to_image.jpg"])
# 推理
inputs = vl_chat_processor(images=images, return_tensors="pt")
outputs = vl_model.generate(**inputs)
print(outputs)

Подробный порядок работы функций

  1. Визуальные вопросы и ответы::
    • Модели загрузки и процессоры.
    • Введите изображение и вопрос, и модель выдаст ответ.
  2. Оптическое распознавание символов (OCR)::
    • пользоваться DeepseekVLV2Processor Загрузить изображение.
    • Модель вызывается для вывода, чтобы извлечь текст из изображения.
  3. Понимание документов::
    • Загружает входные данные, содержащие изображение документа.
    • Модель разбирает структуру документа и возвращает результат разбора.
  4. Понимание формы::
    • Введите изображение, содержащее форму.
    • Модель распознает структуру и содержание формы и извлекает ключевую информацию.
  5. Графическое понимание::
    • Загрузите изображение графика.
    • Модель анализирует графические данные, обеспечивая интерпретацию и анализ тенденций.
  6. визуальная ориентация::
    • Введите описание и изображение целевого объекта.
    • Модель определяет местоположение целевого объекта на изображении и возвращает координаты его положения.

Выполнив описанные выше действия, пользователи смогут в полной мере использовать возможности DeepSeek-VL2 для выполнения различных сложных задач, связанных с визуальным языком.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...