DeepSeek-VL2: экспертная модель визуального языка для расширенного мультимодального понимания

Последние ресурсы по искусственному интеллектуОпубликовано 11 месяцев назад Круг обмена ИИ

51.9K 00

Общее введение

DeepSeek-VL2 - это серия усовершенствованных визуальных языковых моделей Mixture-of-Experts (MoE), которые значительно превосходят по производительности свою предшественницу DeepSeek-VL. Модели отлично справляются с такими задачами, как визуальный ответ на вопрос, оптическое распознавание символов, понимание документов/таблиц/диаграмм и визуальная локализация. Семейство DeepSeek-VL2 состоит из трех вариантов: DeepSeek-VL2-Tiny, DeepSeek-VL2-Small и DeepSeek-VL2, которые имеют 1,0B, 2,8B и 4,5B параметров активации соответственно. параметров активации, соответственно. Эти модели по производительности сопоставимы или превосходят существующие открытые модели плотности и MoE с аналогичным или меньшим числом параметров.

Демо: https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small

Список функций

Визуальные вопросы и ответы: Поддерживает сложные задания визуальных викторин, предоставляя точные ответы.
Оптическое распознавание символов (OCR)Эффективное распознавание текстового содержимого на изображениях.
Понимание документов: Разбор и понимание сложной структуры и содержания документов.
Понимание формы: Идентификация и обработка табличных данных для извлечения полезной информации.
Графическое пониманиеАнализировать и интерпретировать данные и тенденции на графиках и диаграммах.
визуальная ориентация: Точное определение местоположения целевого объекта на изображении.
Поддержка нескольких вариантовДля удовлетворения различных потребностей предлагаются модели Tiny, Small и Standard.
Высокая производительность: Сокращение количества параметров активации при сохранении высокой производительности.

Использование помощи

Процесс установки

Убедитесь, что версия Python >= 3.8.
Клонирование репозитория DeepSeek-VL2:

   git clone https://github.com/deepseek-ai/DeepSeek-VL2.git

Перейдите в каталог проекта и установите необходимые зависимости:

   cd DeepSeek-VL2
pip install -e .

Пример использования

Пример простого рассуждения

Ниже приведен пример кода для простого вывода с помощью DeepSeek-VL2:

import torch
from transformers import AutoModelForCausalLM
from deepseek_vl2.models import DeepseekVLV2Processor, DeepseekVLV2ForCausalLM
from deepseek_vl2.utils.io import load_pil_images
# 指定模型路径
model_path = "deepseek-ai/deepseek-vl2-tiny"
vl_chat_processor = DeepseekVLV2Processor.from_pretrained(model_path)
vl_model = DeepseekVLV2ForCausalLM.from_pretrained(model_path)
# 加载图像
images = load_pil_images(["path_to_image.jpg"])
# 推理
inputs = vl_chat_processor(images=images, return_tensors="pt")
outputs = vl_model.generate(**inputs)
print(outputs)

Подробный порядок работы функций

Визуальные вопросы и ответы::
- Модели загрузки и процессоры.
- Введите изображение и вопрос, и модель выдаст ответ.
Оптическое распознавание символов (OCR)::
- пользоваться DeepseekVLV2Processor Загрузить изображение.
- Модель вызывается для вывода, чтобы извлечь текст из изображения.
Понимание документов::
- Загружает входные данные, содержащие изображение документа.
- Модель разбирает структуру документа и возвращает результат разбора.
Понимание формы::
- Введите изображение, содержащее форму.
- Модель распознает структуру и содержание формы и извлекает ключевую информацию.
Графическое понимание::
- Загрузите изображение графика.
- Модель анализирует графические данные, обеспечивая интерпретацию и анализ тенденций.
визуальная ориентация::
- Введите описание и изображение целевого объекта.
- Модель определяет местоположение целевого объекта на изображении и возвращает координаты его положения.

Выполнив описанные выше действия, пользователи смогут в полной мере использовать возможности DeepSeek-VL2 для выполнения различных сложных задач, связанных с визуальным языком.

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Мультимодальные интерактивные продукты в реальном времени

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Shangtang Ruyi - платформа для производства цифрового человеческого видео с искусственным интеллектом, запущенная компанией Shangtang Technology

Последние ресурсы по искусственному интеллекту

7 месяцев назад

030K

Pieces OS：逆向Pieces-OS GRPC转换为OpenAI接口（失效）

Pieces OS: обратное преобразование Pieces-OS GRPC в интерфейс OpenAI (не удалось)

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Бесплатная большая модель API

1 год назад

038.6K

OpenDeepResearcher: автоматизированный инструмент для написания полных исследовательских отчетов

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Создание отчета об углубленном исследовании

9 месяцев назад

036.3K

cognee: фреймворк с открытым исходным кодом для построения RAG на основе графа знаний, обучение по основным подсказкам

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct График знаний ## Поиск знаний и RAG Framework

11 месяцев назад

055.1K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

DeepSeek-VL2: экспертная модель визуального языка для расширенного мультимодального понимания

Общее введение

Список функций

Использование помощи

Процесс установки

Пример использования

Пример простого рассуждения

Подробный порядок работы функций

Zonos: высококачественный синтез речи и инструменты для клонирования речи

Meetily: ИИ-помощник для создания протоколов совещаний, расшифровки и составления резюме совещаний в режиме реального времени

Похожие статьи

Shangtang Ruyi - платформа для производства цифрового человеческого видео с искусственным интеллектом, запущенная компанией Shangtang Technology

Pieces OS: обратное преобразование Pieces-OS GRPC в интерфейс OpenAI (не удалось)

OpenDeepResearcher: автоматизированный инструмент для написания полных исследовательских отчетов

cognee: фреймворк с открытым исходным кодом для построения RAG на основе графа знаний, обучение по основным подсказкам

Нет комментариев

Последние коллекции

Последние статьи

DeepSeek-VL2: экспертная модель визуального языка для расширенного мультимодального понимания

Общее введение

Список функций

Использование помощи

Процесс установки

Пример использования

Пример простого рассуждения

Подробный порядок работы функций

Zonos: высококачественный синтез речи и инструменты для клонирования речи

Meetily: ИИ-помощник для создания протоколов совещаний, расшифровки и составления резюме совещаний в режиме реального времени

Похожие статьи

Shangtang Ruyi - платформа для производства цифрового человеческого видео с искусственным интеллектом, запущенная компанией Shangtang Technology

Pieces OS: обратное преобразование Pieces-OS GRPC в интерфейс OpenAI (не удалось)

OpenDeepResearcher: автоматизированный инструмент для написания полных исследовательских отчетов

cognee: фреймворк с открытым исходным кодом для построения RAG на основе графа знаний, обучение по основным подсказкам

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи