Мультимодальная большая модель DeepSeek Janus-Pro с обучающими программами, устанавливаемая в один клик

Сегодня мы познакомим вас с мощной мультимодальной моделью с открытым исходным кодом - DeepSeek Последняя версия серии Janus Janus-Pro . Он может не только читать картинки и отвечать на вопросы, но и генерировать картинки на основе текстовых описаний. Одним словом, он объединяет в себе способность видеть картинки, подобную GPT-4V, и способность рисовать картинки из Stable Diffusion.

В этом посте мы расскажем о плюсах и минусах Janus, о том, как его использовать, о связанных с развертыванием и интеграцией пакетах.

DeepSeek 多模态大模型 Janus-Pro 一键安装包,附使用教程

 

Что такое Янус?

DeepSeek с открытым исходным кодом мультимодальная большая модель, проще говоря, это модель, которая может понимать содержимое картинки и генерировать изображения. В настоящее время существует три версии модели, соответственно: Janus, JanusFlow, Janus-Pro.

Читать далее:DeepSeek выпускает унифицированные мультимодальные модели понимания и генеративные модели: от JanusFlow до Janus-Pro

 

Испытание Януса

Распознавание цветов

Здесь я загрузил фотографию шлема другого цвета и предоставил Янусу интерпретировать картинку.

DeepSeek 多模态大模型 Janus-Pro 一键安装包,附使用教程

Ответ Януса.

На этой картинке изображены четыре шлема: красный, белый, желтый и синий. В каждой каске есть вентиляционное отверстие для вентиляции и отвода тепла. Такие каски обычно используются на строительных площадках, на заводах и в других рабочих условиях, где требуется защитное снаряжение. Фон изображения белый, что делает цвета защитных касок более заметными.

Видно, что Янус безошибочно определяет цвет и количество шлемов.

распознавание объектов

Здесь я нашел картинку станка с ЧПУ и бросил ее в Janus, чтобы посмотреть, поймет ли он ее.

DeepSeek 多模态大模型 Janus-Pro 一键安装包,附使用教程

Ответ Януса.

Это промышленный станок, в частности, станок с числовым программным управлением (ЧПУ). На передней панели станка находится панель управления с несколькими кнопками и дисплеями для управления и контроля работы станка. В левой части станка находится регулируемый лоток для хранения заготовок или материалов. В верхней части станка находится вентилятор для охлаждения рабочей зоны. На боковых и передней панелях станка расположено несколько дисплеев и индикаторов, отображающих состояние станка и рабочую информацию. На передней и боковых панелях машины нанесен логотип "VNT-600L", указывающий на то, что это модель 600L марки VNT. Общий дизайн современен и функционален, подходит для точной обработки и производства.

Здесь есть некоторые проблемы, правильно, что Janus способен распознать этот станок с ЧПУ, включая общую структуру всего станка. Однако логотип "VNT-600L" обозначен здесь неверно, он должен быть VMC850L.

 

распознавание текста

Вот тест на официальном примере, и вы можете увидеть, что Janus также распознает математические формулы.

DeepSeek 多模态大模型 Janus-Pro 一键安装包,附使用教程

Ответ Януса.

Эта формула представляет собой определение функции (A_n), которая описывает положение числа (n) в множестве (S). Точнее, формула определяет значение функции (A_n), которое зависит от положения числа (n) в множестве (S).

В частности, формула определяется следующим образом:

[

A_n = a_0 left[ 1 + frac{3}{4} sum_{k=1}^{n} frac{4}{9} right]^{k}

]

Эта формула может быть интерпретирована как:

  1. Функция (a_0) - это константа, определяющая начальное значение функции (A_n).
  2. Значение функции (A_n) зависит от положения (n) в множестве (S).
  3. Положение (n) в (S) представлено числом (k), значение которого зависит от положения (n) в множестве (S).

Эта формула может быть использована для вычисления значения (A_n) в множестве (S), где (S) - множество, содержащее (n).

В некоторых случаях распознавание текста не является идеальным, как, например, на следующем рисунке

DeepSeek 多模态大模型 Janus-Pro 一键安装包,附使用教程

 

Диаграмма Винсенса

Еще один большой плюс Janus - это графика для генерации текста, но, используя ее, я не чувствую, что она великолепна. Генерация не быстрая, а графической памяти требуется много.

DeepSeek 多模态大模型 Janus-Pro 一键安装包,附使用教程DeepSeek 多模态大模型 Janus-Pro 一键安装包,附使用教程

Но... Что-то лучше, чем ничего 👍🏻

 

Различия между разными версиями серии Janus

  • Janus, версия первого поколения, впервые представила концепцию "визуальной развязки". Размер модели: 1,3B параметры.
  • JanusFlow, версия второго поколения, улучшает метод генерации изображений по сравнению со своим предшественником, увеличивая скорость и качество генерации изображений.
  • Последняя версия Janus-Pro полностью обновлена и значительно улучшает восприятие модели. Размер модели: есть две версии, 1B и 7B.

Три версии - это как постоянные обновления одного и того же продукта, со значительными улучшениями в каждом поколении, и Janus-Pro, безусловно, является самой мощной версией.

 

локальное развертывание

Python версии 3.10

git clone https://github.com/deepseek-ai/Janus.git
pip install -e .
python demo/app_januspro.py

 

Изменить модель

У Janus-Pro есть две версии модели, 1B и 7B, для разных моделей требуется разная видеопамять, по сравнению с 1B, 7B является лучшей.

В MAC-версии Integration Pack, которую я предоставил, по умолчанию используется модель 1B.

Если у вас достаточно памяти и вы хотите использовать модель 7B, вы можете установитьdemo/app_januspro.pyскриптыload_modelметод в

model_path = "deepseek-ai/Janus-Pro-1B"

измениться

model_path = "deepseek-ai/Janus-Pro-7B"

Конечно, приятелям windows не стоит беспокоиться об этом, ведь на выбор есть варианты загрузки 1B и 7B.

 

Выполняемая конфигурация

WIN

Windows NVIDIA Graphics 1B Требуется 8 Гб видеопамяти

Для запуска пакета интеграции требуется поддержка CUDA. Необходимо наличие cuda12.4.

https://developer.nvidia.com/cuda-12-4-0-download-archive

MAC

 

MAC здесь, чтобы учесть конфигурацию большинства пользователей, я поместил только 1B версию модели, если вам нужна 7B, вы можете обратиться к шагам в разделе развертывания выше, чтобы изменить модель.

Для MAC-версии я провел оптимизацию памяти, чтобы вовремя освободить память и избежать ее избыточности.MAC Apple Silicon M1/M2/M3/M4 чипы 16G памяти.

 

написать в конце

Видите ли, здесь могут быть небольшие партнеры, которые будут чувствовать, что применение этого проекта является относительно ограниченной сценой. Но, как я понимаю, были партнеры, чтобы использовать мощные возможности графического понимания Janus, инженерные чертежи, технические документы и другую PDF информацию в интеллектуальную базу знаний.

Вот скриншот, который он мне прислал:

DeepSeek 多模态大模型 Janus-Pro 一键安装包,附使用教程

Более того, если вы читали мой последний пост о WeChat BOT, то вполне возможно подключить Janus и дать вашему боту возможность просматривать и генерировать изображения!

 

Получите программу установки Janus-Pro одним щелчком мыши

Tootsie Labs Edition (то же название, что и у публичной версии)

Кварк:
https://pan.quark.cn/s/55f98151a84c

Baidu.
https://pan.baidu.com/s/19Oy6bbzCv8dL3GtOKffAlg?pwd=xiyi

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...