Мультимодальная большая модель DeepSeek Janus-Pro с обучающими программами, устанавливаемая в один клик
Сегодня мы познакомим вас с мощной мультимодальной моделью с открытым исходным кодом - DeepSeek Последняя версия серии Janus Janus-Pro . Он может не только читать картинки и отвечать на вопросы, но и генерировать картинки на основе текстовых описаний. Одним словом, он объединяет в себе способность видеть картинки, подобную GPT-4V, и способность рисовать картинки из Stable Diffusion.
В этом посте мы расскажем о плюсах и минусах Janus, о том, как его использовать, о связанных с развертыванием и интеграцией пакетах.

Что такое Янус?
DeepSeek с открытым исходным кодом мультимодальная большая модель, проще говоря, это модель, которая может понимать содержимое картинки и генерировать изображения. В настоящее время существует три версии модели, соответственно: Janus, JanusFlow, Janus-Pro.
Читать далее:DeepSeek выпускает унифицированные мультимодальные модели понимания и генеративные модели: от JanusFlow до Janus-Pro
Испытание Януса
Распознавание цветов
Здесь я загрузил фотографию шлема другого цвета и предоставил Янусу интерпретировать картинку.

Ответ Януса.
На этой картинке изображены четыре шлема: красный, белый, желтый и синий. В каждой каске есть вентиляционное отверстие для вентиляции и отвода тепла. Такие каски обычно используются на строительных площадках, на заводах и в других рабочих условиях, где требуется защитное снаряжение. Фон изображения белый, что делает цвета защитных касок более заметными.
Видно, что Янус безошибочно определяет цвет и количество шлемов.
распознавание объектов
Здесь я нашел картинку станка с ЧПУ и бросил ее в Janus, чтобы посмотреть, поймет ли он ее.

Ответ Януса.
Это промышленный станок, в частности, станок с числовым программным управлением (ЧПУ). На передней панели станка находится панель управления с несколькими кнопками и дисплеями для управления и контроля работы станка. В левой части станка находится регулируемый лоток для хранения заготовок или материалов. В верхней части станка находится вентилятор для охлаждения рабочей зоны. На боковых и передней панелях станка расположено несколько дисплеев и индикаторов, отображающих состояние станка и рабочую информацию. На передней и боковых панелях машины нанесен логотип "VNT-600L", указывающий на то, что это модель 600L марки VNT. Общий дизайн современен и функционален, подходит для точной обработки и производства.
Здесь есть некоторые проблемы, правильно, что Janus способен распознать этот станок с ЧПУ, включая общую структуру всего станка. Однако логотип "VNT-600L" обозначен здесь неверно, он должен быть VMC850L.
распознавание текста
Вот тест на официальном примере, и вы можете увидеть, что Janus также распознает математические формулы.

Ответ Януса.
Эта формула представляет собой определение функции (A_n), которая описывает положение числа (n) в множестве (S). Точнее, формула определяет значение функции (A_n), которое зависит от положения числа (n) в множестве (S).
В частности, формула определяется следующим образом:
[A_n = a_0 left[ 1 + frac{3}{4} sum_{k=1}^{n} frac{4}{9} right]^{k}
]
Эта формула может быть интерпретирована как:
- Функция (a_0) - это константа, определяющая начальное значение функции (A_n).
- Значение функции (A_n) зависит от положения (n) в множестве (S).
- Положение (n) в (S) представлено числом (k), значение которого зависит от положения (n) в множестве (S).
Эта формула может быть использована для вычисления значения (A_n) в множестве (S), где (S) - множество, содержащее (n).
В некоторых случаях распознавание текста не является идеальным, как, например, на следующем рисунке

Диаграмма Винсенса
Еще один большой плюс Janus - это графика для генерации текста, но, используя ее, я не чувствую, что она великолепна. Генерация не быстрая, а графической памяти требуется много.


Но... Что-то лучше, чем ничего 👍🏻
Различия между разными версиями серии Janus
- Janus, версия первого поколения, впервые представила концепцию "визуальной развязки". Размер модели: 1,3B параметры.
- JanusFlow, версия второго поколения, улучшает метод генерации изображений по сравнению со своим предшественником, увеличивая скорость и качество генерации изображений.
- Последняя версия Janus-Pro полностью обновлена и значительно улучшает восприятие модели. Размер модели: есть две версии, 1B и 7B.
Три версии - это как постоянные обновления одного и того же продукта, со значительными улучшениями в каждом поколении, и Janus-Pro, безусловно, является самой мощной версией.
локальное развертывание
Python версии 3.10
git clone https://github.com/deepseek-ai/Janus.git
pip install -e .
python demo/app_januspro.py
Изменить модель
У Janus-Pro есть две версии модели, 1B и 7B, для разных моделей требуется разная видеопамять, по сравнению с 1B, 7B является лучшей.
В MAC-версии Integration Pack, которую я предоставил, по умолчанию используется модель 1B.
Если у вас достаточно памяти и вы хотите использовать модель 7B, вы можете установитьdemo/app_januspro.py
скриптыload_model
метод в
model_path = "deepseek-ai/Janus-Pro-1B"
измениться
model_path = "deepseek-ai/Janus-Pro-7B"
Конечно, приятелям windows не стоит беспокоиться об этом, ведь на выбор есть варианты загрузки 1B и 7B.
Выполняемая конфигурация
WIN
Windows NVIDIA Graphics 1B Требуется 8 Гб видеопамяти
Для запуска пакета интеграции требуется поддержка CUDA. Необходимо наличие cuda12.4.
https://developer.nvidia.com/cuda-12-4-0-download-archive
MAC
MAC здесь, чтобы учесть конфигурацию большинства пользователей, я поместил только 1B версию модели, если вам нужна 7B, вы можете обратиться к шагам в разделе развертывания выше, чтобы изменить модель.
Для MAC-версии я провел оптимизацию памяти, чтобы вовремя освободить память и избежать ее избыточности.MAC Apple Silicon M1/M2/M3/M4 чипы 16G памяти.
написать в конце
Видите ли, здесь могут быть небольшие партнеры, которые будут чувствовать, что применение этого проекта является относительно ограниченной сценой. Но, как я понимаю, были партнеры, чтобы использовать мощные возможности графического понимания Janus, инженерные чертежи, технические документы и другую PDF информацию в интеллектуальную базу знаний.
Вот скриншот, который он мне прислал:

Более того, если вы читали мой последний пост о WeChat BOT, то вполне возможно подключить Janus и дать вашему боту возможность просматривать и генерировать изображения!
Получите программу установки Janus-Pro одним щелчком мыши
Tootsie Labs Edition (то же название, что и у публичной версии)
Кварк:
https://pan.quark.cn/s/55f98151a84c
Baidu.
https://pan.baidu.com/s/19Oy6bbzCv8dL3GtOKffAlg?pwd=xiyi
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...