DeepSeek Multimodal Large Model Janus-Pro Instalador de un solo clic con tutoriales

Hoy le presentamos un potente modelo multimodal de código abierto: el DeepSeek La última versión de la serie Janus Janus-Pro . No sólo puede leer imágenes y responder preguntas, sino también generar imágenes basadas en descripciones de texto. En resumen, integra la capacidad de ver imágenes similar a GPT-4V y la capacidad de dibujar imágenes de Stable Diffusion.

Este post comparte algunos pros y contras de Janus, cómo usarlo, relacionados con el despliegue y paquetes de integración.

DeepSeek 多模态大模型 Janus-Pro 一键安装包,附使用教程

 

¿Qué es Janus?

DeepSeek open source multimodal large model, en pocas palabras, es un modelo que puede entender el contenido de la imagen y generar imágenes. Actualmente existen tres versiones del modelo , respectivamente : Janus, JanusFlow, Janus-Pro.

Más información:DeepSeek lanza la comprensión multimodal unificada y los modelos generativos: de JanusFlow a Janus-Pro

 

Prueba Janus

Reconocimiento de colores

Aquí he subido una foto de un casco de otro color y he dejado que Janus interprete la imagen.

DeepSeek 多模态大模型 Janus-Pro 一键安装包,附使用教程

Respuesta de Janus.

Esta imagen muestra cuatro cascos, rojo, blanco, amarillo y azul. Cada casco tiene un orificio de ventilación y disipación del calor. Estos cascos suelen utilizarse en obras de construcción, fábricas u otros entornos de trabajo en los que se requiere equipo de seguridad. El fondo de la imagen es blanco, lo que hace más visibles los colores de los cascos de seguridad.

Se puede ver a Janus identificar con precisión el color y el número de cascos.

reconocimiento de objetos

Aquí encontré una foto de una máquina CNC y se la lancé a Janus para ver si la entendía.

DeepSeek 多模态大模型 Janus-Pro 一键安装包,附使用教程

Respuesta de Janus.

Se trata de una máquina industrial, concretamente una máquina herramienta de control numérico (máquina CNC). La parte frontal de la máquina tiene un panel de control con varios botones y pantallas para manejar y supervisar la máquina. El lado izquierdo de la máquina tiene una bandeja ajustable para sostener piezas de trabajo o materiales. La parte superior de la máquina tiene un ventilador de refrigeración para mantener fría la zona de trabajo. En los paneles laterales y frontal de la máquina hay una serie de pantallas e indicadores que muestran el estado de la máquina y la información de funcionamiento. La parte frontal y los laterales de la máquina están marcados con el logotipo "VNT-600L", que indica que se trata del modelo 600L de la marca VNT. El diseño general es moderno y funcional, adecuado para el mecanizado y la fabricación de precisión.

Hay algunos problemas aquí, es correcto que Janus es capaz de reconocer esta máquina CNC, incluyendo la estructura general de toda la máquina. Sin embargo, el logotipo "VNT-600L" se identifica incorrectamente aquí, debería ser VMC850L.

 

reconocimiento de texto

Aquí tiene una prueba con el ejemplo oficial, y puede ver que Janus también reconoce fórmulas matemáticas.

DeepSeek 多模态大模型 Janus-Pro 一键安装包,附使用教程

Respuesta de Janus.

Esta fórmula es la definición de una función (A_n) que describe la posición de un número (n) en un conjunto (S). En concreto, la fórmula define el valor de una función (A_n) que depende de la posición de un número (n) en un conjunto (S).

En concreto, la fórmula se define del siguiente modo:

[

A_n = a_0 izquierda[ 1 + frac{3}{4} suma_{k=1}^{n} frac{4}{9} derecha]^{k}

]

Esta fórmula puede interpretarse como:

  1. La función (a_0) es una constante que define el valor inicial de la función (A_n).
  2. El valor de la función (A_n) depende de la posición de (n) en el conjunto (S).
  3. La posición de (n) en (S) se representa mediante un número (k) cuyo valor depende de la posición de (n) en el conjunto (S).

Esta fórmula se puede utilizar para calcular el valor de (A_n) en el conjunto (S), donde (S) es un conjunto que contiene (n).

En algunos casos, el reconocimiento del texto no es el ideal, como en la siguiente figura

DeepSeek 多模态大模型 Janus-Pro 一键安装包,附使用教程

 

Diagrama de Vincennes

El otro gran atractivo de Janus es el gráfico de generación de texto, pero usándolo, no me parece genial. La generación no es rápida y la memoria gráfica requerida es alta.

DeepSeek 多模态大模型 Janus-Pro 一键安装包,附使用教程DeepSeek 多模态大模型 Janus-Pro 一键安装包,附使用教程

Pero... Algo es mejor que nada 👍🏻

 

Diferencias entre las distintas versiones de la serie Janus

  • Janus, la versión de primera generación, introdujo por primera vez el concepto de "desacoplamiento visual". Tamaño del modelo: 1,3B parámetros.
  • JanusFlow, la versión de segunda generación, mejora el método de generación de imágenes en comparación con su predecesor, aumentando la velocidad y la calidad de la generación de imágenes.
  • Janus-Pro, la última versión, está totalmente actualizada y mejora sustancialmente la comprensión del modelo. Tamaño del modelo: hay dos versiones, 1B y 7B.

Las tres versiones son como actualizaciones constantes del mismo producto, con mejoras significativas en cada generación, y la Janus-Pro es, con diferencia, la versión más potente.

 

despliegue local

Python versión 3.10

git clone https://github.com/deepseek-ai/Janus.git
pip install -e .
python demo/app_januspro.py

 

Modificar el modelo

Janus-Pro tiene dos versiones del modelo, 1B y 7B, diferentes modelos requieren diferente memoria de vídeo, en comparación con 1B, 7B es el mejor.

En la versión MAC del paquete de integración que proporcioné, se utiliza por defecto el modelo 1B.

Si dispone de memoria suficiente y desea utilizar un modelo 7B, puede configurar la opcióndemo/app_januspro.pyguionesload_modelen el método

model_path = "deepseek-ai/Janus-Pro-1B"

modificar para

model_path = "deepseek-ai/Janus-Pro-7B"

Por supuesto, los amigos de Windows no tienen que preocuparse por esto, hay opciones de arranque 1B y 7B para elegir.

 

Configuración operativa

GANA

Windows NVIDIA Graphics 1B Requiere 8 G de memoria de vídeo

Para que el paquete de integración funcione, se necesita compatibilidad con CUDA. cuda12.4 es necesario.

https://developer.nvidia.com/cuda-12-4-0-download-archive

MAC

 

MAC aquí para considerar la configuración de la mayoría de los usuarios, sólo puse la versión 1B del modelo, si usted necesita 7B puede referirse a los pasos en la sección de despliegue de arriba para modificar el modelo.

Para la versión MAC hice una optimización de memoria para liberar memoria a tiempo y evitar redundancia de memoria.MAC Apple Silicon M1/M2/M3/M4 chips 16G de memoria.

 

escribir al final

Ver aquí, puede haber pequeños socios sentirán que la aplicación de este proyecto es relativamente limitada escena. Pero según tengo entendido, ha habido socios para utilizar Janus poderosas capacidades de comprensión gráfica, dibujos de ingeniería, documentos técnicos y otra información PDF en una base de conocimiento inteligente.

Aquí está la captura de pantalla que me envió:

DeepSeek 多模态大模型 Janus-Pro 一键安装包,附使用教程

Mejor aún, si lees mi último post sobre WeChat BOT, ¡es totalmente posible conectar Janus y darle a tu bot la capacidad de mirar y generar imágenes también!

 

Obtenga el instalador de Janus-Pro en un clic

Edición Tootsie Labs (mismo nombre que la pública)

Quark:
https://pan.quark.cn/s/55f98151a84c

Baidu.
https://pan.baidu.com/s/19Oy6bbzCv8dL3GtOKffAlg?pwd=xiyi

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...