DeepSeek Multimodal Large Model Janus-Pro Instalador de un solo clic con tutoriales
Tutoriales prácticos sobre IAPublicado hace 7 meses Círculo de intercambio de inteligencia artificial 11.4K 00
Hoy le presentamos un potente modelo multimodal de código abierto: el DeepSeek La última versión de la serie Janus Janus-Pro . No sólo puede leer imágenes y responder preguntas, sino también generar imágenes basadas en descripciones de texto. En resumen, integra la capacidad de ver imágenes similar a GPT-4V y la capacidad de dibujar imágenes de Stable Diffusion.
Este post comparte algunos pros y contras de Janus, cómo usarlo, relacionados con el despliegue y paquetes de integración.

¿Qué es Janus?
DeepSeek open source multimodal large model, en pocas palabras, es un modelo que puede entender el contenido de la imagen y generar imágenes. Actualmente existen tres versiones del modelo , respectivamente : Janus, JanusFlow, Janus-Pro.
Más información:DeepSeek lanza la comprensión multimodal unificada y los modelos generativos: de JanusFlow a Janus-Pro
Prueba Janus
Reconocimiento de colores
Aquí he subido una foto de un casco de otro color y he dejado que Janus interprete la imagen.

Respuesta de Janus.
Esta imagen muestra cuatro cascos, rojo, blanco, amarillo y azul. Cada casco tiene un orificio de ventilación y disipación del calor. Estos cascos suelen utilizarse en obras de construcción, fábricas u otros entornos de trabajo en los que se requiere equipo de seguridad. El fondo de la imagen es blanco, lo que hace más visibles los colores de los cascos de seguridad.
Se puede ver a Janus identificar con precisión el color y el número de cascos.
reconocimiento de objetos
Aquí encontré una foto de una máquina CNC y se la lancé a Janus para ver si la entendía.

Respuesta de Janus.
Se trata de una máquina industrial, concretamente una máquina herramienta de control numérico (máquina CNC). La parte frontal de la máquina tiene un panel de control con varios botones y pantallas para manejar y supervisar la máquina. El lado izquierdo de la máquina tiene una bandeja ajustable para sostener piezas de trabajo o materiales. La parte superior de la máquina tiene un ventilador de refrigeración para mantener fría la zona de trabajo. En los paneles laterales y frontal de la máquina hay una serie de pantallas e indicadores que muestran el estado de la máquina y la información de funcionamiento. La parte frontal y los laterales de la máquina están marcados con el logotipo "VNT-600L", que indica que se trata del modelo 600L de la marca VNT. El diseño general es moderno y funcional, adecuado para el mecanizado y la fabricación de precisión.
Hay algunos problemas aquí, es correcto que Janus es capaz de reconocer esta máquina CNC, incluyendo la estructura general de toda la máquina. Sin embargo, el logotipo "VNT-600L" se identifica incorrectamente aquí, debería ser VMC850L.
reconocimiento de texto
Aquí tiene una prueba con el ejemplo oficial, y puede ver que Janus también reconoce fórmulas matemáticas.

Respuesta de Janus.
Esta fórmula es la definición de una función (A_n) que describe la posición de un número (n) en un conjunto (S). En concreto, la fórmula define el valor de una función (A_n) que depende de la posición de un número (n) en un conjunto (S).
En concreto, la fórmula se define del siguiente modo:
[A_n = a_0 izquierda[ 1 + frac{3}{4} suma_{k=1}^{n} frac{4}{9} derecha]^{k}
]
Esta fórmula puede interpretarse como:
- La función (a_0) es una constante que define el valor inicial de la función (A_n).
- El valor de la función (A_n) depende de la posición de (n) en el conjunto (S).
- La posición de (n) en (S) se representa mediante un número (k) cuyo valor depende de la posición de (n) en el conjunto (S).
Esta fórmula se puede utilizar para calcular el valor de (A_n) en el conjunto (S), donde (S) es un conjunto que contiene (n).
En algunos casos, el reconocimiento del texto no es el ideal, como en la siguiente figura

Diagrama de Vincennes
El otro gran atractivo de Janus es el gráfico de generación de texto, pero usándolo, no me parece genial. La generación no es rápida y la memoria gráfica requerida es alta.


Pero... Algo es mejor que nada 👍🏻
Diferencias entre las distintas versiones de la serie Janus
- Janus, la versión de primera generación, introdujo por primera vez el concepto de "desacoplamiento visual". Tamaño del modelo: 1,3B parámetros.
- JanusFlow, la versión de segunda generación, mejora el método de generación de imágenes en comparación con su predecesor, aumentando la velocidad y la calidad de la generación de imágenes.
- Janus-Pro, la última versión, está totalmente actualizada y mejora sustancialmente la comprensión del modelo. Tamaño del modelo: hay dos versiones, 1B y 7B.
Las tres versiones son como actualizaciones constantes del mismo producto, con mejoras significativas en cada generación, y la Janus-Pro es, con diferencia, la versión más potente.
despliegue local
Python versión 3.10
git clone https://github.com/deepseek-ai/Janus.git
pip install -e .
python demo/app_januspro.py
Modificar el modelo
Janus-Pro tiene dos versiones del modelo, 1B y 7B, diferentes modelos requieren diferente memoria de vídeo, en comparación con 1B, 7B es el mejor.
En la versión MAC del paquete de integración que proporcioné, se utiliza por defecto el modelo 1B.
Si dispone de memoria suficiente y desea utilizar un modelo 7B, puede configurar la opcióndemo/app_januspro.py
guionesload_model
en el método
model_path = "deepseek-ai/Janus-Pro-1B"
modificar para
model_path = "deepseek-ai/Janus-Pro-7B"
Por supuesto, los amigos de Windows no tienen que preocuparse por esto, hay opciones de arranque 1B y 7B para elegir.
Configuración operativa
GANA
Windows NVIDIA Graphics 1B Requiere 8 G de memoria de vídeo
Para que el paquete de integración funcione, se necesita compatibilidad con CUDA. cuda12.4 es necesario.
https://developer.nvidia.com/cuda-12-4-0-download-archive
MAC
MAC aquí para considerar la configuración de la mayoría de los usuarios, sólo puse la versión 1B del modelo, si usted necesita 7B puede referirse a los pasos en la sección de despliegue de arriba para modificar el modelo.
Para la versión MAC hice una optimización de memoria para liberar memoria a tiempo y evitar redundancia de memoria.MAC Apple Silicon M1/M2/M3/M4 chips 16G de memoria.
escribir al final
Ver aquí, puede haber pequeños socios sentirán que la aplicación de este proyecto es relativamente limitada escena. Pero según tengo entendido, ha habido socios para utilizar Janus poderosas capacidades de comprensión gráfica, dibujos de ingeniería, documentos técnicos y otra información PDF en una base de conocimiento inteligente.
Aquí está la captura de pantalla que me envió:

Mejor aún, si lees mi último post sobre WeChat BOT, ¡es totalmente posible conectar Janus y darle a tu bot la capacidad de mirar y generar imágenes también!
Obtenga el instalador de Janus-Pro en un clic
Edición Tootsie Labs (mismo nombre que la pública)
Quark:
https://pan.quark.cn/s/55f98151a84c
Baidu.
https://pan.baidu.com/s/19Oy6bbzCv8dL3GtOKffAlg?pwd=xiyi
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...