DeepSeek Multimodal Large Model Janus-Pro Installateur en un clic avec tutoriels
Aujourd'hui, nous vous présentons un puissant modèle multimodal open source - le DeepSeek La dernière version de la série Janus Janus-Pro . Il peut non seulement lire des images et répondre à des questions, mais aussi générer des images sur la base de descriptions textuelles. En bref, il intègre la capacité de voir des images similaire à GPT-4V et la capacité de dessiner des images de Stable Diffusion.
Cet article présente les avantages et les inconvénients de Janus, la manière de l'utiliser, les déploiements et les paquets d'intégration.

Qu'est-ce que Janus ?
DeepSeek open source multimodal large model, pour le dire simplement, est un modèle qui peut comprendre le contenu de l'image et générer des images. Il existe actuellement trois versions du modèle, respectivement : Janus, JanusFlow, Janus-Pro.
Lire la suite :DeepSeek publie des modèles unifiés de compréhension multimodale et de génération : de JanusFlow à Janus-Pro
Test Janus
Reconnaissance des couleurs
Ici, j'ai téléchargé une photo d'un casque de couleur différente et j'ai laissé à Janus le soin d'interpréter l'image.

Réponse de Janus.
Cette photo montre quatre casques, rouge, blanc, jaune et bleu. Chaque casque est équipé d'un évent pour la ventilation et la dissipation de la chaleur. Ces casques sont généralement utilisés sur les chantiers de construction, dans les usines ou dans d'autres environnements de travail où un équipement de sécurité est nécessaire. Le fond de l'image est blanc, ce qui rend les couleurs des casques de sécurité plus visibles.
On peut voir Janus identifier avec précision la couleur et le nombre de casques.
reconnaissance des objets
Ici, j'ai trouvé une image d'une machine à commande numérique et je l'ai lancée à Janus pour voir s'il la comprenait.

Réponse de Janus.
Il s'agit d'une machine industrielle, plus précisément d'une machine-outil à commande numérique (machine CNC). L'avant de la machine est équipé d'un panneau de commande comportant plusieurs boutons et écrans permettant d'utiliser et de surveiller la machine. Le côté gauche de la machine est équipé d'un plateau réglable destiné à recevoir des pièces ou des matériaux. La partie supérieure de la machine est équipée d'un ventilateur de refroidissement pour maintenir la zone de travail au frais. Les panneaux latéraux et avant de la machine comportent un certain nombre d'affichages et de voyants qui indiquent l'état de la machine et les informations relatives à son fonctionnement. L'avant et les côtés de la machine sont marqués du logo "VNT-600L", indiquant qu'il s'agit du modèle 600L de la marque VNT. Le design général est moderne et fonctionnel, adapté à l'usinage et à la fabrication de précision.
Il y a quelques problèmes ici, il est exact que Janus est capable de reconnaître cette machine CNC, y compris la structure générale de l'ensemble de la machine. Cependant, le logo "VNT-600L" est mal identifié ici, il devrait s'agir de VMC850L.
reconnaissance de texte
Voici un test utilisant l'exemple officiel, et vous pouvez voir que Janus reconnaît également les formules mathématiques.

Réponse de Janus.
Cette formule est la définition d'une fonction (A_n) qui décrit la position d'un nombre (n) dans un ensemble (S). Plus précisément, la formule définit la valeur d'une fonction (A_n) qui dépend de la position d'un nombre (n) dans un ensemble (S).
Plus précisément, la formule est définie comme suit :
[A_n = a_0 left[ 1 + frac{3}{4} sum_{k=1}^{n} frac{4}{9} right]^{k}
]
Cette formule peut être interprétée comme suit :
- La fonction (a_0) est une constante qui définit la valeur initiale de la fonction (A_n).
- La valeur de la fonction (A_n) dépend de la position de (n) dans l'ensemble (S).
- La position de (n) dans (S) est représentée par un nombre (k) dont la valeur dépend de la position de (n) dans l'ensemble (S).
Cette formule peut être utilisée pour calculer la valeur de (A_n) dans l'ensemble (S), où (S) est un ensemble contenant (n).
Dans certains cas, la reconnaissance du texte n'est pas idéale, comme dans la figure suivante

Schéma de Vincennes
L'autre grand atout de Janus est le graphique de génération de texte, mais en l'utilisant, je n'ai pas l'impression qu'il soit génial. Il n'est pas rapide et nécessite beaucoup de mémoire vidéo.


Mais... Mieux vaut quelque chose que rien 👍🏻
Différences entre les différentes versions de la série Janus
- Janus, la version de première génération, a introduit pour la première fois le concept de "découplage visuel". Taille du modèle : 1,3B paramètres.
- JanusFlow, la version de deuxième génération, améliore la méthode de génération d'images par rapport à son prédécesseur, augmentant ainsi la vitesse et la qualité de la génération d'images.
- Janus-Pro, la dernière version, est entièrement mise à jour et améliore considérablement la compréhension du modèle. Taille du modèle : il existe deux versions, 1B et 7B.
Les trois versions sont comme des mises à jour constantes du même produit, avec des améliorations significatives à chaque génération, et le Janus-Pro est de loin la version la plus puissante.
déploiement local
Python version 3.10
git clone https://github.com/deepseek-ai/Janus.git
pip install -e .
python demo/app_januspro.py
Modifier le modèle
Janus-Pro a deux versions du modèle, 1B et 7B, différents modèles requièrent différentes mémoires vidéo, comparé au 1B, le 7B est le meilleur.
Dans la version MAC du pack d'intégration que j'ai fourni, le modèle 1B est utilisé par défaut.
Si vous disposez de suffisamment de mémoire et que vous souhaitez utiliser un modèle 7B, vous pouvez régler le paramètredemo/app_januspro.py
scriptsload_model
dans la méthode
model_path = "deepseek-ai/Janus-Pro-1B"
modifier pour
model_path = "deepseek-ai/Janus-Pro-7B"
Bien sûr, les amis de Windows n'ont pas à se préoccuper de cela, car ils peuvent choisir entre les options de démarrage 1B et 7B.
Configuration en cours d'exécution
GAGNER
Windows NVIDIA Graphics 1B nécessite 8G de mémoire vidéo
La prise en charge de CUDA est nécessaire pour que le package d'intégration fonctionne. cuda12.4 est nécessaire.
https://developer.nvidia.com/cuda-12-4-0-download-archive
MAC
MAC ici pour tenir compte de la configuration de la plupart des utilisateurs, je ne mets que la version 1B du modèle, si vous avez besoin de la version 7B, vous pouvez vous référer aux étapes de la section déploiement ci-dessus pour modifier le modèle.
Pour la version MAC, j'ai fait une optimisation de la mémoire pour libérer la mémoire à temps et éviter la redondance de la mémoire.MAC Apple Silicon M1/M2/M3/M4 chips 16G memory.
écrire à la fin
Il se peut que de petits partenaires estiment que l'application de ce projet est relativement limitée. Mais d'après ce que j'ai compris, des partenaires ont utilisé les puissantes capacités de compréhension graphique de Janus, les dessins techniques, les documents techniques et d'autres informations PDF pour les transformer en une base de connaissances intelligente.
Voici la capture d'écran qu'il m'a envoyée :

Mieux encore, si vous avez lu mon dernier article sur WeChat BOT, il est tout à fait possible de brancher Janus et de donner à votre bot la possibilité de regarder et de générer des images également !
Obtenir l'installateur Janus-Pro en un clic
Tootsie Labs Edition (même nom que l'édition publique)
Quark :
https://pan.quark.cn/s/55f98151a84c
Baidu.
https://pan.baidu.com/s/19Oy6bbzCv8dL3GtOKffAlg?pwd=xiyi
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...