DeepSeek-VL2 : un modèle expert de langage visuel pour une compréhension multimodale avancée

Dernières ressources sur l'IAPosté il y a 7 mois Cercle de partage de l'IA

13.5K 00

Introduction générale

DeepSeek-VL2 est une série de modèles de langage visuel avancés à base de mélanges d'experts (MoE) qui améliorent considérablement les performances de son prédécesseur, DeepSeek-VL. Les modèles excellent dans des tâches telles que la reconnaissance visuelle de questions-réponses, la compréhension de documents/tables/diagrammes et la localisation visuelle. Les modèles excellent dans des tâches telles que la réponse à des questions visuelles, la reconnaissance optique de caractères, la compréhension de documents/tableaux/diagrammes et la localisation visuelle. La famille DeepSeek-VL2 se compose de trois variantes : DeepSeek-VL2-Tiny, DeepSeek-VL2-Small et DeepSeek-VL2, qui ont respectivement 1,0 milliard, 2,8 milliards et 4,5 milliards de paramètres d'activation. paramètres d'activation, respectivement. Les modèles atteignent des performances comparables ou supérieures à celles des modèles denses et MoE à source ouverte existants avec un nombre de paramètres similaire ou inférieur.

Démonstration : https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small

Liste des fonctions

Questions-réponses visuellesLes réponses à des quiz visuels complexes sont précises.
Reconnaissance optique de caractères (OCR): Reconnaissance efficace du contenu textuel dans les images.
Compréhension du documentLes tâches sont multiples : analyse et compréhension de la structure et du contenu de documents complexes, analyse et compréhension de la structure et du contenu de documents complexes.
Compréhension des formesLes données tabulaires : Identifier et traiter les données tabulaires afin d'en extraire des informations utiles.
Compréhension graphiqueLes résultats de l'analyse des données et des tendances sont présentés sous forme de graphiques et de tableaux.
l'orientation visuelleLes images de l'appareil photo numérique sont très précises et permettent de localiser avec exactitude l'objet cible dans l'image.
Support multi-variantLes modèles Tiny, Small et Standard sont disponibles pour répondre à différents besoins.
Haute performanceLe système d'activation de l'ordinateur : réduit le nombre de paramètres d'activation tout en conservant des performances élevées.

Utiliser l'aide

Processus d'installation

Assurez-vous que la version de Python est >= 3.8.
Clonage du dépôt DeepSeek-VL2 :

   git clone https://github.com/deepseek-ai/DeepSeek-VL2.git

Allez dans le répertoire du projet et installez les dépendances nécessaires :

   cd DeepSeek-VL2
pip install -e .

exemple d'utilisation

Exemple de raisonnement simple

Vous trouverez ci-dessous un exemple de code pour une inférence simple utilisant DeepSeek-VL2 :

import torch
from transformers import AutoModelForCausalLM
from deepseek_vl2.models import DeepseekVLV2Processor, DeepseekVLV2ForCausalLM
from deepseek_vl2.utils.io import load_pil_images
# 指定模型路径
model_path = "deepseek-ai/deepseek-vl2-tiny"
vl_chat_processor = DeepseekVLV2Processor.from_pretrained(model_path)
vl_model = DeepseekVLV2ForCausalLM.from_pretrained(model_path)
# 加载图像
images = load_pil_images(["path_to_image.jpg"])
# 推理
inputs = vl_chat_processor(images=images, return_tensors="pt")
outputs = vl_model.generate(**inputs)
print(outputs)

Fonction détaillée du déroulement des opérations

Questions-réponses visuelles: :
- Charger les modèles et les processeurs.
- Saisissez une image et une question et le modèle vous renverra la réponse.
Reconnaissance optique de caractères (OCR): :
- utiliser DeepseekVLV2Processor Charger l'image.
- Le modèle est appelé pour l'inférence afin d'extraire le texte de l'image.
Compréhension du document: :
- Charge l'entrée contenant l'image du document.
- Le modèle analyse la structure du document et renvoie le résultat de l'analyse.
Compréhension des formes: :
- Saisir une image contenant le formulaire.
- Le modèle reconnaît la structure et le contenu du formulaire et en extrait les informations clés.
Compréhension graphique: :
- Charger l'image du graphique.
- Le modèle analyse les données graphiques et fournit une interprétation et une analyse des tendances.
l'orientation visuelle: :
- Saisissez une description et une image de l'objet cible.
- Le modèle localise l'objet cible dans l'image et renvoie les coordonnées de la position.

Avec les étapes ci-dessus, les utilisateurs peuvent profiter pleinement de la puissance de DeepSeek-VL2 pour accomplir une variété de tâches complexes de langage visuel.