DeepSeek-VL2 : un modèle expert de langage visuel pour une compréhension multimodale avancée

Introduction générale

DeepSeek-VL2 est une série de modèles de langage visuel avancés à base de mélanges d'experts (MoE) qui améliorent considérablement les performances de son prédécesseur, DeepSeek-VL. Les modèles excellent dans des tâches telles que la reconnaissance visuelle de questions-réponses, la compréhension de documents/tables/diagrammes et la localisation visuelle. Les modèles excellent dans des tâches telles que la réponse à des questions visuelles, la reconnaissance optique de caractères, la compréhension de documents/tableaux/diagrammes et la localisation visuelle. La famille DeepSeek-VL2 se compose de trois variantes : DeepSeek-VL2-Tiny, DeepSeek-VL2-Small et DeepSeek-VL2, qui ont respectivement 1,0 milliard, 2,8 milliards et 4,5 milliards de paramètres d'activation. paramètres d'activation, respectivement. Les modèles atteignent des performances comparables ou supérieures à celles des modèles denses et MoE à source ouverte existants avec un nombre de paramètres similaire ou inférieur.

DeepSeek-VL2:高级多模态理解的专家级视觉语言模型

Démonstration : https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small

DeepSeek-VL2:高级多模态理解的专家级视觉语言模型

 

Liste des fonctions

  • Questions-réponses visuellesLes réponses à des quiz visuels complexes sont précises.
  • Reconnaissance optique de caractères (OCR): Reconnaissance efficace du contenu textuel dans les images.
  • Compréhension du documentLes tâches sont multiples : analyse et compréhension de la structure et du contenu de documents complexes, analyse et compréhension de la structure et du contenu de documents complexes.
  • Compréhension des formesLes données tabulaires : Identifier et traiter les données tabulaires afin d'en extraire des informations utiles.
  • Compréhension graphiqueLes résultats de l'analyse des données et des tendances sont présentés sous forme de graphiques et de tableaux.
  • l'orientation visuelleLes images de l'appareil photo numérique sont très précises et permettent de localiser avec exactitude l'objet cible dans l'image.
  • Support multi-variantLes modèles Tiny, Small et Standard sont disponibles pour répondre à différents besoins.
  • Haute performanceLe système d'activation de l'ordinateur : réduit le nombre de paramètres d'activation tout en conservant des performances élevées.

 

Utiliser l'aide

Processus d'installation

  1. Assurez-vous que la version de Python est >= 3.8.
  2. Clonage du dépôt DeepSeek-VL2 :
   git clone https://github.com/deepseek-ai/DeepSeek-VL2.git
  1. Allez dans le répertoire du projet et installez les dépendances nécessaires :
   cd DeepSeek-VL2
pip install -e .

exemple d'utilisation

Exemple de raisonnement simple

Vous trouverez ci-dessous un exemple de code pour une inférence simple utilisant DeepSeek-VL2 :

import torch
from transformers import AutoModelForCausalLM
from deepseek_vl2.models import DeepseekVLV2Processor, DeepseekVLV2ForCausalLM
from deepseek_vl2.utils.io import load_pil_images
# 指定模型路径
model_path = "deepseek-ai/deepseek-vl2-tiny"
vl_chat_processor = DeepseekVLV2Processor.from_pretrained(model_path)
vl_model = DeepseekVLV2ForCausalLM.from_pretrained(model_path)
# 加载图像
images = load_pil_images(["path_to_image.jpg"])
# 推理
inputs = vl_chat_processor(images=images, return_tensors="pt")
outputs = vl_model.generate(**inputs)
print(outputs)

Fonction détaillée du déroulement des opérations

  1. Questions-réponses visuelles: :
    • Charger les modèles et les processeurs.
    • Saisissez une image et une question et le modèle vous renverra la réponse.
  2. Reconnaissance optique de caractères (OCR): :
    • utiliser DeepseekVLV2Processor Charger l'image.
    • Le modèle est appelé pour l'inférence afin d'extraire le texte de l'image.
  3. Compréhension du document: :
    • Charge l'entrée contenant l'image du document.
    • Le modèle analyse la structure du document et renvoie le résultat de l'analyse.
  4. Compréhension des formes: :
    • Saisir une image contenant le formulaire.
    • Le modèle reconnaît la structure et le contenu du formulaire et en extrait les informations clés.
  5. Compréhension graphique: :
    • Charger l'image du graphique.
    • Le modèle analyse les données graphiques et fournit une interprétation et une analyse des tendances.
  6. l'orientation visuelle: :
    • Saisissez une description et une image de l'objet cible.
    • Le modèle localise l'objet cible dans l'image et renvoie les coordonnées de la position.

Avec les étapes ci-dessus, les utilisateurs peuvent profiter pleinement de la puissance de DeepSeek-VL2 pour accomplir une variété de tâches complexes de langage visuel.

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...