Moondream : un modèle de langage visuel léger et open source pour la rétropropagation par lots de mots repères d'images

Introduction générale

Moondream est un modèle de langage visuel léger et open source conçu pour permettre la description d'images grâce à des techniques d'apprentissage profond et de vision par ordinateur. Le modèle fonctionne efficacement sur diverses plateformes et est particulièrement adapté aux appareils périphériques. En utilisant des techniques avancées et des ensembles de données d'entraînement, Moondream est capable de capturer et d'analyser avec précision les détails clés et les informations de la scène dans une image, et de transformer ces éléments visuels en une description linguistique cohérente.

Moondream est un modèle de langage visuel open source efficace qui combine une compréhension puissante des images avec un modèle de très petite taille. Développé par Vikhyat, le projet vise à fournir une solution polyvalente et accessible qui fonctionne sur un large éventail d'appareils et de plates-formes. Moondream propose deux variantes de modèles, Moondream 2B et Moondream 0.5B, pour les tâches de compréhension d'images à usage général et les appareils matériels à ressources limitées, respectivement. Qu'il s'agisse de description d'images, de questionnement visuel ou de détection d'objets, Moondream répond aux besoins des utilisateurs grâce à ses excellentes performances et à la souplesse de son déploiement.

Moondream : 4GB VRAM exécutant des modèles de langage visuel avec des performances proches de QWen2-VL 2B

Moondream:批量反推图像提示词的开源轻量级视觉语言模型

Expérience en ligne : https://moondream.ai/playground

 

Moondream:批量反推图像提示词的开源轻量级视觉语言模型

 

Liste des fonctions

  • Description de l'imageLes images : Générer automatiquement des descriptions textuelles d'images pour un large éventail de scénarios d'application.
  • Prise en charge des appareils périphériquesLes services d'aide à la décision : Conçus pour fonctionner efficacement sur des appareils périphériques aux ressources limitées.
  • source ouverteLe système de gestion de l'information : fournit une base de code source ouverte complète pour faciliter le développement secondaire et la personnalisation par les développeurs.
  • Prise en charge multilingueLe logiciel de gestion de l'image : Il permet de générer des descriptions d'images en plusieurs langues.
  • raisonnement en ligneLe projet de recherche sur la description d'images : Inférence de description d'images en temps réel via l'interface de Gradio.
  • fichier de lotLes descriptions d'images peuvent être générées par lots afin d'améliorer l'efficacité du traitement.

 

Utiliser l'aide

Processus d'installation

  1. Clonage de la base de code: :
   git clone https://github.com/vikhyat/moondream.git
cd moondream
  1. Installation des dépendances: :
   pip install -r requirements.txt
  1. Exécuter l'exemple de script: :
   python sample.py --image <IMAGE_PATH> --prompt <PROMPT>

Utilisation de l'interface Gradio

  1. Démarrer l'interface Gradio: :
   python gradio_demo.py
  1. Utiliser le raisonnement en temps réel: :
   python webcam_gradio_demo.py

Principales fonctions

  1. Génération de descriptions d'images: :
    • utiliser sample.py Scripts qui fournissent des chemins d'accès aux images et des indices de description pour générer des descriptions d'images.
    • Exemple de commande :
     python sample.py --image example.jpg --prompt "Describe this image."
    
  2. fichier de lot: :
    • utiliser batch_generate_example.py Scripts fournissant plusieurs chemins d'accès aux images et des invites de description pour générer des descriptions d'images par lots.
    • Exemple de commande :
     python batch_generate_example.py --images image1.jpg image2.jpg --prompts "Describe image 1." "Describe image 2."
    
  3. raisonnement en ligne: :
    • activer (un plan) webcam_gradio_demo.py Scripts qui utilisent l'appareil photo pour capturer des images en temps réel et générer des descriptions.
    • Exemple de commande : bash
      python webcam_gradio_demo.py

Étapes détaillées

  1. Installation des dépendances: :
    • Assurez-vous que Python 3.8 et plus est installé.
    • utiliser pip Installer les dépendances nécessaires :
     pip install transformers einops
    
  2. Modèles de chargement: :
    • utiliser transformers La bibliothèque est chargée de modèles et de séparateurs pré-entraînés :
     from transformers import AutoModelForCausalLM, AutoTokenizer
    from PIL import Image
    model_id = "vikhyatk/moondream2"
    model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True)
    tokenizer = AutoTokenizer.from_pretrained(model_id)
    image = Image.open('<IMAGE_PATH>')
    enc_image = model.encode_image(image)
    print(model.answer_question(enc_image, "Describe this image.", tokenizer))
    
  3. Configuration du raisonnement en temps réel: :
    • Lancez l'interface Gradio pour utiliser la caméra pour la description d'images en direct : bash
      python webcam_gradio_demo.py

 

Moondream Local One-Click Installer

Téléchargement Quark

téléchargement thunderbolt

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...