Moondream : un modèle de langage visuel léger et open source pour la rétropropagation par lots de mots repères d'images

Dernières ressources sur l'IAMise à jour il y a 8 mois Cercle de partage de l'IA

Introduction générale

Moondream est un modèle de langage visuel léger et open source conçu pour permettre la description d'images grâce à des techniques d'apprentissage profond et de vision par ordinateur. Le modèle fonctionne efficacement sur diverses plateformes et est particulièrement adapté aux appareils périphériques. En utilisant des techniques avancées et des ensembles de données d'entraînement, Moondream est capable de capturer et d'analyser avec précision les détails clés et les informations de la scène dans une image, et de transformer ces éléments visuels en une description linguistique cohérente.

Moondream est un modèle de langage visuel open source efficace qui combine une compréhension puissante des images avec un modèle de très petite taille. Développé par Vikhyat, le projet vise à fournir une solution polyvalente et accessible qui fonctionne sur un large éventail d'appareils et de plates-formes. Moondream propose deux variantes de modèles, Moondream 2B et Moondream 0.5B, pour les tâches de compréhension d'images à usage général et les appareils matériels à ressources limitées, respectivement. Qu'il s'agisse de description d'images, de questionnement visuel ou de détection d'objets, Moondream répond aux besoins des utilisateurs grâce à ses excellentes performances et à la souplesse de son déploiement.

Moondream : 4GB VRAM exécutant des modèles de langage visuel avec des performances proches de QWen2-VL 2B

Expérience en ligne : https://moondream.ai/playground

Liste des fonctions

Description de l'imageLes images : Générer automatiquement des descriptions textuelles d'images pour un large éventail de scénarios d'application.
Prise en charge des appareils périphériquesLes services d'aide à la décision : Conçus pour fonctionner efficacement sur des appareils périphériques aux ressources limitées.
source ouverteLe système de gestion de l'information : fournit une base de code source ouverte complète pour faciliter le développement secondaire et la personnalisation par les développeurs.
Prise en charge multilingueLe logiciel de gestion de l'image : Il permet de générer des descriptions d'images en plusieurs langues.
raisonnement en ligneLe projet de recherche sur la description d'images : Inférence de description d'images en temps réel via l'interface de Gradio.
fichier de lotLes descriptions d'images peuvent être générées par lots afin d'améliorer l'efficacité du traitement.

Utiliser l'aide

Processus d'installation

Clonage de la base de code: :

   git clone https://github.com/vikhyat/moondream.git
cd moondream

Installation des dépendances: :

   pip install -r requirements.txt

Exécuter l'exemple de script: :

   python sample.py --image <IMAGE_PATH> --prompt <PROMPT>

Utilisation de l'interface Gradio

Démarrer l'interface Gradio: :

   python gradio_demo.py

Utiliser le raisonnement en temps réel: :

   python webcam_gradio_demo.py

Principales fonctions

Génération de descriptions d'images: :
- utiliser sample.py Scripts qui fournissent des chemins d'accès aux images et des indices de description pour générer des descriptions d'images.
- Exemple de commande :
```
 python sample.py --image example.jpg --prompt "Describe this image."
```
fichier de lot: :
- utiliser batch_generate_example.py Scripts fournissant plusieurs chemins d'accès aux images et des invites de description pour générer des descriptions d'images par lots.
- Exemple de commande :
```
 python batch_generate_example.py --images image1.jpg image2.jpg --prompts "Describe image 1." "Describe image 2."
```
raisonnement en ligne: :
- activer (un plan) webcam_gradio_demo.py Scripts qui utilisent l'appareil photo pour capturer des images en temps réel et générer des descriptions.
- Exemple de commande : bash python webcam_gradio_demo.py

Étapes détaillées

Installation des dépendances: :
- Assurez-vous que Python 3.8 et plus est installé.
- utiliser pip Installer les dépendances nécessaires :
```
 pip install transformers einops
```

Modèles de chargement: :

utiliser transformers La bibliothèque est chargée de modèles et de séparateurs pré-entraînés :

 from transformers import AutoModelForCausalLM, AutoTokenizer
from PIL import Image
model_id = "vikhyatk/moondream2"
model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_id)
image = Image.open('<IMAGE_PATH>')
enc_image = model.encode_image(image)
print(model.answer_question(enc_image, "Describe this image.", tokenizer))

Configuration du raisonnement en temps réel: :
- Lancez l'interface Gradio pour utiliser la caméra pour la description d'images en direct : bash python webcam_gradio_demo.py