Moondream: un modelo de lenguaje visual ligero de código abierto para la retropropagación por lotes de palabras clave de imágenes

Últimos recursos sobre IAActualizado hace 1 año Círculo de intercambio de inteligencia artificial

54.7K 00

Introducción general

Moondream es un modelo de lenguaje visual ligero y de código abierto diseñado para permitir la descripción de imágenes mediante técnicas de aprendizaje profundo y visión por ordenador. Mediante técnicas avanzadas y conjuntos de datos de entrenamiento, Moondream es capaz de capturar y analizar con precisión detalles clave e información de la escena en una imagen, y transformar estos elementos visuales en una descripción lingüística coherente.

Moondream es un eficiente modelo de lenguaje visual de código abierto que combina una potente comprensión de imágenes con un modelo de tamaño muy reducido. Desarrollado por Vikhyat, el proyecto pretende ofrecer una solución versátil y accesible que funcione en una amplia gama de dispositivos y plataformas.Moondream ofrece dos variantes de modelo, Moondream 2B y Moondream 0.5B, para tareas de comprensión de imágenes de propósito general y dispositivos de hardware con recursos limitados, respectivamente. Ya se trate de descripción de imágenes, interrogación visual o detección de objetos, Moondream satisface las necesidades de los usuarios con un rendimiento excelente y una implantación flexible.

Moondream: 4 GB de VRAM para ejecutar modelos de lenguaje visual con un rendimiento cercano a QWen2-VL 2B

Experiencia en línea: https://moondream.ai/playground

Lista de funciones

Descripción de la imagen: Genere automáticamente descripciones de texto de imágenes para una amplia gama de escenarios de aplicación.
Compatibilidad con dispositivos Edge: Diseñado para funcionar eficazmente en dispositivos de borde con recursos limitados.
código abierto: Proporciona una completa base de código fuente abierto para facilitar el desarrollo secundario y la personalización por parte de los desarrolladores.
Soporte multilingüe: Admite la generación de descripciones de imágenes en varios idiomas.
razonamiento en línea: Inferencia de descripciones de imágenes en tiempo real a través de la interfaz Gradio.
archivo por lotes: Soporta la generación de descripciones de imagen por lotes para mejorar la eficiencia del procesamiento.

Utilizar la ayuda

Proceso de instalación

Clonación del código base::

   git clone https://github.com/vikhyat/moondream.git
cd moondream

Instalación de dependencias::

   pip install -r requirements.txt

Ejecute el script de ejemplo::

   python sample.py --image <IMAGE_PATH> --prompt <PROMPT>

Uso de la interfaz de Gradio

Inicio de la interfaz de Gradio::

   python gradio_demo.py

Razonamiento en tiempo real::

   python webcam_gradio_demo.py

Funciones principales

Generación de imágenes::
- utilizar sample.py Scripts que proporcionan rutas de imágenes y descripciones para generar descripciones de imágenes.
- Ejemplo de comando:
```
 python sample.py --image example.jpg --prompt "Describe this image."
```
archivo por lotes::
- utilizar batch_generate_example.py Scripts que proporcionan múltiples rutas de imágenes y mensajes de descripción para generar descripciones de imágenes por lotes.
- Ejemplo de comando:
```
 python batch_generate_example.py --images image1.jpg image2.jpg --prompts "Describe image 1." "Describe image 2."
```
razonamiento en línea::
- activar (un plan) webcam_gradio_demo.py Scripts que utilizan la cámara para capturar imágenes en tiempo real y generar descripciones.
- Ejemplo de comando: bash python webcam_gradio_demo.py

Pasos detallados

Instalación de dependencias::
- Asegúrese de tener instalado Python 3.8 o superior.
- utilizar pip Instale las dependencias necesarias:
```
 pip install transformers einops
```

Modelos de carga::

utilizar transformers La biblioteca se carga con modelos preentrenados y divisores:

 from transformers import AutoModelForCausalLM, AutoTokenizer
from PIL import Image
model_id = "vikhyatk/moondream2"
model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_id)
image = Image.open('<IMAGE_PATH>')
enc_image = model.encode_image(image)
print(model.answer_question(enc_image, "Describe this image.", tokenizer))

Configuración del razonamiento en tiempo real::
- Inicie la interfaz de Gradio para utilizar la cámara para la descripción de imágenes en directo: bash python webcam_gradio_demo.py