Moondream: un modelo de lenguaje visual ligero de código abierto para la retropropagación por lotes de palabras clave de imágenes
Últimos recursos sobre IAActualizado hace 8 meses Círculo de intercambio de inteligencia artificial 11.1K 00
Introducción general
Moondream es un modelo de lenguaje visual ligero y de código abierto diseñado para permitir la descripción de imágenes mediante técnicas de aprendizaje profundo y visión por ordenador. Mediante técnicas avanzadas y conjuntos de datos de entrenamiento, Moondream es capaz de capturar y analizar con precisión detalles clave e información de la escena en una imagen, y transformar estos elementos visuales en una descripción lingüística coherente.
Moondream es un eficiente modelo de lenguaje visual de código abierto que combina una potente comprensión de imágenes con un modelo de tamaño muy reducido. Desarrollado por Vikhyat, el proyecto pretende ofrecer una solución versátil y accesible que funcione en una amplia gama de dispositivos y plataformas.Moondream ofrece dos variantes de modelo, Moondream 2B y Moondream 0.5B, para tareas de comprensión de imágenes de propósito general y dispositivos de hardware con recursos limitados, respectivamente. Ya se trate de descripción de imágenes, interrogación visual o detección de objetos, Moondream satisface las necesidades de los usuarios con un rendimiento excelente y una implantación flexible.
Moondream: 4 GB de VRAM para ejecutar modelos de lenguaje visual con un rendimiento cercano a QWen2-VL 2B
Experiencia en línea: https://moondream.ai/playground

Lista de funciones
- Descripción de la imagen: Genere automáticamente descripciones de texto de imágenes para una amplia gama de escenarios de aplicación.
- Compatibilidad con dispositivos Edge: Diseñado para funcionar eficazmente en dispositivos de borde con recursos limitados.
- código abierto: Proporciona una completa base de código fuente abierto para facilitar el desarrollo secundario y la personalización por parte de los desarrolladores.
- Soporte multilingüe: Admite la generación de descripciones de imágenes en varios idiomas.
- razonamiento en línea: Inferencia de descripciones de imágenes en tiempo real a través de la interfaz Gradio.
- archivo por lotes: Soporta la generación de descripciones de imagen por lotes para mejorar la eficiencia del procesamiento.
Utilizar la ayuda
Proceso de instalación
- Clonación del código base::
git clone https://github.com/vikhyat/moondream.git
cd moondream
- Instalación de dependencias::
pip install -r requirements.txt
- Ejecute el script de ejemplo::
python sample.py --image <IMAGE_PATH> --prompt <PROMPT>
Uso de la interfaz de Gradio
- Inicio de la interfaz de Gradio::
python gradio_demo.py
- Razonamiento en tiempo real::
python webcam_gradio_demo.py
Funciones principales
- Generación de imágenes::
- utilizar
sample.py
Scripts que proporcionan rutas de imágenes y descripciones para generar descripciones de imágenes. - Ejemplo de comando:
python sample.py --image example.jpg --prompt "Describe this image."
- utilizar
- archivo por lotes::
- utilizar
batch_generate_example.py
Scripts que proporcionan múltiples rutas de imágenes y mensajes de descripción para generar descripciones de imágenes por lotes. - Ejemplo de comando:
python batch_generate_example.py --images image1.jpg image2.jpg --prompts "Describe image 1." "Describe image 2."
- utilizar
- razonamiento en línea::
- activar (un plan)
webcam_gradio_demo.py
Scripts que utilizan la cámara para capturar imágenes en tiempo real y generar descripciones. - Ejemplo de comando:
bash
python webcam_gradio_demo.py
- activar (un plan)
Pasos detallados
- Instalación de dependencias::
- Asegúrese de tener instalado Python 3.8 o superior.
- utilizar
pip
Instale las dependencias necesarias:
pip install transformers einops
- Modelos de carga::
- utilizar
transformers
La biblioteca se carga con modelos preentrenados y divisores:
from transformers import AutoModelForCausalLM, AutoTokenizer from PIL import Image model_id = "vikhyatk/moondream2" model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True) tokenizer = AutoTokenizer.from_pretrained(model_id) image = Image.open('<IMAGE_PATH>') enc_image = model.encode_image(image) print(model.answer_question(enc_image, "Describe this image.", tokenizer))
- utilizar
- Configuración del razonamiento en tiempo real::
- Inicie la interfaz de Gradio para utilizar la cámara para la descripción de imágenes en directo:
bash
python webcam_gradio_demo.py
- Inicie la interfaz de Gradio para utilizar la cámara para la descripción de imágenes en directo:
Instalador local de un solo clic Moondream
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...