Moondream: um modelo de linguagem visual leve e de código aberto para retropropagação em lote de palavras-chave de imagem

🚀 Convite para experimentar: o primeiro software de programação inteligente AI IDE da China Download da versão chinesa do TraeO DeepSeek-R1 e o Doubao-pro estão disponíveis em uma base ilimitada!

Introdução geral

O Moondream é um modelo de linguagem visual leve e de código aberto, projetado para permitir a descrição de imagens por meio de técnicas de aprendizagem profunda e visão computacional. Usando técnicas avançadas e conjuntos de dados de treinamento, o Moondream é capaz de capturar e analisar com precisão os principais detalhes e informações da cena em uma imagem e transformar esses elementos visuais em uma descrição linguística coerente.

O Moondream é um modelo de linguagem visual eficiente e de código aberto que combina a compreensão avançada de imagens com um modelo de tamanho muito pequeno. O Moondream oferece duas variantes de modelo, Moondream 2B e Moondream 0.5B, para tarefas de compreensão de imagens de uso geral e dispositivos de hardware com recursos limitados, respectivamente. Seja na descrição de imagens, no questionamento visual ou na detecção de objetos, o Moondream atende às necessidades dos usuários com excelente desempenho e implementação flexível.

Moondream: 4 GB de VRAM executando modelos de linguagem visual com desempenho próximo ao do QWen2-VL 2B

Experiência on-line: https://moondream.ai/playground

Lista de funções

Descrição da imagemGeração automática de descrições de texto de imagens para uma ampla gama de cenários de aplicativos.
Suporte a dispositivos de bordaProjetado para operar com eficiência em dispositivos de borda com recursos limitados.
código abertoFornecimento de uma base completa de código-fonte aberto para facilitar o desenvolvimento secundário e a personalização pelos desenvolvedores.
Suporte a vários idiomasSuporte à geração de descrições de imagens em vários idiomas.
raciocínio on-lineinferência de descrição de imagem em tempo real por meio da interface Gradio.
arquivo de loteSuporte à geração de descrição de imagens em lote para aumentar a eficiência do processamento.

Usando a Ajuda

Processo de instalação

Clonagem da base de código::

   git clone https://github.com/vikhyat/moondream.git
cd moondream

Instalação de dependências::

   pip install -r requirements.txt

Execute o script de amostra::

   python sample.py --image <IMAGE_PATH> --prompt <PROMPT>

Usando a interface do Gradio

Iniciando a interface do Gradio::

   python gradio_demo.py

Uso de raciocínio em tempo real::

   python webcam_gradio_demo.py

Funções principais

Geração de descrição da imagem::
- fazer uso de sample.py Scripts que fornecem caminhos de imagens e dicas de descrição para gerar descrições de imagens.
- Exemplo de comando:
```
 python sample.py --image example.jpg --prompt "Describe this image."
```
arquivo de lote::
- fazer uso de batch_generate_example.py Scripts que fornecem vários caminhos de imagens e prompts de descrição para gerar descrições de imagens em lote.
- Exemplo de comando:
```
 python batch_generate_example.py --images image1.jpg image2.jpg --prompts "Describe image 1." "Describe image 2."
```
raciocínio on-line::
- ativar (um plano) webcam_gradio_demo.py Scripts que usam a câmera para capturar imagens em tempo real e gerar descrições.
- Exemplo de comando: bash python webcam_gradio_demo.py

Etapas detalhadas

Instalação de dependências::
- Certifique-se de que você tenha o Python 3.8 ou superior instalado.
- fazer uso de pip Instale as dependências necessárias:
```
 pip install transformers einops
```

Modelos de carregamento::

fazer uso de transformers A biblioteca é carregada com modelos pré-treinados e divisores:

 from transformers import AutoModelForCausalLM, AutoTokenizer
from PIL import Image
model_id = "vikhyatk/moondream2"
model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_id)
image = Image.open('<IMAGE_PATH>')
enc_image = model.encode_image(image)
print(model.answer_question(enc_image, "Describe this image.", tokenizer))

Configuração de raciocínio em tempo real::
- Inicie a interface Gradio para usar a câmera para descrição de imagens ao vivo: bash python webcam_gradio_demo.py

Moondream Local One-Click Installer

Este conteúdo foi ocultado pelo autor. Digite o código de verificação para visualizar o conteúdo

Preste atenção ao número público do WeChat deste site, responda "CAPTCHA, um tipo de teste de desafio-resposta (computação)", obtenha o código de verificação. Pesquise no WeChat por "Chefe do Círculo de Compartilhamento de IA"ou"Aparência-AI"ou WeChat escaneando o lado direito do código QR pode prestar atenção a esse número público do WeChat do site.

Moondream: um modelo de linguagem visual leve e de código aberto para retropropagação em lote de palavras-chave de imagens

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

Usando a interface do Gradio

Funções principais

Etapas detalhadas

Moondream Local One-Click Installer

Artigos relacionados

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Gerador de imagens FLUX.1 (suporta entrada em chinês)

Hotspots de IA recentes

Recomendações de ferramentas de IA

Classificação das ferramentas de IA