Introdução geral
O Moondream é um modelo de linguagem visual leve e de código aberto, projetado para permitir a descrição de imagens por meio de técnicas de aprendizagem profunda e visão computacional. Usando técnicas avançadas e conjuntos de dados de treinamento, o Moondream é capaz de capturar e analisar com precisão os principais detalhes e informações da cena em uma imagem e transformar esses elementos visuais em uma descrição linguística coerente.
O Moondream é um modelo de linguagem visual eficiente e de código aberto que combina a compreensão avançada de imagens com um modelo de tamanho muito pequeno. O Moondream oferece duas variantes de modelo, Moondream 2B e Moondream 0.5B, para tarefas de compreensão de imagens de uso geral e dispositivos de hardware com recursos limitados, respectivamente. Seja na descrição de imagens, no questionamento visual ou na detecção de objetos, o Moondream atende às necessidades dos usuários com excelente desempenho e implementação flexível.
Moondream: 4 GB de VRAM executando modelos de linguagem visual com desempenho próximo ao do QWen2-VL 2B
Lista de funções
- Descrição da imagemGeração automática de descrições de texto de imagens para uma ampla gama de cenários de aplicativos.
- Suporte a dispositivos de bordaProjetado para operar com eficiência em dispositivos de borda com recursos limitados.
- código abertoFornecimento de uma base completa de código-fonte aberto para facilitar o desenvolvimento secundário e a personalização pelos desenvolvedores.
- Suporte a vários idiomasSuporte à geração de descrições de imagens em vários idiomas.
- raciocínio on-lineinferência de descrição de imagem em tempo real por meio da interface Gradio.
- arquivo de loteSuporte à geração de descrição de imagens em lote para aumentar a eficiência do processamento.
Usando a Ajuda
Processo de instalação
- Clonagem da base de código::
git clone https://github.com/vikhyat/moondream.git
cd moondream
- Instalação de dependências::
pip install -r requirements.txt
- Execute o script de amostra::
python sample.py --image --prompt
Usando a interface do Gradio
- Iniciando a interface do Gradio::
python gradio_demo.py
- Uso de raciocínio em tempo real::
python webcam_gradio_demo.py
Funções principais
- Geração de descrição da imagem::
- fazer uso de
sample.py
Scripts que fornecem caminhos de imagens e dicas de descrição para gerar descrições de imagens. - Exemplo de comando:
python sample.py --image example.jpg --prompt "Descreva esta imagem".
- fazer uso de
- arquivo de lote::
- fazer uso de
batch_generate_example.py
Scripts que fornecem vários caminhos de imagens e prompts de descrição para gerar descrições de imagens em lote. - Exemplo de comando:
python batch_generate_example.py --images image1.jpg image2.jpg --prompts "Descreva a imagem 1." "Descreva a imagem 2."
- fazer uso de
- raciocínio on-line::
- ativar (um plano)
webcam_gradio_demo.py
Scripts que usam a câmera para capturar imagens em tempo real e gerar descrições. - Exemplo de comando:
bash
python webcam_gradio_demo.py
- ativar (um plano)
Etapas detalhadas
- Instalação de dependências::
- Certifique-se de que você tenha o Python 3.8 ou superior instalado.
- fazer uso de
tubulação
Instale as dependências necessárias:
pip install transformers einops
- Modelos de carregamento::
- fazer uso de
transformadores
A biblioteca é carregada com modelos pré-treinados e divisores:
from transformers import AutoModelForCausalLM, AutoTokenizer de PIL import Image model_id = "vikhyatk/moondream2" model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True) tokeniser = AutoTokenizer.from_pretrained(model_id) image = Image.open('') enc_image = model.encode_image(image) print(model.answer_question(enc_image, "Descreva essa imagem.", tokenizer))
- fazer uso de
- Configuração de raciocínio em tempo real::
- Inicie a interface Gradio para usar a câmera para descrição de imagens ao vivo:
bash
python webcam_gradio_demo.py
- Inicie a interface Gradio para usar a câmera para descrição de imagens ao vivo: