Aprendizagem pessoal com IA
e orientação prática
豆包Marscode1

Moondream: um modelo de linguagem visual leve e de código aberto para retropropagação em lote de palavras-chave de imagens

Introdução geral

O Moondream é um modelo de linguagem visual leve e de código aberto, projetado para permitir a descrição de imagens por meio de técnicas de aprendizagem profunda e visão computacional. Usando técnicas avançadas e conjuntos de dados de treinamento, o Moondream é capaz de capturar e analisar com precisão os principais detalhes e informações da cena em uma imagem e transformar esses elementos visuais em uma descrição linguística coerente.

O Moondream é um modelo de linguagem visual eficiente e de código aberto que combina a compreensão avançada de imagens com um modelo de tamanho muito pequeno. O Moondream oferece duas variantes de modelo, Moondream 2B e Moondream 0.5B, para tarefas de compreensão de imagens de uso geral e dispositivos de hardware com recursos limitados, respectivamente. Seja na descrição de imagens, no questionamento visual ou na detecção de objetos, o Moondream atende às necessidades dos usuários com excelente desempenho e implementação flexível.

Moondream: 4 GB de VRAM executando modelos de linguagem visual com desempenho próximo ao do QWen2-VL 2B


Moondream:批量反推图像提示词的开源轻量级视觉语言模型-1

Experiência on-line: https://moondream.ai/playground

 

 

Lista de funções

  • Descrição da imagemGeração automática de descrições de texto de imagens para uma ampla gama de cenários de aplicativos.
  • Suporte a dispositivos de bordaProjetado para operar com eficiência em dispositivos de borda com recursos limitados.
  • código abertoFornecimento de uma base completa de código-fonte aberto para facilitar o desenvolvimento secundário e a personalização pelos desenvolvedores.
  • Suporte a vários idiomasSuporte à geração de descrições de imagens em vários idiomas.
  • raciocínio on-lineinferência de descrição de imagem em tempo real por meio da interface Gradio.
  • arquivo de loteSuporte à geração de descrição de imagens em lote para aumentar a eficiência do processamento.

 

Usando a Ajuda

Processo de instalação

  1. Clonagem da base de código::
   git clone https://github.com/vikhyat/moondream.git
cd moondream
  1. Instalação de dependências::
   pip install -r requirements.txt
  1. Execute o script de amostra::
   python sample.py --image <IMAGE_PATH> --prompt <PROMPT>

Usando a interface do Gradio

  1. Iniciando a interface do Gradio::
   python gradio_demo.py
  1. Uso de raciocínio em tempo real::
   python webcam_gradio_demo.py

Funções principais

  1. Geração de descrição da imagem::
    • fazer uso de sample.py Scripts que fornecem caminhos de imagens e dicas de descrição para gerar descrições de imagens.
    • Exemplo de comando:
     python sample.py --image example.jpg --prompt "Describe this image."
    
  2. arquivo de lote::
    • fazer uso de batch_generate_example.py Scripts que fornecem vários caminhos de imagens e prompts de descrição para gerar descrições de imagens em lote.
    • Exemplo de comando:
     python batch_generate_example.py --images image1.jpg image2.jpg --prompts "Describe image 1." "Describe image 2."
    
  3. raciocínio on-line::
    • ativar (um plano) webcam_gradio_demo.py Scripts que usam a câmera para capturar imagens em tempo real e gerar descrições.
    • Exemplo de comando: bash
      python webcam_gradio_demo.py

Etapas detalhadas

  1. Instalação de dependências::
    • Certifique-se de que você tenha o Python 3.8 ou superior instalado.
    • fazer uso de pip Instale as dependências necessárias:
     pip install transformers einops
    
  2. Modelos de carregamento::
    • fazer uso de transformers A biblioteca é carregada com modelos pré-treinados e divisores:
     from transformers import AutoModelForCausalLM, AutoTokenizer
    from PIL import Image
    model_id = "vikhyatk/moondream2"
    model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True)
    tokenizer = AutoTokenizer.from_pretrained(model_id)
    image = Image.open('<IMAGE_PATH>')
    enc_image = model.encode_image(image)
    print(model.answer_question(enc_image, "Describe this image.", tokenizer))
    
  3. Configuração de raciocínio em tempo real::
    • Inicie a interface Gradio para usar a câmera para descrição de imagens ao vivo: bash
      python webcam_gradio_demo.py

 

Moondream Local One-Click Installer

首席AI分享圈Este conteúdo foi ocultado pelo autor. Digite o código de verificação para visualizar o conteúdo
Captcha:
Preste atenção ao número público do WeChat deste site, responda "CAPTCHA, um tipo de teste de desafio-resposta (computação)", obtenha o código de verificação. Pesquise no WeChat por "Chefe do Círculo de Compartilhamento de IA"ou"Aparência-AI"ou WeChat escaneando o lado direito do código QR pode prestar atenção a esse número público do WeChat do site.

Endereço para download de documentos relacionados
Os direitos autorais dos recursos de download © pertencem ao autor; todos os recursos deste site são da rede, apenas para fins de aprendizado; por favor, apoie a versão original!
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Moondream: um modelo de linguagem visual leve e de código aberto para retropropagação em lote de palavras-chave de imagens
pt_BRPortuguês do Brasil