Aprendizagem pessoal com IA
e orientação prática

Moondream: um modelo de linguagem visual leve e de código aberto para retropropagação em lote de palavras-chave de imagens

Introdução geral

O Moondream é um modelo de linguagem visual leve e de código aberto, projetado para permitir a descrição de imagens por meio de técnicas de aprendizagem profunda e visão computacional. Usando técnicas avançadas e conjuntos de dados de treinamento, o Moondream é capaz de capturar e analisar com precisão os principais detalhes e informações da cena em uma imagem e transformar esses elementos visuais em uma descrição linguística coerente.

O Moondream é um modelo de linguagem visual eficiente e de código aberto que combina a compreensão avançada de imagens com um modelo de tamanho muito pequeno. O Moondream oferece duas variantes de modelo, Moondream 2B e Moondream 0.5B, para tarefas de compreensão de imagens de uso geral e dispositivos de hardware com recursos limitados, respectivamente. Seja na descrição de imagens, no questionamento visual ou na detecção de objetos, o Moondream atende às necessidades dos usuários com excelente desempenho e implementação flexível.

Moondream: 4 GB de VRAM executando modelos de linguagem visual com desempenho próximo ao do QWen2-VL 2B


Moondream: um modelo de linguagem visual leve e de código aberto para retropropagação em lote de palavras-chave de imagem-1

Experiência on-line: https://moondream.ai/playground

 

 

Lista de funções

  • Descrição da imagemGeração automática de descrições de texto de imagens para uma ampla gama de cenários de aplicativos.
  • Suporte a dispositivos de bordaProjetado para operar com eficiência em dispositivos de borda com recursos limitados.
  • código abertoFornecimento de uma base completa de código-fonte aberto para facilitar o desenvolvimento secundário e a personalização pelos desenvolvedores.
  • Suporte a vários idiomasSuporte à geração de descrições de imagens em vários idiomas.
  • raciocínio on-lineinferência de descrição de imagem em tempo real por meio da interface Gradio.
  • arquivo de loteSuporte à geração de descrição de imagens em lote para aumentar a eficiência do processamento.

 

Usando a Ajuda

Processo de instalação

  1. Clonagem da base de código::
   git clone https://github.com/vikhyat/moondream.git
cd moondream
  1. Instalação de dependências::
   pip install -r requirements.txt
  1. Execute o script de amostra::
   python sample.py --image  --prompt

Usando a interface do Gradio

  1. Iniciando a interface do Gradio::
   python gradio_demo.py
  1. Uso de raciocínio em tempo real::
   python webcam_gradio_demo.py

Funções principais

  1. Geração de descrição da imagem::
    • fazer uso de sample.py Scripts que fornecem caminhos de imagens e dicas de descrição para gerar descrições de imagens.
    • Exemplo de comando:
     python sample.py --image example.jpg --prompt "Descreva esta imagem".
    
  2. arquivo de lote::
    • fazer uso de batch_generate_example.py Scripts que fornecem vários caminhos de imagens e prompts de descrição para gerar descrições de imagens em lote.
    • Exemplo de comando:
     python batch_generate_example.py --images image1.jpg image2.jpg --prompts "Descreva a imagem 1." "Descreva a imagem 2."
    
  3. raciocínio on-line::
    • ativar (um plano) webcam_gradio_demo.py Scripts que usam a câmera para capturar imagens em tempo real e gerar descrições.
    • Exemplo de comando: bash
      python webcam_gradio_demo.py

Etapas detalhadas

  1. Instalação de dependências::
    • Certifique-se de que você tenha o Python 3.8 ou superior instalado.
    • fazer uso de tubulação Instale as dependências necessárias:
     pip install transformers einops
    
  2. Modelos de carregamento::
    • fazer uso de transformadores A biblioteca é carregada com modelos pré-treinados e divisores:
     from transformers import AutoModelForCausalLM, AutoTokenizer
    de PIL import Image
    model_id = "vikhyatk/moondream2"
    model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True)
    tokeniser = AutoTokenizer.from_pretrained(model_id)
    image = Image.open('')
    enc_image = model.encode_image(image)
    print(model.answer_question(enc_image, "Descreva essa imagem.", tokenizer))
    
  3. Configuração de raciocínio em tempo real::
    • Inicie a interface Gradio para usar a câmera para descrição de imagens ao vivo: bash
      python webcam_gradio_demo.py

 

Moondream Local One-Click Installer

Chefe do Círculo de Compartilhamento de IAEste conteúdo foi ocultado pelo autor. Digite o código de verificação para visualizar o conteúdo
Captcha:
Preste atenção ao número público do WeChat deste site, responda "CAPTCHA, um tipo de teste de desafio-resposta (computação)", obtenha o código de verificação. Pesquise no WeChat por "Chefe do Círculo de Compartilhamento de IA"ou"Aparência-AI"ou WeChat escaneando o lado direito do código QR pode prestar atenção a esse número público do WeChat do site.

Endereço para download de documentos relacionados
Os direitos autorais dos recursos de download © pertencem ao autor; todos os recursos deste site são da rede, apenas para fins de aprendizado; por favor, apoie a versão original!
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Moondream: um modelo de linguagem visual leve e de código aberto para retropropagação em lote de palavras-chave de imagens

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil