Aprendizagem pessoal com IA
e orientação prática

Molmo: uma série de modelos de linguagem aberta multimodal criados pela Ai2

Introdução geral

O Molmo é um modelo de linguagem aberta multimodal desenvolvido pelo Allen Institute for AI (Ai2). O modelo combina recursos de processamento de dados textuais e visuais para reconhecer objetos em imagens e gerar descrições precisas. O Molmo tem um bom desempenho em vários benchmarks, demonstrando seu poder especialmente em tarefas complexas, como leitura de documentos e raciocínio visual.Modelos e conjuntos de dadose planeja lançar mais modelos e relatórios técnicos ampliados nos próximos meses, com o objetivo de fornecer mais recursos para pesquisadores. Relatório técnico.

A principal inovação do Molmo é o uso de um novo conjunto de dados de descrição de imagens, com modelos treinados no PixMo, um conjunto de dados de um milhão de pares imagem-texto altamente selecionados. Esses conjuntos de dados foram coletados exclusivamente por anotadores humanos por meio de descrições de voz. Além disso, o Molmo apresenta uma combinação diversificada de conjuntos de dados para ajuste fino, incluindo dados inovadores de apontamento em 2D que permitem que o Molmo responda a perguntas usando não apenas a linguagem natural, mas também pistas não verbais.

Molmo: uma série de modelos de linguagem aberta multimodal construídos pelo Ai2-1

O Molmo é baseado no Qwen2-72B e usa o CLIP da OpenAI como um backbone visual para aprimorar a capacidade do modelo de processar imagens e texto.

 


Molmo-72B: obteve a pontuação mais alta no teste de referência acadêmica e ficou em segundo lugar na avaliação manual, apenas um pouco abaixo do GPT-4o. Também superou o desempenho de vários sistemas proprietários de última geração, incluindo Gêmeos 1.5 Pro, Flash e Claude 3.5 Sonnet: MolmoE-1B: o modelo Molmo mais eficiente, baseado em nosso LLM especializado híbrido OLMoE-1B-7B totalmente aberto, com desempenho quase igual ao do GPT-4V nos benchmarks acadêmicos e nas avaliações manuais. Ambos os modelos Molmo-7B: apresentam desempenho entre GPT-4V e GPT-4o em benchmarks acadêmicos e avaliações manuais, e superam significativamente o modelo Pixtral 12B lançado recentemente em ambos os benchmarks.

 

Abrir mais pesos e modelos de dados

 

Lista de funções

  • Reconhecimento de imagens: a capacidade de reconhecer objetos em uma imagem e gerar uma descrição.
  • Geração de texto: gere descrições de texto relevantes com base no texto ou nas imagens de entrada.
  • Processamento de dados multimodais: combinação de dados textuais e visuais para tarefas complexas.
  • Recursos de código aberto: recursos de código aberto para modelos e conjuntos de dados estão disponíveis para pesquisadores.
  • Demonstração on-line: fornece uma função de demonstração on-line em que os usuários podem carregar imagens e gerar descrições.

Usando a Ajuda

Diretrizes para uso

  1. reconhecimento de imagensClique no botão "Upload Image" na página inicial do site e selecione o arquivo de imagem a ser reconhecido. Após o upload, o sistema gerará automaticamente uma descrição da imagem.
  2. Geração de textoDigite o texto ou a pergunta para a qual deseja gerar uma descrição na caixa de texto, clique no botão "Generate" (Gerar) e o sistema gerará a descrição de texto relevante de acordo com o conteúdo de entrada.
  3. Processamento de dados multimodaisO sistema combina os dois e gera uma descrição abrangente.
  4. recurso de código abertoVisite a plataforma Hugging Face para pesquisar modelos Molmo, fazer download e usar os recursos de código aberto fornecidos.
  5. Demonstração on-lineClique no botão "Online Demo" na página inicial do site para acessar a página de demonstração. Os usuários podem fazer upload de imagens ou inserir texto para experimentar os recursos do Molmo em tempo real.

Função Fluxo de operação

  1. reconhecimento de imagens::
    • Abra o site do Molmo e clique no botão "Upload Image" (Carregar imagem).
    • Selecione o arquivo de imagem a ser reconhecido e clique em "Upload".
    • Aguardando que o sistema processe e gere uma descrição da imagem.
    • Visualize e salve a descrição gerada.
  2. Geração de texto::
    • Na caixa de texto, digite o texto ou a pergunta para a qual você deseja gerar uma descrição.
    • Clique no botão "Generate" (Gerar) e aguarde o processamento do sistema.
    • Visualize a descrição de texto gerada e edite-a ou salve-a conforme necessário.
  3. Processamento de dados multimodais::
    • Faça o upload da imagem e do texto ao mesmo tempo e clique no botão "Process" (Processar).
    • O sistema combina processamento de imagem e texto para gerar uma descrição abrangente.
    • Visualizar e salvar a descrição composta gerada.
  4. Uso de recursos de código aberto::
    • Visite a plataforma Hugging Face e procure os modelos Molmo.
    • Faça o download do modelo e do conjunto de dados e siga as instruções de instalação e uso.
    • Use o código de amostra e a documentação fornecidos para desenvolvimento secundário ou pesquisa.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Molmo: uma série de modelos de linguagem aberta multimodal criados pela Ai2

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil