Molmo: uma série de modelos de linguagem aberta multimodal criados pela Ai2

Recursos mais recentes de IAAtualizado há 10 meses Círculo de compartilhamento de IA

1.9K 00

Introdução geral

O Molmo é um modelo de linguagem aberta multimodal desenvolvido pelo Allen Institute for AI (Ai2). O modelo combina recursos de processamento de dados textuais e visuais para reconhecer objetos em imagens e gerar descrições precisas. O Molmo tem um bom desempenho em vários benchmarks, demonstrando seu poder especialmente em tarefas complexas, como leitura de documentos e raciocínio visual.Modelos e conjuntos de dadose planeja lançar mais modelos e relatórios técnicos ampliados nos próximos meses, com o objetivo de fornecer mais recursos para pesquisadores. Relatório técnico.

A principal inovação do Molmo é o uso de um novo conjunto de dados de descrição de imagens, com modelos treinados no PixMo, um conjunto de dados de um milhão de pares imagem-texto altamente selecionados. Esses conjuntos de dados foram coletados exclusivamente por anotadores humanos por meio de descrições de voz. Além disso, o Molmo apresenta uma combinação diversificada de conjuntos de dados para ajuste fino, incluindo dados inovadores de apontamento em 2D que permitem que o Molmo responda a perguntas usando não apenas a linguagem natural, mas também pistas não verbais.

O Molmo é baseado no Qwen2-72B e usa o CLIP da OpenAI como um backbone visual para aprimorar a capacidade do modelo de processar imagens e texto.

Molmo-72B: obteve a pontuação mais alta no teste de referência acadêmica e ficou em segundo lugar na avaliação manual, apenas um pouco abaixo do GPT-4o. Também superou o desempenho de vários sistemas proprietários de última geração, incluindo Gêmeos 1.5 Pro, Flash e Claude 3.5 Sonnet: MolmoE-1B: o modelo Molmo mais eficiente, baseado em nosso LLM especializado híbrido OLMoE-1B-7B totalmente aberto, com desempenho quase igual ao do GPT-4V nos benchmarks acadêmicos e nas avaliações manuais. Ambos os modelos Molmo-7B: apresentam desempenho entre GPT-4V e GPT-4o em benchmarks acadêmicos e avaliações manuais, e superam significativamente o modelo Pixtral 12B lançado recentemente em ambos os benchmarks.

Abrir mais pesos e modelos de dados

Lista de funções

Reconhecimento de imagens: a capacidade de reconhecer objetos em uma imagem e gerar uma descrição.
Geração de texto: gere descrições de texto relevantes com base no texto ou nas imagens de entrada.
Processamento de dados multimodais: combinação de dados textuais e visuais para tarefas complexas.
Recursos de código aberto: recursos de código aberto para modelos e conjuntos de dados estão disponíveis para pesquisadores.
Demonstração on-line: fornece uma função de demonstração on-line em que os usuários podem carregar imagens e gerar descrições.

Usando a Ajuda

Diretrizes para uso

reconhecimento de imagensClique no botão "Upload Image" na página inicial do site e selecione o arquivo de imagem a ser reconhecido. Após o upload, o sistema gerará automaticamente uma descrição da imagem.
Geração de textoDigite o texto ou a pergunta para a qual deseja gerar uma descrição na caixa de texto, clique no botão "Generate" (Gerar) e o sistema gerará a descrição de texto relevante de acordo com o conteúdo de entrada.
Processamento de dados multimodaisO sistema combina os dois e gera uma descrição abrangente.
recurso de código abertoVisite a plataforma Hugging Face para pesquisar modelos Molmo, fazer download e usar os recursos de código aberto fornecidos.
Demonstração on-lineClique no botão "Online Demo" na página inicial do site para acessar a página de demonstração. Os usuários podem fazer upload de imagens ou inserir texto para experimentar os recursos do Molmo em tempo real.

Função Fluxo de operação

reconhecimento de imagens::
- Abra o site do Molmo e clique no botão "Upload Image" (Carregar imagem).
- Selecione o arquivo de imagem a ser reconhecido e clique em "Upload".
- Aguardando que o sistema processe e gere uma descrição da imagem.
- Visualize e salve a descrição gerada.
Geração de texto::
- Na caixa de texto, digite o texto ou a pergunta para a qual você deseja gerar uma descrição.
- Clique no botão "Generate" (Gerar) e aguarde o processamento do sistema.
- Visualize a descrição de texto gerada e edite-a ou salve-a conforme necessário.
Processamento de dados multimodais::
- Faça o upload da imagem e do texto ao mesmo tempo e clique no botão "Process" (Processar).
- O sistema combina processamento de imagem e texto para gerar uma descrição abrangente.
- Visualizar e salvar a descrição composta gerada.
Uso de recursos de código aberto::
- Visite a plataforma Hugging Face e procure os modelos Molmo.
- Faça o download do modelo e do conjunto de dados e siga as instruções de instalação e uso.
- Use o código de amostra e a documentação fornecidos para desenvolvimento secundário ou pesquisa.