Introdução geral
O Molmo é um modelo de linguagem aberta multimodal desenvolvido pelo Allen Institute for AI (Ai2). O modelo combina recursos de processamento de dados textuais e visuais para reconhecer objetos em imagens e gerar descrições precisas. O Molmo tem um bom desempenho em vários benchmarks, demonstrando seu poder especialmente em tarefas complexas, como leitura de documentos e raciocínio visual.Modelos e conjuntos de dadose planeja lançar mais modelos e relatórios técnicos ampliados nos próximos meses, com o objetivo de fornecer mais recursos para pesquisadores. Relatório técnico.
A principal inovação do Molmo é o uso de um novo conjunto de dados de descrição de imagens, com modelos treinados no PixMo, um conjunto de dados de um milhão de pares imagem-texto altamente selecionados. Esses conjuntos de dados foram coletados exclusivamente por anotadores humanos por meio de descrições de voz. Além disso, o Molmo apresenta uma combinação diversificada de conjuntos de dados para ajuste fino, incluindo dados inovadores de apontamento em 2D que permitem que o Molmo responda a perguntas usando não apenas a linguagem natural, mas também pistas não verbais.
Lista de funções
- Reconhecimento de imagens: a capacidade de reconhecer objetos em uma imagem e gerar uma descrição.
- Geração de texto: gere descrições de texto relevantes com base no texto ou nas imagens de entrada.
- Processamento de dados multimodais: combinação de dados textuais e visuais para tarefas complexas.
- Recursos de código aberto: recursos de código aberto para modelos e conjuntos de dados estão disponíveis para pesquisadores.
- Demonstração on-line: fornece uma função de demonstração on-line em que os usuários podem carregar imagens e gerar descrições.
Usando a Ajuda
Diretrizes para uso
- reconhecimento de imagensClique no botão "Upload Image" na página inicial do site e selecione o arquivo de imagem a ser reconhecido. Após o upload, o sistema gerará automaticamente uma descrição da imagem.
- Geração de textoDigite o texto ou a pergunta para a qual deseja gerar uma descrição na caixa de texto, clique no botão "Generate" (Gerar) e o sistema gerará a descrição de texto relevante de acordo com o conteúdo de entrada.
- Processamento de dados multimodaisO sistema combina os dois e gera uma descrição abrangente.
- recurso de código abertoVisite a plataforma Hugging Face para pesquisar modelos Molmo, fazer download e usar os recursos de código aberto fornecidos.
- Demonstração on-lineClique no botão "Online Demo" na página inicial do site para acessar a página de demonstração. Os usuários podem fazer upload de imagens ou inserir texto para experimentar os recursos do Molmo em tempo real.
Função Fluxo de operação
- reconhecimento de imagens::
- Abra o site do Molmo e clique no botão "Upload Image" (Carregar imagem).
- Selecione o arquivo de imagem a ser reconhecido e clique em "Upload".
- Aguardando que o sistema processe e gere uma descrição da imagem.
- Visualize e salve a descrição gerada.
- Geração de texto::
- Na caixa de texto, digite o texto ou a pergunta para a qual você deseja gerar uma descrição.
- Clique no botão "Generate" (Gerar) e aguarde o processamento do sistema.
- Visualize a descrição de texto gerada e edite-a ou salve-a conforme necessário.
- Processamento de dados multimodais::
- Faça o upload da imagem e do texto ao mesmo tempo e clique no botão "Process" (Processar).
- O sistema combina processamento de imagem e texto para gerar uma descrição abrangente.
- Visualizar e salvar a descrição composta gerada.
- Uso de recursos de código aberto::
- Visite a plataforma Hugging Face e procure os modelos Molmo.
- Faça o download do modelo e do conjunto de dados e siga as instruções de instalação e uso.
- Use o código de amostra e a documentação fornecidos para desenvolvimento secundário ou pesquisa.