Os pesquisadores da Apple acabam de publicar um novo artigo descrevendo o MM1, uma família de modelos de IA multimodais que combinam visão e compreensão de linguagem para possibilitar funcionalidades avançadas.
Detalhes.
O modelo MM1 é treinado em uma mistura cuidadosamente selecionada de legendas de imagens, dados de texto de imagens e dados de texto simples.
O maior modelo paramétrico 30B mostra o poder de aprender com um pequeno número de exemplos e inferir várias imagens.
estudo conclui
O processamento de imagens do modelo em escala tem o maior impacto sobre o desempenho.
O benchmark MM1 concorre com modelos multimodais de última geração, como o GPT-4V e o Gemini Pro.
Motivo para preocupação: o lançamento detalhado e discreto de novos modelos pela Apple está muito longe de seu estilo habitual de sigilo e é uma grande vitória para o software de código aberto. Agora que um novo e poderoso modelo está oficialmente disponível, será que a Siri está finalmente pronta para uma atualização?