Recentemente, a Microsoft Research lançou uma grande conquista de pesquisa: o Magma, um modelo básico de agentes de IA multimodal. Esse modelo é um modelo multi-habilidoso que não apenas "lê" imagens e "entende" a linguagem como um ser humano, mas também pode operar diretamente interfaces de usuário (UIs) e controlar robôs, o que é muito impressionante. O Magma é um modelo multi-habilidoso que não apenas "vê" imagens e "entende" a linguagem como um ser humano, mas também pode operar interfaces de usuário (UIs) e controlar robôs diretamente da mão. Esse avanço rompe as limitações dos modelos de linguagem visual anteriores, que só conseguem entender imagens de forma estática, e abre novos horizontes para aplicações interativas de IA.
O melhor do Magma, segundo a Microsoft, é que ele pode lidar com uma ampla gama de tarefas interativas nos mundos digital e físico com apenas um modelo. O que é ainda mais surpreendente é que o Magma também é muito versátil e não precisa ser ajustado para um domínio específico para demonstrar desempenho superior aos modelos especializados existentes. Isso significa que se espera que o Magma seja a pedra fundamental de uma inteligência de IA de uso geral, reduzindo significativamente o custo de desenvolvimento e implantação de aplicativos de IA.
O molho secreto da Magma: tecnologias SoM e ToM.
A arma secreta que torna o modelo Magma tão poderoso são as duas tecnologias principais que ele emprega: Set-of-Mark (SoM) e Trace-of-Mark (ToM).
Conjunto de marcas (SoM)O entendimento do Magma sobre elementos interativos está centrado na técnica de "marcação de coleções". Em termos simples, é como "marcar" objetos em uma imagem que podem ser manipulados, como botões em uma interface de usuário (UI) ou um braço robótico em uma cena da vida real. Dessa forma, a IA pode reconhecer com mais precisão os elementos interativos na imagem e agir de acordo. Por exemplo, na área de manipulação da interface do usuário, a tecnologia SoM permite que o Magma identifique com precisão os botões clicáveis em uma página da Web ou em um aplicativo e siga os comandos do usuário para concluir processos complexos, como compras on-line, preenchimento de informações e assim por diante. No campo do controle de robôs, a tecnologia SoM dá ao Magma a capacidade de detectar o ambiente, permitindo que ele avalie a posição e as características dos objetos e, em seguida, controle com precisão o braço robótico para realizar operações finas de forma estável, como agarrar, mover e colocar objetos.
Rastro de marca (ToM) A tecnologia, Marked Trajectories, concentra-se em permitir que o Magma aprenda sobre movimentos temporais. Essa tecnologia permite que a IA obtenha uma compreensão mais profunda de como os objetos mudam na linha do tempo, marcando as trajetórias de movimento em uma imagem. A tecnologia ToM permite que a Magma preveja ações futuras, por exemplo, determinando o melhor caminho a ser seguido por um braço robótico ao executar uma tarefa ou analisando os padrões de comportamento de um personagem em um vídeo para planejar com mais precisão seu próximo movimento. Em comparação com os métodos tradicionais de previsão quadro a quadro, a tecnologia ToM usa menos tokens para capturar alterações em intervalos de tempo mais longos, melhorando significativamente a capacidade de tomada de decisão da IA em cenas dinâmicas e reduzindo efetivamente a interferência do ruído ambiental.
Desempenho do Magma em ação: várias avaliações no topo das paradas
Para validar os pontos fortes do Magma, os pesquisadores realizaram vários testes rigorosos de benchmark. Os resultados mostraram que o Magma se destacou e superou o desempenho em todos os testes, comprovando sua liderança tecnológica.
No campo da manipulação da interface do usuário (UI), o Magma alcançou taxas de precisão muito altas no Mind2Web e no AITW. Isso é um forte testemunho da capacidade do Magma de manipular páginas da Web complexas e interfaces de aplicativos móveis, realizando até mesmo tarefas complexas, como navegação na Web e manipulação de aplicativos, como um usuário real.
Em termos de controle de robôs, o Magma supera o modelo existente de linguagem de visão de robôs OpenVLA nos testes WidowX e LIBERO. Os resultados dos testes mostram que o Magma é capaz de executar com êxito tarefas complexas, como manipulação de software e pick-and-place de objetos sólidos, e demonstra excelente generalização e estabilidade em ambientes conhecidos e desconhecidos. Isso significa que o Magma tem potencial para ser usado em robôs industriais e de serviços, como linhas de produção automatizadas, logística inteligente, serviços domésticos e muito mais.
Aprendizado zero e menos amostras: adaptação rápida a novos ambientes
Outro destaque do Magma é sua excelente capacidade de aprendizado de zero e poucas amostras. Isso permite que o Magma seja aplicado diretamente a ambientes novos, nunca antes vistos, sem ajustes finos adicionais que consomem muito tempo. Os dados de teste mostraram que o Magma pode concluir um fluxo de tarefas completo com zero amostras, tanto em operações de interface de usuário (UI) quanto em tarefas de robótica. Esse recurso reduz as barreiras à adoção, tornando o Magma mais rápido e fácil de implementar em cenários reais.
Além de seu excelente desempenho na operação da interface do usuário (UI) e em aplicativos de robótica, o Magma também demonstrou sua força em tarefas como questionamento visual e raciocínio temporal. A Microsoft também admitiu que a avaliação do raciocínio espacial ainda é um problema muito desafiador para o GPT-4o, mas o Magma pode resolver melhor esse tipo de problema, embora a quantidade de dados de pré-treinamento seja muito menor do que a do GPT-4o. Isso nos faz esperar ansiosamente pelo desenvolvimento futuro do Magma.
Em suma, o lançamento do modelo Magma da Microsoft é, sem dúvida, outro marco importante no campo da IA multimodal. Com suas tecnologias SoM e ToM exclusivas, bem como seus excelentes recursos de aprendizado de zero e poucas amostras, espera-se que o Magma seja o líder no desenvolvimento de uma nova geração de inteligências de IA e crie uma nova revolução tecnológica no campo das interações da interface do usuário (UI), do controle robótico e de uma gama mais ampla de aplicativos de IA.