Modèle Microsoft Magma : un corps intelligent doté d'une IA qui prend en charge les opérations de l'interface utilisateur et les commandes du robot

微软 Magma 模型:一款 AI 智能体,搞定 UI 操作和机器人控制

Récemment, Microsoft Research a publié un résultat de recherche majeur : Magma, un modèle de base d'agents d'intelligence artificielle multimodaux. Ce modèle est un modèle polyvalent qui non seulement "lit" les images et "comprend" le langage comme les humains, mais qui peut aussi utiliser directement les interfaces utilisateur et contrôler les robots, ce qui est très impressionnant. Magma est un modèle polyvalent qui non seulement "voit" des images et "comprend" le langage comme un humain, mais qui peut aussi commander des interfaces utilisateur et des robots directement depuis la main. Cette avancée dépasse les limites des modèles de langage visuel précédents, qui ne peuvent comprendre les images que de manière statique, et ouvre de nouveaux horizons pour les applications interactives de l'IA.

Selon Microsoft, l'avantage de Magma est qu'il peut gérer un large éventail de tâches interactives dans les mondes numérique et physique avec un seul modèle. Ce qui est encore plus surprenant, c'est que Magma est également très polyvalent et qu'il n'a pas besoin d'être adapté à un domaine spécifique pour démontrer des performances supérieures à celles des modèles spécialisés existants. Cela signifie que Magma devrait être la pierre angulaire d'une intelligence artificielle polyvalente, réduisant de manière significative le coût de développement et de déploiement des applications d'intelligence artificielle.

La sauce secrète de Magma : les technologies SoM et ToM.

L'arme secrète qui rend le modèle Magma si puissant réside dans les deux technologies de base qu'il emploie : Set-of-Mark (SoM) et Trace-of-Mark (ToM).

Jeu de marques (SoM)La compréhension qu'a Magma des éléments interactifs est centrée sur la technique des "collections de balises". En termes simples, cela revient à "étiqueter" les objets d'une image qui peuvent être manipulés, tels que les boutons d'une interface utilisateur ou un bras robotique dans une scène de la vie réelle. L'IA peut ainsi reconnaître plus précisément les éléments interactifs dans l'image et agir en conséquence. Par exemple, dans le domaine de la manipulation de l'interface utilisateur, la technologie SoM permet à Magma d'identifier avec précision les boutons cliquables sur une page web ou une application, et de suivre les commandes de l'utilisateur pour mener à bien des processus complexes, tels que les achats en ligne, le remplissage d'informations, etc. Dans le domaine du contrôle des robots, la technologie SoM donne à Magma la capacité de détecter l'environnement, ce qui lui permet d'évaluer la position et les caractéristiques des objets, puis de contrôler avec précision le bras robotique afin d'effectuer de manière stable des opérations fines telles que la saisie, le déplacement et le placement d'objets.

Trace de marque (ToM) La technologie Marked Trajectories (Trajectoires marquées) permet à Magma d'apprendre les mouvements temporels. Cette technologie permet à l'IA de mieux comprendre comment les objets changent sur la ligne du temps en étiquetant les trajectoires de mouvement dans une image. La technologie ToM donne à Magma la capacité de prédire des actions futures, par exemple en déterminant la meilleure trajectoire à suivre par un bras robotique lors de l'exécution d'une tâche, ou en analysant les modèles de comportement d'un personnage dans une vidéo pour planifier avec plus de précision son prochain mouvement. Par rapport aux méthodes traditionnelles de prédiction image par image, la technologie ToM utilise moins de tokens pour saisir les changements sur des périodes plus longues, ce qui améliore considérablement la capacité de l'IA à prendre des décisions dans des scènes dynamiques et réduit efficacement les interférences dues au bruit ambiant.

La performance de Magma en action : de nombreuses critiques en tête du palmarès

Pour valider les points forts de Magma, les chercheurs ont effectué plusieurs tests de référence rigoureux. Les résultats ont montré que Magma a excellé et surpassé tous les tests, prouvant ainsi son leadership technologique.

Dans le domaine de la manipulation de l'interface utilisateur (UI), Magma a atteint des taux de précision très élevés à la fois dans Mind2Web et AITW. Cela témoigne de la capacité de Magma à manipuler des pages web complexes et des interfaces d'applications mobiles, et même à exécuter des tâches complexes telles que la navigation sur le web et la manipulation d'applications comme un véritable utilisateur.

Les résultats des tests montrent que Magma est capable d'exécuter avec succès des tâches complexes telles que la manipulation de logiciels et la prise et le placement d'objets solides, et qu'il fait preuve d'une excellente généralisation et d'une grande stabilité dans des environnements connus et inconnus. Cela signifie que Magma a le potentiel d'être utilisé dans des robots industriels et de service, tels que les lignes de production automatisées, la logistique intelligente, les services à domicile, etc.

Apprentissage par échantillonnage zéro et moins : s'adapter rapidement à de nouveaux environnements

Un autre point fort de Magma est son excellente capacité d'apprentissage à partir de zéro et de quelques échantillons. Cela permet à Magma d'être appliqué directement à de nouveaux environnements, jamais vus auparavant, sans qu'il soit nécessaire de procéder à une mise au point supplémentaire qui prend du temps. Les données de test ont montré que Magma peut accomplir un flux de tâches complet avec zéro échantillon, à la fois dans les opérations d'interface utilisateur et dans les tâches de robotique. Cette caractéristique réduit les obstacles à l'adoption, rendant Magma plus rapide et plus facile à mettre en œuvre dans des scénarios réels.

Outre ses performances exceptionnelles dans le domaine de l'interface utilisateur et des applications robotiques, Magma a également démontré sa force dans des tâches telles que le quizz visuel et le raisonnement temporel. Microsoft a également admis que l'évaluation du raisonnement spatial reste un problème difficile pour le GPT-4o, mais que Magma peut mieux résoudre ces problèmes même si la quantité de données de pré-entraînement est bien inférieure à celle du GPT-4o. Cela nous incite à attendre avec impatience le développement futur de Magma.

Dans l'ensemble, la sortie du modèle Magma de Microsoft constitue sans aucun doute une nouvelle avancée importante dans le domaine de l'IA multimodale. Grâce à ses technologies uniques SoM et ToM, ainsi qu'à ses excellentes capacités d'apprentissage à zéro et à quelques échantillons, Magma devrait ouvrir la voie au développement d'une nouvelle génération d'intelligences artificielles et créer une nouvelle révolution technologique dans le domaine des interactions avec l'interface utilisateur, du contrôle de la robotique et d'un large éventail d'applications de l'IA.

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...