Modèle Microsoft Magma : un corps intelligent doté d'une IA qui prend en charge les opérations de l'interface utilisateur et les commandes du robot

最近,微软研究院发布了一项重磅研究成果——多模态人工智能代理基础模型 Magma。 这款模型可谓是身兼多项绝技,它不仅能像人一样“看懂”图像和“听懂”语言,还能直接上手操作用户界面 (UI) 和控制机器人,着实令人眼前一亮。 这一突破性的进展,打破了以往视觉语言模型只能静态理解图像的局限,为人工智能的交互应用开辟了新天地。
微软方面表示,Magma 最厉害的地方在于,只需一个模型就能搞定数字世界和物理世界里的各种互动任务。 更让人惊喜的是,Magma 还非常“万能”,无需针对特定领域进行微调,就能展现出超越现有专用模型的卓越性能。 这意味着,Magma 有望成为通用型 AI 智能体的基石,大大降低人工智能应用的开发和部署成本。
Magma 的独门秘籍:SoM 和 ToM 技术
Magma 模型之所以如此强大,秘密武器就是它所采用的两项核心技术:Set-of-Mark (SoM) 和 Trace-of-Mark (ToM)。
Set-of-Mark (SoM),也就是“标记集合”技术,是 Magma 理解互动元素的核心所在。 简单来说,它就像给图像中可以操作的物体打上“标签”,比如用户界面 (UI) 上的按钮,或是现实场景中的机械臂。 这样一来,人工智能就能更准确地识别出图像中的互动元素,并采取相应的动作。 举个例子,在用户界面 (UI) 操作方面,SoM 技术能让 Magma 精准识别出网页或 APP 上可以点击的按钮,并根据用户指令完成复杂的操作流程,比如网上购物、填写资料等等。 在机器人控制领域,SoM 技术则赋予了 Magma 环境感知能力,使其能够判断物体的位置和特性,进而精准控制机械臂,稳定地完成抓取、移动、放置物品等精细操作。
Trace-of-Mark (ToM) 技术,即“标记轨迹”技术,则专注于让 Magma 学习时序动作。 这项技术通过标记图像中的移动轨迹,使人工智能能够深入理解物体在时间轴上的变化。 ToM 技术赋予 Magma 预测未来动作的能力,例如,它可以判断机械臂在执行任务时的最佳运动路径,或者分析视频中人物的行为模式,从而更准确地规划下一步动作。 相比传统的逐帧预测方法,ToM 技术只需使用更少的 Token,就能捕捉更长时间范围内的变化,显著提升了人工智能在动态场景中的决策能力,并有效降低环境噪音的干扰。
Magma 性能实测:多项评测榜上有名
为了验证 Magma 的实力,研究人员进行了多项严格的基准测试。 结果显示,Magma 在各项测试中都表现出色,力压群雄,充分证明了其技术的领先性。
在用户界面 (UI) 操作领域,Magma 在 Mind2Web 和 AITW 两项权威评测中都取得了非常高的准确率。 这有力地证明了 Magma 在操作复杂网页和手机 APP 界面方面的卓越能力,甚至可以像真人用户一样完成网页浏览、应用操作等复杂任务。
在机器人控制方面,Magma 在 WidowX 和 LIBERO 测试中,更是超越了现有的机器人视觉语言模型 OpenVLA。 测试结果表明,Magma 能够成功完成软件操控和实体物体的拾取放置等复杂任务,并且在已知和未知环境中,都展现出优秀的泛化能力和稳定性。 这意味着 Magma 有望在工业和服务型机器人领域大展拳脚,例如自动化生产线、智能物流、家庭服务等等。
零样本 & 少样本学习:快速适应新环境
Magma 的另一大亮点,在于其出色的零样本和少样本学习能力。 这使得 Magma 能够直接应用于全新的、从未见过的环境,而无需额外进行耗时费力的微调。 测试数据表明,无论是在用户界面 (UI) 操作,还是在机器人任务中,Magma 都能在零样本情况下顺利完成完整的任务流程。 这一特性大大降低了 Magma 的应用门槛,使其能够更快速、更便捷地落地到各种实际场景中。
除了在用户界面 (UI) 操作和机器人应用领域表现抢眼外,Magma 在视觉问答、时序推理等任务上也展现出了不俗的实力。 特别是在空间推理测试中,Magma 的表现甚至超过了被广泛认为是业界标杆的 GPT-4o。 微软方面也坦言,空间推理评估对于 GPT-4o 来说仍然是一个很有挑战性的难题,但 Magma 即使预训练数据量远少于 GPT-4o,却能更好地解决这类问题。 这不禁让人对 Magma 的未来发展充满期待。
总而言之,微软 Magma 模型的发布,无疑是多模态人工智能领域又一次里程碑式的突破。 凭借其独特的 SoM 和 ToM 技术,以及出色的零样本和少样本学习能力,Magma 有望引领新一代 AI 智能体模型的发展方向,并在用户界面 (UI) 交互、机器人控制以及更广泛的人工智能应用领域,掀起一场新的技术革命。
© déclaration de droits d'auteur
L'article est protégé par le droit d'auteur et ne doit pas être reproduit sans autorisation.
Articles connexes
Pas de commentaires...