AI个人学习
和实操指南
资源推荐1

微软 Magma 模型:一款 AI 智能体,搞定 UI 操作和机器人控制

微软 Magma 模型:一款 AI 智能体,搞定 UI 操作和机器人控制-1

最近,微软研究院发布了一项重磅研究成果——多模态人工智能代理基础模型 Magma。 这款模型可谓是身兼多项绝技,它不仅能像人一样“看懂”图像和“听懂”语言,还能直接上手操作用户界面 (UI) 和控制机器人,着实令人眼前一亮。 这一突破性的进展,打破了以往视觉语言模型只能静态理解图像的局限,为人工智能的交互应用开辟了新天地。


微软方面表示,Magma 最厉害的地方在于,只需一个模型就能搞定数字世界和物理世界里的各种互动任务。 更让人惊喜的是,Magma 还非常“万能”,无需针对特定领域进行微调,就能展现出超越现有专用模型的卓越性能。 这意味着,Magma 有望成为通用型 AI 智能体的基石,大大降低人工智能应用的开发和部署成本。

Magma 的独门秘籍:SoM 和 ToM 技术

Magma 模型之所以如此强大,秘密武器就是它所采用的两项核心技术:Set-of-Mark (SoM) 和 Trace-of-Mark (ToM)。

Set-of-Mark (SoM),也就是“标记集合”技术,是 Magma 理解互动元素的核心所在。 简单来说,它就像给图像中可以操作的物体打上“标签”,比如用户界面 (UI) 上的按钮,或是现实场景中的机械臂。 这样一来,人工智能就能更准确地识别出图像中的互动元素,并采取相应的动作。 举个例子,在用户界面 (UI) 操作方面,SoM 技术能让 Magma 精准识别出网页或 APP 上可以点击的按钮,并根据用户指令完成复杂的操作流程,比如网上购物、填写资料等等。 在机器人控制领域,SoM 技术则赋予了 Magma 环境感知能力,使其能够判断物体的位置和特性,进而精准控制机械臂,稳定地完成抓取、移动、放置物品等精细操作。

Trace-of-Mark (ToM) 技术,即“标记轨迹”技术,则专注于让 Magma 学习时序动作。 这项技术通过标记图像中的移动轨迹,使人工智能能够深入理解物体在时间轴上的变化。 ToM 技术赋予 Magma 预测未来动作的能力,例如,它可以判断机械臂在执行任务时的最佳运动路径,或者分析视频中人物的行为模式,从而更准确地规划下一步动作。 相比传统的逐帧预测方法,ToM 技术只需使用更少的 Token,就能捕捉更长时间范围内的变化,显著提升了人工智能在动态场景中的决策能力,并有效降低环境噪音的干扰。

Magma 性能实测:多项评测榜上有名

为了验证 Magma 的实力,研究人员进行了多项严格的基准测试。 结果显示,Magma 在各项测试中都表现出色,力压群雄,充分证明了其技术的领先性。

在用户界面 (UI) 操作领域,Magma 在 Mind2Web 和 AITW 两项权威评测中都取得了非常高的准确率。 这有力地证明了 Magma 在操作复杂网页和手机 APP 界面方面的卓越能力,甚至可以像真人用户一样完成网页浏览、应用操作等复杂任务。

在机器人控制方面,Magma 在 WidowX 和 LIBERO 测试中,更是超越了现有的机器人视觉语言模型 OpenVLA。 测试结果表明,Magma 能够成功完成软件操控和实体物体的拾取放置等复杂任务,并且在已知和未知环境中,都展现出优秀的泛化能力和稳定性。 这意味着 Magma 有望在工业和服务型机器人领域大展拳脚,例如自动化生产线、智能物流、家庭服务等等。

零样本 & 少样本学习:快速适应新环境

Magma 的另一大亮点,在于其出色的零样本和少样本学习能力。 这使得 Magma 能够直接应用于全新的、从未见过的环境,而无需额外进行耗时费力的微调。 测试数据表明,无论是在用户界面 (UI) 操作,还是在机器人任务中,Magma 都能在零样本情况下顺利完成完整的任务流程。 这一特性大大降低了 Magma 的应用门槛,使其能够更快速、更便捷地落地到各种实际场景中。

除了在用户界面 (UI) 操作和机器人应用领域表现抢眼外,Magma 在视觉问答、时序推理等任务上也展现出了不俗的实力。 特别是在空间推理测试中,Magma 的表现甚至超过了被广泛认为是业界标杆的 GPT-4o。 微软方面也坦言,空间推理评估对于 GPT-4o 来说仍然是一个很有挑战性的难题,但 Magma 即使预训练数据量远少于 GPT-4o,却能更好地解决这类问题。 这不禁让人对 Magma 的未来发展充满期待。

总而言之,微软 Magma 模型的发布,无疑是多模态人工智能领域又一次里程碑式的突破。 凭借其独特的 SoM 和 ToM 技术,以及出色的零样本和少样本学习能力,Magma 有望引领新一代 AI 智能体模型的发展方向,并在用户界面 (UI) 交互、机器人控制以及更广泛的人工智能应用领域,掀起一场新的技术革命。

内容2
未经允许不得转载:首席AI分享圈 » 微软 Magma 模型:一款 AI 智能体,搞定 UI 操作和机器人控制

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文