AI个人学习
和实操指南

OpenAI 推出首个L3级智能体Operator:开启人机交互新时代

Computer Use赛道拥挤,有创业黑马、也有巨头大佬,现在OpenAI也杀了进来。

你可以关注 桌面自动化智能体 ,我们收集了数十个相关产品。


 

人工智能领域竞争日趋激烈,不仅有创业新秀涌现,科技巨头也纷纷入局,如今,OpenAI也重磅加入战局。近日,OpenAI正式发布了名为 Operator 的智能体系统,这款首个能够像人类一样自主操作电脑的AI系统,被认为是人工智能迈向通用人工智能(AGI)的关键一步。正如OpenAI总裁 Greg Brockman 所预言:

2025年将是智能体之年。我们或许正在见证一个由智能体深度参与的 “混合互联网”(hybrid Internet)的诞生。“

alt text

 

Operator:基于CUA模型的计算机使用智能体

Operator 是 OpenAI 发布的 研究预览版 产品,其核心技术是 计算机使用智能体(Computer-Using Agent,CUA)模型。CUA 模型结合了 GPT-4o 的视觉能力和强化学习技术,使其能够通过分析屏幕截图与图形用户界面(GUI)进行交互,模拟人类使用键盘、鼠标等外设操作电脑,完成各种复杂任务。

与传统的AI系统依赖预设API接口不同,Operator 能够 直接与图形用户界面(GUI)交互,无需针对特定应用或网站开发专门的API。这意味着 Operator 可以像人类用户一样,通过 点击、输入、滚动 等基本操作,与几乎所有的电脑应用和网页进行互动,极大地拓展了AI的应用范围。

alt text

 

Operator的功能亮点与应用潜力

在演示中,Operator 展示了令人印象深刻的自主操作能力,能够理解用户指令并完成各种日常和专业任务,例如:

  • 生活服务预订:自动完成餐厅订座、在线购物、机票预订、活动票务预订、家政服务预约、外卖订餐等。例如,用户只需上传手写购物清单的照片,Operator 即可识别内容并在 Instacart 等平台完成采购。
  • 信息处理与自动化:快速完成重复性操作,例如批量下载文件、批量编辑文档、在线填写表单等。

alt text

具体而言,Operator 的功能亮点包括:

  • 视觉感知:CUA 模型能够处理屏幕的像素数据,理解当前屏幕的视觉状态,识别界面元素(如按钮、文字框等)。
  • 推理与规划:借助“思维链”(Chain of Thought,CoT)技术,CUA 能够推理任务步骤,规划操作路径,并根据环境变化动态调整行动计划,甚至在遇到问题时能够自我纠正和调整策略。
  • 操作执行:CUA 使用虚拟鼠标和键盘执行点击、滚动、键入等操作,直至完成目标任务。用户甚至可以让 Operator 使用特定应用程序,例如 OpenTable 预订餐厅,或通过附件上传购物清单至 Instacart 下单。

alt text

alt text

 

CUA技术核心:视觉感知、推理规划与通用接口

Operator 的核心驱动力在于 CUA 模型的强大技术能力,其核心技术构成主要包括以下三个方面:

(1) 视觉感知与推理: CUA 通过处理屏幕截图分析界面内容,理解屏幕上的元素和信息。结合 “思维链” 技术,CUA 能够推断下一步操作,并生成截图和操作日志,以便追踪和调整任务流程。

(2) 多步骤任务规划: CUA 能够将复杂任务分解为多步骤操作,例如在网页中搜索商品、选择规格、确认订单等。更重要的是,CUA 具备 适应变化和自我纠错 的能力,当网站内容与预期不同时,能够尝试寻找替代方案。

(3) 无需特定API的通用接口: CUA 摆脱了传统AI对API的依赖,可以直接与用户界面进行交互,这使其能够适应几乎所有网页和软件环境,真正实现了 “数字世界的通用界面”,让AI能够与人类使用的所有软件工具进行交互。

 

CUA性能表现:基准测试与实际应用

CUA 在多项基准测试中取得了突破性进展, 远超之前的技术水平:

  • OSWorld(操作系统任务):CUA 完成率为 38.1%,显著高于之前的最佳记录 22.0%
  • WebArena(浏览器任务):CUA 的成功率达到 58.1%,远高于之前的 36.2%
  • WebVoyager(简单网页任务):CUA 达到了 87% 的成功率,与人类水平接近。

alt text

alt text

尽管如此,CUA 与人类水平相比仍有差距(例如,OSWorld 的人类完成率为 72.4%)。在实际应用中,CUA 也存在一些局限性:

  • 文本编辑不精确:在复杂文本编辑任务中容易出错。
  • 交互局限性:面对未知的复杂用户界面时,可能需要多次试错。
  • 依赖细节描述:需要用户提供非常具体的操作说明才能获得最佳效果。

 

安全保障:多重机制护航用户隐私与安全

考虑到 Operator 可能会处理支付、登录等敏感操作,OpenAI 在设计中加入了多层安全保护机制,以确保用户隐私和操作安全:

  • 任务确认:在执行关键操作(如预订和支付)前,系统会主动请求用户确认。例如,当助手草拟了重置密码的邮件或准备删除邮件时,都会请求用户确认是否继续执行。
  • 内容过滤:系统会自动识别和阻止潜在有害的请求(如购买武器)。
  • 行为监控:系统内置监控功能,检测异常操作并暂停任务。
  • 用户可随时接管控制:用户在操作过程中可以随时接管任务,“Operator” 无法访问接管期间的用户操作记录,保障用户隐私。
  • 人类监督机制:对于敏感任务(如输入密码),CUA 会请求用户确认,防止误操作。
  • 反欺诈措施:CUA 能够识别潜在的诈骗网站,并暂停操作。
  • 行为透明性:CUA 在操作每一步时都会生成截图,确保所有行为可追溯。

alt text

 

未来展望:智能体普及与AGI发展

目前,Operator 仅向美国 Pro 用户开放测试。OpenAI 表示未来将扩展到更多用户群体,并计划通过 API 开放 CUA 能力,让开发者能够构建自己的计算机智能体。

Operator 的推出,被认为是 AGI 发展进程中的重要一步。展望未来,Operator 以及 CUA 技术将在多个方面持续演进:

  • 智能体的扩展:CUA 的动作空间将被扩展到更多任务场景,OpenAI 计划提供开放 API,支持开发者构建自定义智能体,拓展其应用边界。
  • Operator全球开放:未来 Operator 有望向更多地区的 Plus 用户开放使用权限,惠及全球用户。
  • 推动AGI发展:Operator 的出现预示着智能体时代的加速到来,预计未来几年将涌现更多类似智能体,AI 将在更广泛的领域取代人类完成数字交互任务, 2025年或将成为真正的“智能体之年”

 

结论与思考

Operator 和 CUA 的发布,标志着 AI 交互模式的革命性转变,AI 与计算机的交互方式正从以数据接口为核心的模式,转向以人机界面为基础的通用操作模式,这为实现通用人工智能(AGI) 奠定了坚实的基础。

深入思考问题:

  • CUA 技术是否会逐步替代现有的基于 API 的 AI 操作方式?其在工业领域的实际部署成本和效益如何?
  • 随着 CUA 能力的不断提升,人类用户在数字任务中的角色将发生怎样的转变?我们是否需要为 “智能体接管” 做好准备?
  • 面对日益复杂的网络环境和潜在的滥用风险,CUA 如何才能持续有效地确保用户安全?未来的安全设计应考虑哪些新的维度?
未经允许不得转载:首席AI分享圈 » OpenAI 推出首个L3级智能体Operator:开启人机交互新时代

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文