OpenAI 推出首个L3级智能体Operator：开启人机交互新时代

51.9K 00

Computer Use赛道拥挤，有创业黑马、也有巨头大佬，现在OpenAI也杀了进来。

你可以关注桌面自动化智能体，我们收集了数十个相关产品。

人工智能领域竞争日趋激烈，不仅有创业新秀涌现，科技巨头也纷纷入局，如今，OpenAI也重磅加入战局。近日，OpenAI正式发布了名为 Operator 的智能体系统，这款首个能够像人类一样自主操作电脑的AI系统，被认为是人工智能迈向通用人工智能（AGI）的关键一步。正如OpenAI总裁 Greg Brockman 所预言：

2025年将是智能体之年。我们或许正在见证一个由智能体深度参与的 “混合互联网”（hybrid Internet）的诞生。“

Operator：基于CUA模型的计算机使用智能体

Operator 是 OpenAI 发布的研究预览版产品，其核心技术是计算机使用智能体（Computer-Using Agent，CUA）模型。CUA 模型结合了 GPT-4o 的视觉能力和强化学习技术，使其能够通过分析屏幕截图与图形用户界面（GUI）进行交互，模拟人类使用键盘、鼠标等外设操作电脑，完成各种复杂任务。

与传统的AI系统依赖预设API接口不同，Operator 能够直接与图形用户界面（GUI）交互，无需针对特定应用或网站开发专门的API。这意味着 Operator 可以像人类用户一样，通过点击、输入、滚动等基本操作，与几乎所有的电脑应用和网页进行互动，极大地拓展了AI的应用范围。

Operator的功能亮点与应用潜力

在演示中，Operator 展示了令人印象深刻的自主操作能力，能够理解用户指令并完成各种日常和专业任务，例如：

生活服务预订：自动完成餐厅订座、在线购物、机票预订、活动票务预订、家政服务预约、外卖订餐等。例如，用户只需上传手写购物清单的照片，Operator 即可识别内容并在 Instacart 等平台完成采购。
信息处理与自动化：快速完成重复性操作，例如批量下载文件、批量编辑文档、在线填写表单等。

具体而言，Operator 的功能亮点包括：

视觉感知：CUA 模型能够处理屏幕的像素数据，理解当前屏幕的视觉状态，识别界面元素（如按钮、文字框等）。
推理与规划：借助“思维链”（Chain of Thought，CoT）技术，CUA 能够推理任务步骤，规划操作路径，并根据环境变化动态调整行动计划，甚至在遇到问题时能够自我纠正和调整策略。
操作执行：CUA 使用虚拟鼠标和键盘执行点击、滚动、键入等操作，直至完成目标任务。用户甚至可以让 Operator 使用特定应用程序，例如 OpenTable 预订餐厅，或通过附件上传购物清单至 Instacart 下单。

CUA技术核心：视觉感知、推理规划与通用接口

Operator 的核心驱动力在于 CUA 模型的强大技术能力，其核心技术构成主要包括以下三个方面：

(1) 视觉感知与推理： CUA 通过处理屏幕截图分析界面内容，理解屏幕上的元素和信息。结合 “思维链” 技术，CUA 能够推断下一步操作，并生成截图和操作日志，以便追踪和调整任务流程。

(2) 多步骤任务规划： CUA 能够将复杂任务分解为多步骤操作，例如在网页中搜索商品、选择规格、确认订单等。更重要的是，CUA 具备 适应变化和自我纠错 的能力，当网站内容与预期不同时，能够尝试寻找替代方案。

(3) 无需特定API的通用接口： CUA 摆脱了传统AI对API的依赖，可以直接与用户界面进行交互，这使其能够适应几乎所有网页和软件环境，真正实现了 “数字世界的通用界面”，让AI能够与人类使用的所有软件工具进行交互。

CUA性能表现：基准测试与实际应用

CUA 在多项基准测试中取得了突破性进展，远超之前的技术水平：

OSWorld（操作系统任务）：CUA 完成率为 38.1%，显著高于之前的最佳记录 22.0%。
WebArena（浏览器任务）：CUA 的成功率达到 58.1%，远高于之前的 36.2%。
WebVoyager（简单网页任务）：CUA 达到了 87% 的成功率，与人类水平接近。

尽管如此，CUA 与人类水平相比仍有差距（例如，OSWorld 的人类完成率为 72.4%）。在实际应用中，CUA 也存在一些局限性：

文本编辑不精确：在复杂文本编辑任务中容易出错。
交互局限性：面对未知的复杂用户界面时，可能需要多次试错。
依赖细节描述：需要用户提供非常具体的操作说明才能获得最佳效果。

安全保障：多重机制护航用户隐私与安全

考虑到 Operator 可能会处理支付、登录等敏感操作，OpenAI 在设计中加入了多层安全保护机制，以确保用户隐私和操作安全：

任务确认：在执行关键操作（如预订和支付）前，系统会主动请求用户确认。例如，当助手草拟了重置密码的邮件或准备删除邮件时，都会请求用户确认是否继续执行。
内容过滤：系统会自动识别和阻止潜在有害的请求（如购买武器）。
行为监控：系统内置监控功能，检测异常操作并暂停任务。
用户可随时接管控制：用户在操作过程中可以随时接管任务，“Operator” 无法访问接管期间的用户操作记录，保障用户隐私。
人类监督机制：对于敏感任务（如输入密码），CUA 会请求用户确认，防止误操作。
反欺诈措施：CUA 能够识别潜在的诈骗网站，并暂停操作。
行为透明性：CUA 在操作每一步时都会生成截图，确保所有行为可追溯。

未来展望：智能体普及与AGI发展

目前，Operator 仅向美国 Pro 用户开放测试。OpenAI 表示未来将扩展到更多用户群体，并计划通过 API 开放 CUA 能力，让开发者能够构建自己的计算机智能体。

Operator 的推出，被认为是 AGI 发展进程中的重要一步。展望未来，Operator 以及 CUA 技术将在多个方面持续演进：

智能体的扩展：CUA 的动作空间将被扩展到更多任务场景，OpenAI 计划提供开放 API，支持开发者构建自定义智能体，拓展其应用边界。
Operator全球开放：未来 Operator 有望向更多地区的 Plus 用户开放使用权限，惠及全球用户。
推动AGI发展：Operator 的出现预示着智能体时代的加速到来，预计未来几年将涌现更多类似智能体，AI 将在更广泛的领域取代人类完成数字交互任务， 2025年或将成为真正的“智能体之年”。