智谱GLM-PC开放体验：自主操作电脑的多模态Agent再升级-首席AI分享圈

🚀邀请体验：中国首家 AI IDE 智能编程软件 Trae 中文版下载，不限量使用 DeepSeek-R1 和 Doubao-pro!

GLM-PC 是基于智谱多模态大模型 CogAgent，全球首个面向公众、回车即用的电脑智能体（agent）。它能像人类一样「观察」和「操作」计算机，协助用户高效完成各类电脑任务。

自 2024 年 11 月 29 日发布 GLM-PC v1.0 并开放内测以来，我们不断优化升级，最新推出了「深度思考」模式，并增加了专用来做逻辑推理和代码生成的功能。此外，我们也提供了对 Windows 系统的支持。

下载&体验：https://cogagent.aminer.cn

GLM-PC 架构

近年来，关于 Agent 在模型与架构层面的探讨日益深入。

大型语言模型（LLM）的工具调用能力首次展示了 LLM 如何作为 Agent 与人类生产有机结合，具备良好的泛化性与小样本学习能力，但其应用范围受限于能以文本形式交互的、可公开访问的工具类型。

以 CogAgent 为代表的一系列基于视觉语言模型（VLM）的图形界面智能体（GUI Agent）提出了新路径，通过多模态感知实现全 GUI 空间交互。这些 GUI Agent，类似人类，能以视觉形式感知界面元素与布局，模拟人类进行点击、键盘输入等元操作，极大拓展了 Agent 在虚拟交互空间的应用边界。

同时，多 Agent 系统如 SWE-agent 等，也展示了多 Agent 协作的潜力，其融合了各种模型的优势，从而来探索基于多模型的规划、反思与自我迭代。

我们认为，Agent 的发展可归结为模型能力提升与协作架构优化。

一个完备的 Agent 需满足以下条件：

在感知层面，能接收文字、图像、视频、音频等多元信号；
在思维层面，具备逻辑思维、任务规划能力（类似左脑）及高效感知、灵活操作能力（类似右脑）；
在执行层面，能完成全 GUI 空间操作，接收环境反馈并自我纠正。

基于此种思考，2023 年，我们推出 CogAgent 开源模型，填补了 GUI Agent 在多模态感知的空白；2024 年 11 月，GLM-PC v1.0 进一步强化了感知、规划、创造能力，并实现有限的自我纠正。

如今，新版 GLM-PC 借鉴人类「左脑」与「右脑」分工，通过代码生成与图形界面理解，实现逻辑推理与感知认知的深度结合，赋予其在逻辑性与创造性间平衡的能力，从而能够辅助人类完成复杂任务。

其背后是智谱自主研发的多模态模型 CogAgent 与代码模型 CodeGeex 的深度融合。新版 GLM-PC 以代码形式指挥工作流程和工具调用，并强化了深度思考模式下的规划、推理、反思能力，从而能够稳定高效地应对复杂场景与任务。实际执行时，GLM-PC 能感知多层环境反馈，协助反思，以有效自我纠正与优化。

值得一提的是，为促进预训练 GUI Agent 的研究，我们于 2024 年 12 月开源了全面提升后的模型 CogAgent-9B-20241220。

Agent 左脑：代码生成与逻辑执行

GLM-PC 的「左脑」负责严谨的逻辑推理与任务执行。其主要功能包括：

1、规划（Planning）

GLM-PC 能够根据用户的任务需求，迅速制定出详细的任务规划方案。它会综合分析目标以及可用资源，生成执行路线图，并将大型任务自动分解为可管理的子任务，以构建出清晰的执行路径。

2、循环执行（Looping Execution）

规划阶段结束后，GLM-PC 将启动代码生成模块，执行逻辑循环，逐步推进任务完成。该循环机制确保了任务的精确执行与高度自动化，从而实现从输入到输出的完整闭环，无需人工干预。

实例展示：一站式购物流程

以获取商品信息为例，GLM-PC 能够自动提取图片中的商品数据，存储至 Excel，并自动将商品加入淘宝购物车，从而实现一站式购物流程。

操作指令：获取图片中的商品信息，在桌面新建 Excel 存储信息，把商品信息加入淘宝购物车。

（文中视频做了一定加速处理）

3、长思考能力：动态反思、纠错与优化

GLM-PC 的「左脑」功能，不仅能够生成静态计划，还能在执行过程中根据新环境信息进行实时调整、反思修正和自我纠错，从而持续优化解决方案。具体表现如下：

灵活应对中断：当流程因外部因素中断时，GLM-PC 能迅速重构逻辑路径，确保任务顺利进行。
主动信息完善：遇到信息缺失时，GLM-PC 会主动与用户进行交互，通过提问来完善任务执行方案。

实例展示：高效信息处理与社交互动

例如，在帮助用户处理小红书上的「春节贺岁档电影」信息时，GLM-PC 能快速查找并提取相关数据，同时撰写代码将信息存储在电脑上。若生成的代码出现错误，它能够根据报错信息进行自我修正。

操作指令：在小红书搜索「春节贺岁档电影」，引用第一篇图文贴的贴子图片，把图片发送到微信上的{GGG}群聊，问他们想看哪一部电影。

Agent 右脑：图像与 GUI 认知

GLM-PC 的「右脑」专注于深度感知与交互体验。其核心功能涵盖：

GUI 图像理解：准确识别图形界面元素（如按钮、图标、布局等），并理解其功能与交互逻辑。
用户行为认知：结合对用户界面的学习及历史操作信息的理解，为用户提供当前界面的智能推荐操作。
图像语义解析：对复杂图像进行深入语义分析，提取关键信息如文字、标识符及数据可视化图表中的趋势和指标。
多模态信息融合：融合图像与文字信息，形成全面感知结果。例如，在用户界面中同时识别按钮位置与文字标签，助力「左脑」制定精准操作计划。

实例演示：高效数据整理与存档

例如，GLM-PC 能够在小红书中搜索并提取「AI 排行榜」相关图文内容。随后，通过自主编写的代码，将公司信息存储至桌面新建的 Excel 文件，同时将帖子文字内容保存至指定 Word 文档，确保用户数据的高效整理和存档，提升信息管理效率。

操作指令：在小红书上搜索“新能源汽车排行榜”的第一篇图文贴，引用第一篇贴子的图片内容和文本内容，获取图片中的信息列表并存储在桌面新建的 Excel，把帖子的文字内容放进一个叫 new-energy 的桌面新建 word 文档中。

Agent of Agents：左、右脑协作

这种借鉴左右脑协作的模式，使 GLM-PC 不仅能够处理复杂逻辑任务，还能在开放性问题上展现更高的适应能力、创造力和泛化能力。更能通过动态优化和情境感知，帮助用户探索更高效的解决方案，特别是在循环任务处理、多步推理执行以及长链条任务管理等方面。

实例展示：六级英语词汇学习辅助

GLM-PC 作为六级英语词汇学习助理，能够从指定网站自动提取六级词汇，根据这些词进行造句，并将词汇及其造句自动保存至新建 Word 文档，文档命名为「六级英语词汇学习」。

在这个「https://www.dxsbb.com/news/277.html」六级词汇里面找 3 个，然后把给每个词造句，把词汇和对应的造句粘贴到新建 Word 文档中，保存命名为「六级英语词汇学习」。

实例展示：个性化微信祝福语与新春祝贺图片群发

GLM-PC 能够自动为微信群好友定制个性化新春祝福语及祝贺图片/视频，并通过一键操作实现群发，高效完成节日问候。

操作指令：在微信上引用「GGG」群成员列表，给每个人发送 2025 新春祝福语和一张蛇年主题图片。

实例展示：智能航班查询与日程安排

GLM-PC 能为用户快速查询航班信息，筛选最经济机票，并同步设置飞书日历提醒，实现航班查询、购票筛选到日程安排的一站式服务。

操作指令：帮我在携程上找 1 月 21 日上海到北京最便宜的机票；帮我设置一个飞书日历，时间是飞机起飞前 6 小时，主题是出发去机场，持续时间半小时。

实例展示：PDF 数学题提取与整理流程

GLM-PC 可以自动打开 PDF 文件，提取指定内容，并将信息整理存储到 Word 文档中。

操作指令：帮我把桌面的排列组合与二项式定理练习.pdf文件打开，引用总结当前界面的前几条数学题，放到桌面新建 word 文档中。

合作

我们正与联想、华硕等知名 PC 厂商展开深度合作探讨，共同推动 AIPC（AI 个人电脑）的创新与发展。

逻辑驱动执行，感知赋能决策。AIPC 不仅是一台电脑，更是 AI Agent 在个人计算领域的全新应用，能够为用户提供更高效、更智能的工作与生活体验。

智谱GLM-PC开放体验：自主操作电脑的多模态Agent再升级

GLM-PC 架构

Agent 左脑：代码生成与逻辑执行

1、规划（Planning）

2、循环执行（Looping Execution）

3、长思考能力：动态反思、纠错与优化

Agent 右脑：图像与 GUI 认知

Agent of Agents：左、右脑协作

合作

相关文章

相关推荐

找不到AI工具？在这试试！

FLUX.1图像生成器（支持中文输入）

近期AI热点

AI工具推荐

AI工具分类