GLM-PC 是基于智谱多模态大模型 CogAgent,全球首个面向公众、回车即用的电脑智能体(agent)。它能像人类一样「观察」和「操作」计算机,协助用户高效完成各类电脑任务。
自 2024 年 11 月 29 日发布 GLM-PC v1.0 并开放内测以来,我们不断优化升级,最新推出了「深度思考」模式,并增加了专用来做逻辑推理和代码生成的功能。此外,我们也提供了对 Windows 系统的支持。
下载&体验:https://cogagent.aminer.cn
GLM-PC 架构
近年来,关于 Agent 在模型与架构层面的探讨日益深入。
大型语言模型(LLM)的工具调用能力首次展示了 LLM 如何作为 Agent 与人类生产有机结合,具备良好的泛化性与小样本学习能力,但其应用范围受限于能以文本形式交互的、可公开访问的工具类型。
以 CogAgent 为代表的一系列基于视觉语言模型(VLM)的图形界面智能体(GUI Agent)提出了新路径,通过多模态感知实现全 GUI 空间交互。这些 GUI Agent,类似人类,能以视觉形式感知界面元素与布局,模拟人类进行点击、键盘输入等元操作,极大拓展了 Agent 在虚拟交互空间的应用边界。
同时,多 Agent 系统如 SWE-agent 等,也展示了多 Agent 协作的潜力,其融合了各种模型的优势,从而来探索基于多模型的规划、反思与自我迭代。
我们认为,Agent 的发展可归结为模型能力提升与协作架构优化。
一个完备的 Agent 需满足以下条件:
- 在感知层面,能接收文字、图像、视频、音频等多元信号;
- 在思维层面,具备逻辑思维、任务规划能力(类似左脑)及高效感知、灵活操作能力(类似右脑);
- 在执行层面,能完成全 GUI 空间操作,接收环境反馈并自我纠正。
基于此种思考,2023 年,我们推出 CogAgent 开源模型,填补了 GUI Agent 在多模态感知的空白;2024 年 11 月,GLM-PC v1.0 进一步强化了感知、规划、创造能力,并实现有限的自我纠正。
如今,新版 GLM-PC 借鉴人类「左脑」与「右脑」分工,通过代码生成与图形界面理解,实现逻辑推理与感知认知的深度结合,赋予其在逻辑性与创造性间平衡的能力,从而能够辅助人类完成复杂任务。
其背后是智谱自主研发的多模态模型 CogAgent 与代码模型 CodeGeex 的深度融合。新版 GLM-PC 以代码形式指挥工作流程和工具调用,并强化了深度思考模式下的规划、推理、反思能力,从而能够稳定高效地应对复杂场景与任务。实际执行时,GLM-PC 能感知多层环境反馈,协助反思,以有效自我纠正与优化。
值得一提的是,为促进预训练 GUI Agent 的研究,我们于 2024 年 12 月开源了全面提升后的模型 CogAgent-9B-20241220。
Agent 左脑:代码生成与逻辑执行
GLM-PC 的「左脑」负责严谨的逻辑推理与任务执行。其主要功能包括:
1、规划(Planning)
GLM-PC 能够根据用户的任务需求,迅速制定出详细的任务规划方案。它会综合分析目标以及可用资源,生成执行路线图,并将大型任务自动分解为可管理的子任务,以构建出清晰的执行路径。
2、循环执行(Looping Execution)
规划阶段结束后,GLM-PC 将启动代码生成模块,执行逻辑循环,逐步推进任务完成。该循环机制确保了任务的精确执行与高度自动化,从而实现从输入到输出的完整闭环,无需人工干预。
实例展示:一站式购物流程
以获取商品信息为例,GLM-PC 能够自动提取图片中的商品数据,存储至 Excel,并自动将商品加入淘宝购物车,从而实现一站式购物流程。
操作指令:获取图片中的商品信息,在桌面新建 Excel 存储信息,把商品信息加入淘宝购物车。
(文中视频做了一定加速处理)
3、长思考能力:动态反思、纠错与优化
GLM-PC 的「左脑」功能,不仅能够生成静态计划,还能在执行过程中根据新环境信息进行实时调整、反思修正和自我纠错,从而持续优化解决方案。具体表现如下:
- 灵活应对中断:当流程因外部因素中断时,GLM-PC 能迅速重构逻辑路径,确保任务顺利进行。
- 主动信息完善:遇到信息缺失时,GLM-PC 会主动与用户进行交互,通过提问来完善任务执行方案。
实例展示:高效信息处理与社交互动
例如,在帮助用户处理小红书上的「春节贺岁档电影」信息时,GLM-PC 能快速查找并提取相关数据,同时撰写代码将信息存储在电脑上。若生成的代码出现错误,它能够根据报错信息进行自我修正。
操作指令:在小红书搜索「春节贺岁档电影」,引用第一篇图文贴的贴子图片,把图片发送到微信上的{GGG}群聊,问他们想看哪一部电影。
Agent 右脑:图像与 GUI 认知
GLM-PC 的「右脑」专注于深度感知与交互体验。其核心功能涵盖:
- GUI 图像理解:准确识别图形界面元素(如按钮、图标、布局等),并理解其功能与交互逻辑。
- 用户行为认知:结合对用户界面的学习及历史操作信息的理解,为用户提供当前界面的智能推荐操作。
- 图像语义解析:对复杂图像进行深入语义分析,提取关键信息如文字、标识符及数据可视化图表中的趋势和指标。
- 多模态信息融合:融合图像与文字信息,形成全面感知结果。例如,在用户界面中同时识别按钮位置与文字标签,助力「左脑」制定精准操作计划。
实例演示:高效数据整理与存档
例如,GLM-PC 能够在小红书中搜索并提取「AI 排行榜」相关图文内容。随后,通过自主编写的代码,将公司信息存储至桌面新建的 Excel 文件,同时将帖子文字内容保存至指定 Word 文档,确保用户数据的高效整理和存档,提升信息管理效率。
操作指令:在小红书上搜索“新能源汽车排行榜”的第一篇图文贴,引用第一篇贴子的图片内容和文本内容,获取图片中的信息列表并存储在桌面新建的 Excel,把帖子的文字内容放进一个叫 new-energy 的桌面新建 word 文档中。
Agent of Agents:左、右脑协作
这种借鉴左右脑协作的模式,使 GLM-PC 不仅能够处理复杂逻辑任务,还能在开放性问题上展现更高的适应能力、创造力和泛化能力。更能通过动态优化和情境感知,帮助用户探索更高效的解决方案,特别是在循环任务处理、多步推理执行以及长链条任务管理等方面。
实例展示:六级英语词汇学习辅助
GLM-PC 作为六级英语词汇学习助理,能够从指定网站自动提取六级词汇,根据这些词进行造句,并将词汇及其造句自动保存至新建 Word 文档,文档命名为「六级英语词汇学习」。
在这个「https://www.dxsbb.com/news/277.html」六级词汇里面找 3 个,然后把给每个词造句,把词汇和对应的造句粘贴到新建 Word 文档中,保存命名为「六级英语词汇学习」。
实例展示:个性化微信祝福语与新春祝贺图片群发
GLM-PC 能够自动为微信群好友定制个性化新春祝福语及祝贺图片/视频,并通过一键操作实现群发,高效完成节日问候。
操作指令:在微信上引用「GGG」群成员列表,给每个人发送 2025 新春祝福语和一张蛇年主题图片。
实例展示:智能航班查询与日程安排
GLM-PC 能为用户快速查询航班信息,筛选最经济机票,并同步设置飞书日历提醒,实现航班查询、购票筛选到日程安排的一站式服务。
操作指令:帮我在携程上找 1 月 21 日上海到北京最便宜的机票;帮我设置一个飞书日历,时间是飞机起飞前 6 小时,主题是出发去机场,持续时间半小时。
实例展示:PDF 数学题提取与整理流程
GLM-PC 可以自动打开 PDF 文件,提取指定内容,并将信息整理存储到 Word 文档中。
操作指令:帮我把桌面的排列组合与二项式定理练习.pdf文件打开,引用总结当前界面的前几条数学题 ,放到桌面新建 word 文档中。
合作
我们正与联想、华硕等知名 PC 厂商展开深度合作探讨,共同推动 AIPC(AI 个人电脑)的创新与发展。
逻辑驱动执行,感知赋能决策。AIPC 不仅是一台电脑,更是 AI Agent 在个人计算领域的全新应用,能够为用户提供更高效、更智能的工作与生活体验。