近日,全球首批通用智能体(Agent)之一的 Manus 发布了预览版,其官方展示的效果令人震撼。不同于许多仅停留在“建议”层面的 AI,Manus 不仅展现出强大的任务规划能力,更在任务执行方面实现了质的飞跃,真正做到了从规划到执行的闭环。那么,Manus 究竟是如何运作的?它又凭什么敢于宣称重新定义通用 Agent?本文将带您深入了解 Manus 的工作流程(Workflow)、记忆机制(Memory)以及前端交互(Frontend Interaction),并解析其如何将计算机操作、深度研究、编码代理等多种技术融为一体,实现“少即是多”的智能涌现。
一、告别纸上谈兵:Manus 的“规划-执行-更新-交付”工作流
许多 AI 助手擅长规划,却难以付诸实践。Manus 则另辟蹊径,以一种更贴近人类工作习惯的方式,实现了从规划到执行的无缝衔接。其核心在于创建一个 Markdown 格式的任务清单(todo.md),并通过这个清单来管理整个任务的生命周期。这种方式区别于许多通过规划代理的上下文来管理任务的系统,显得更加直观和高效。
如上图所示,这是一个规划“7 天日本行程与求婚计划”的 todo.md 文件示例。它不仅列出了需要完成的各项任务,还通过 "[ ]" 和 "[x]" 来标记任务的完成状态。这种方式不仅直观清晰,也更易于 Agent 进行管理和更新,使其成为 Manus 的“记忆”载体。
1. 规划:一切从 todo.md 开始
Manus 的工作流程始于一份详尽的待办事项清单。这份清单以 Markdown 文件的形式存在,不仅是任务的起点,也是 Agent 记忆的载体。用户需要尽可能详细地列出所有任务,为 Manus 提供清晰的行动指南。
2. 执行:计算机操作、深度研究、编码代理,三管齐下
有了明确的任务清单,Manus 便开始逐一攻克。在执行过程中,Manus 展现出强大的综合能力,将计算机操作、深度研究和编码代理等技术融会贯通。
- 深度研究:Manus 具备强大的信息检索和网页交互能力。它能一次性搜索大量网页(演示中为 23 个),并模拟用户在浏览器中的各种操作,如滚动、点击等。每一步操作都会被截图记录,方便用户回溯。
- 浏览:
- 向下滚动:
- 点击:
- 浏览:
- 计算机操作:Manus 能够与虚拟机的操作系统进行交互,执行终端命令、管理文件(创建、删除、修改)、操作浏览器,实现真正的“计算机使用”。
Manus 执行终端命令
Manus 管理项目文件
编码代理:对于代码编写任务,Manus 会将其交给专门的编码代理。据悉,其效果类似于使用了 Claude 模型,能够生成高质量的代码(如 HTML、Python 等)。
Manus 生成的 HTML 代码
3. 更新:实时追踪,进度一目了然
在执行任务的过程中,Manus 会实时更新 todo.md 文件,用 "[x]" 标记已完成的任务。这种方式清晰地记录了任务进度,让用户对 Manus 的工作状态了如指掌。
Manus 更新 todo.md 文件
4. 交付:成果触手可及
当 todo.md 文件中的所有任务都被标记为完成时,Manus 会生成最终的交付成果。为了增强用户体验,Manus 还提供了一个专门的会话文件管理界面,方便用户查看和管理生成的文件。
Manus 生成的交付文件
Manus 会话文件管理
二、不止于“记住”:Manus 的自学习记忆机制
Manus 不仅能记住用户的指令,还能从中学习。其独特的知识和记忆机制使其能够学习用户偏好和特定任务的最佳实践,并在遇到类似任务时自动应用这些经验。
这意味着,用户可以通过“教” Manus 如何处理特定任务,来不断提升其工作效率和准确性。例如,用户可以指示 Manus 在处理简历时将结果汇总到表格中,Manus 就会在下次遇到类似任务时自动执行此操作,而无需重复指令。这种“举一反三”的能力,正是 Manus 智能化的体现。
三、不止于“能用”:Manus 的极致交互体验
Manus 不仅功能强大,在用户体验方面也下足了功夫。会话回放的流畅输出效果和右侧的实时进度跟踪,让用户能够随时了解 Manus 的工作状态,仿佛拥有了一位“看得见”的 AI 助手。这种设计不仅提升了用户的使用体验,也增强了用户对 Manus 的信任感。
Manus 会话界面与实时进度跟踪
四、总结:少即是多,智能涌现
Manus 团队秉持“less structure more intelligence”的理念,即通过优质的数据、强大的模型、灵活的架构和扎实的工程,让计算机操作、深度研究、编码代理等能力自然涌现,而非简单堆砌功能。
Manus 将计算机操作、深度研究、编码代理等多种技术融合,通过简洁高效的 Markdown 任务管理方式,以及出色的前端交互设计,实现了从任务规划到执行的真正闭环。这种“少即是多”的设计哲学,以及在通用 Agent 领域的突破性进展,或许正是其敢于宣称“重新定义通用 Agent”的底气所在。
本文主要基于官方演示进行解析,可能存在理解偏差之处,欢迎读者交流指正,共同探讨通用 Agent 的未来发展。
关于 Manus 到底是什么,很多大佬昨夜也有过讨论,其实问题非常简单,Manus 发布第一实践就进行了原理说明:Manus 通用智能体到底是什么?和AIGCLINK的结论基本一致。
AIGCLINK 关于 Agent 的观点