Manus 凭什么重新定义通用 Agent？深度解析其工作原理与交互设计

近日，全球首批通用智能体（Agent）之一的 Manus 发布了预览版，其官方展示的效果令人震撼。不同于许多仅停留在“建议”层面的 AI，Manus 不仅展现出强大的任务规划能力，更在任务执行方面实现了质的飞跃，真正做到了从规划到执行的闭环。那么，Manus 究竟是如何运作的？它又凭什么敢于宣称重新定义通用 Agent？本文将带您深入了解 Manus 的工作流程（Workflow）、记忆机制（Memory）以及前端交互（Frontend Interaction），并解析其如何将计算机操作、深度研究、编码代理等多种技术融为一体，实现“少即是多”的智能涌现。

一、告别纸上谈兵：Manus 的“规划-执行-更新-交付”工作流

许多 AI 助手擅长规划，却难以付诸实践。Manus 则另辟蹊径，以一种更贴近人类工作习惯的方式，实现了从规划到执行的无缝衔接。其核心在于创建一个 Markdown 格式的任务清单（todo.md），并通过这个清单来管理整个任务的生命周期。这种方式区别于许多通过规划代理的上下文来管理任务的系统，显得更加直观和高效。

如上图所示，这是一个规划“7 天日本行程与求婚计划”的 todo.md 文件示例。它不仅列出了需要完成的各项任务，还通过 "[ ]" 和 "[x]" 来标记任务的完成状态。这种方式不仅直观清晰，也更易于 Agent 进行管理和更新，使其成为 Manus 的“记忆”载体。

1. 规划：一切从 todo.md 开始

Manus 的工作流程始于一份详尽的待办事项清单。这份清单以 Markdown 文件的形式存在，不仅是任务的起点，也是 Agent 记忆的载体。用户需要尽可能详细地列出所有任务，为 Manus 提供清晰的行动指南。

2. 执行：计算机操作、深度研究、编码代理，三管齐下

有了明确的任务清单，Manus 便开始逐一攻克。在执行过程中，Manus 展现出强大的综合能力，将计算机操作、深度研究和编码代理等技术融会贯通。

深度研究：Manus 具备强大的信息检索和网页交互能力。它能一次性搜索大量网页（演示中为 23 个），并模拟用户在浏览器中的各种操作，如滚动、点击等。每一步操作都会被截图记录，方便用户回溯。
- 浏览：
- 向下滚动：
- 点击：
计算机操作：Manus 能够与虚拟机的操作系统进行交互，执行终端命令、管理文件（创建、删除、修改）、操作浏览器，实现真正的“计算机使用”。 Manus 执行终端命令
Manus 管理项目文件

编码代理：对于代码编写任务，Manus 会将其交给专门的编码代理。据悉，其效果类似于使用了 Claude 模型，能够生成高质量的代码（如 HTML、Python 等）。

Manus 生成的 HTML 代码

3. 更新：实时追踪，进度一目了然

在执行任务的过程中，Manus 会实时更新 todo.md 文件，用 "[x]" 标记已完成的任务。这种方式清晰地记录了任务进度，让用户对 Manus 的工作状态了如指掌。

Manus 更新 todo.md 文件

4. 交付：成果触手可及

当 todo.md 文件中的所有任务都被标记为完成时，Manus 会生成最终的交付成果。为了增强用户体验，Manus 还提供了一个专门的会话文件管理界面，方便用户查看和管理生成的文件。

Manus 生成的交付文件

Manus 会话文件管理

二、不止于“记住”：Manus 的自学习记忆机制

Manus 不仅能记住用户的指令，还能从中学习。其独特的知识和记忆机制使其能够学习用户偏好和特定任务的最佳实践，并在遇到类似任务时自动应用这些经验。

这意味着，用户可以通过“教” Manus 如何处理特定任务，来不断提升其工作效率和准确性。例如，用户可以指示 Manus 在处理简历时将结果汇总到表格中，Manus 就会在下次遇到类似任务时自动执行此操作，而无需重复指令。这种“举一反三”的能力，正是 Manus 智能化的体现。
Manus 凭什么重新定义通用 Agent？深度解析其工作原理与交互设计