[转]从零拆解一款火爆的浏览器自动化智能体，4步学会设计自主决策Agent

2.2K 00

以前我们开发的大多数智能体是固定的工作流模式，很少有按照下面的框架，开发具有自主决策和自主使用工具的智能体。

前两天，我分享了一款可以自动使用浏览器完成简单任务的开源Agent——browser-use。

上面演示的是它自动搜索 ‘渡码’，并打开了我的博客。browser-use 是一款开源 Agent，在 GitHub 上有 1.5w star，一条命令就可以在本地安装使用，门槛非常低。

自从上次分享完之后，我的职业病就犯了，总想拆解一下看看是怎么实现的，所以就有了今天这篇文章。browser-use 只用了一条提示词完成了上面第一张图中 Agent 的四个模块——Memory、Planning、Tools和Action。这条提示词在源文件 prompts.py 中，有130行

虽然提示词有点长，但不用担心，按照上面四个模块拆解完就会发现如此清晰、简单。

上面这段提示词是对四个模块的定义，下面我们一个一个来说。

Memory（记忆） - 记录已经完成的任务和接下来要进行的任务。

"memory": "Description of what has been done and what you need to remember until the end of the task",

我把上面‘打开博客’案例的执行过程记录了下来，可以看到 Memory 实际的栗子

'memory': "Baidu is open, ready to search for '渡码'."

Planning（规划）- 根据当前页面（网页）判断上一步执行是否成功，生成接下来应该执行的任务。

"evaluation_previous_goal": "Success|Failed|Unknown - Analyze the current elements and the image to check if the previous goals/actions are successful like intended by the task. Ignore the action result. The website is the ground truth. Also mention if something unexpected happened like new suggestions in an input field. Shortly state why/why not","next_goal": "What needs to be done with the next actions"

这里包含两部分，第一步是 evaluation_previous_goal 判断之前任务是否成功，之前的任务是什么，可以在记忆中获取，这就解释了为什么第一张图中 Memory 有一条虚线指向 Planning。

之前任务状态决定了下一个任务的规划，如果之前任务失败则重试，如果成功则规划新任务。
实际的栗子：

'evaluation_previous_goal': 'Success - Baidu was successfully opened in a new tab.',

'next_goal': "Input '渡码' into the search box and submit the search."

Tools（工具）- browser-use 定义了15个可以操作网页的工具。

工具的定义会放在提示词中，以便大模型选择。每一个工具都有对应的代码用于完成具体的任务。

Action（行动）- 根据 Planning 生成一系列具体的行动直接上栗子：

'action': [{'input_text': {'index': 12, 'text': '渡码'}}, {'click_element': {'index': 13}}]

这个例子中，有两个行动，第一步，在页面元素标号12的地方（搜索框）输入‘渡码’；第二步，在页面元素标号13的地方（搜索按钮）点击，完成搜索。

只不过巧合的是，在 browser-use 中所有 Action 都是用 Tools 完成。

有些朋友可能会有疑问，这些标号是怎么来的。

browser-use 是通过分析页面 HTML 代码，识别出页面中的组件（元素），并给每个组件设置一个标号。 [转]从零拆解一款火爆的浏览器自动化智能体，4步学会设计自主决策Agent