我们为您准备了一个可交互的演示供您参考。您可以随意点击,使用箭头键进行切换,或者在演示底部悬停以查看跳过演示的导航选项。在演示的右上角,您可以启用/关闭音频和字幕,甚至可以选择全屏模式 🙂
您也可以按照下面的书面说明步步进行:
Browse AI的工作流特性是一个极其强大的工具,它能实现两个机器人的集成并依次执行。通过使用工作流,您可以设定机器人按顺序执行两个机器人的任务,进行大批量运行,甚至可以自动从详情页面抽取数据,完全无需人工干预。
工作流的设置就是为了提取详情页面的数据。以前,唯一的办法是下载结果,导入至第二个机器人,进行批量运行以从内页提取数据。但是有了工作流,您可以轻松地设置两个机器人并将它们链接起来。机器人A可以提取一系列的页面并将其传送给机器人B,然后机器人B可以遍历所有页面并按照机器人的训练流程抽取数据。
如何创建一个进行深度爬取的工作流程?
在本例中,我们将创建一个从YCombinator.com的公司简介页面抽取信息的工作流程,需要获取公司简介链接并从每个简介中提取数据。
1- 您需要创建一个机器人A,从YC公司列表中抽取公司简介链接,这个过程跟您平时创建机器人一样。请务必抽取公司简介链接。结果应该如下图所示。
2- 您需要训练另一个机器人,以便从YC的公司页面中抽取公司信息。结果会如下图所示。
3- 在开启创建工作流程之前,你需要把第二个机器人整合至某一数据收集接口以记录多次运行的数据。就本例来说,我们会选择[与Google 表格进行整合]。
4- 现在,在你的 Browse AI 控制面板里,找到工作流程一栏,并点击“添加新的工作流程”按钮。
5- 给你的工作流程取一个名字,然后选择第一个机器人,接着点击下一步。
6- 现在在B步骤里选择第二个机器人,同时你还需要选一个你希望从第一个机器人传送至第二个机器人的数据点。在此例中,我们从YC取得了个人资料页面的链接,所以我会选择这一点,然后继续下一步。
7- 接下来,你可以决定何时运行第二个机器人,有以下四个选项:
- 总是
- 当机器人A在监测过程中发现变动时
- 当机器人A在监测过程中发现新项目时
- 当机器人A在监测过程中发现新项目或出现变化时
我们会选择“总是”。
8- 完成最后一步后,你的工作流程就可以启动了。如果你已经开启Google表格同步,相应的提示信息就会显示在控制台上。如果你还没有启动任何整合,那么需要马上开启,因为你可能需要同时运行成百上千个任务,使用像Google表格或Webhooks这样的整合工具是管理大批数据的最有效途径。
9- 一旦你保存并启动了工作流程,你可以初始化它,方式为在机器人A上运行一个任务。透过这种方式,Browse AI 会使用机器人A从YC获取公司资料页的链接,然后传送至机器人B,随后开始一次批量运行。如此一来,机器人B就可以获取所有需求的数据了。
10- 在机器人B的页面上,你能看到一次批量运行在YC的公司资料页上取得的数据。
如果你现在查看你的Google表格文件,你能发现每一个公司的数据都已经逐行添加在你的文件中。
工作流程是一种高效且行之有效的自动化数据提取工具,无论是从详细页面获得数据,执行批量运行,还是从多个源头提取数据,都能让工作流程变得更为日常简洁。