Browse AI能让你在几分钟内无代码地从任何网页提取和监视数据。你训练的机器人就像人类操作网站一样,可以让你把最精准的数据用最少的努力提取出来。这个指南介绍了一些帮助你开始使用的关键概念。
1)机器人
你可以训练一个机器人来自动完成你在网站上一系列通常需要手动完成的步骤。
例如,一个机器人可以在执行任务的过程中完成以下所有行为:
- 打开网页
- 登陆
- 点击按钮
- 填写表格
- 从下拉菜单中选择
- 从网页中提取结构化数据到电子表格中
- 点击“下一页”或“加载更多”按钮获取更多数据
- 截屏
- 监控网页特定部分的视觉或内容变化
机器人有动态的[输入参数],允许你在每次运行时调整网页的URL也就是[来源URL]或者文本输入的内容。这让你可以使用同一个机器人去提取或监控一个布局相似的网站的无限多个网页上的数据。
大多数人创建的机器人仅仅是打开一个网页并从中提取数据。用户可以对网站上数万个相似的页面使用[批量运行],迅速提取全部数据集。
机器人在背景中还做了许多你可能不会察觉的事,比如解决验证码,使用地理定位的住宅IP地址,模仿人类行为以避免被检测,自动适应网站变动并基本上自我维护。
2)预制机器人 vs. 自定义机器人
机器人可以通过使用[预制机器人]来创建,或者通过Browse AI录制器和它的点击-提取界面来创建。每个机器人都有一些[输入参数](比如网页地址),你可以在每次运行时进行调整。
预制机器人适用于热门的用例,每周都会发布新的。例子有从Yelp、TripAdvisor或LinkedIn公司网站提取数据。
超过90%的Browse AI用户创建的机器人是为特定用例训练的自定义机器人。例如,一些房地产商监控[监视]他们所在县政府发放的建筑许可(在县官网上),并将其与销售CRM或电子表格连接起来,自动向获得建筑许可的每一位建筑商发送邮件。
3)来源URL
每个[自定义机器人]都有一个来源URL[输入参数], 这个参数默认指向它们训练时的链接。你可以通过调整来源URL,从那个网站上具有相似布局的任何其他页面提取或监控数据。
比如,如果你想[监控]沃尔玛的产品价格,你可以对一个沃尔玛产品页面训练一个自定义机器人,然后调整每个监控器的来源URL,配置这个机器人监控100个不同的产品页面。
4)任务
每个[机器人]都被训练来执行特定的任务。每次你运行那个机器人,它会执行那个任务,任务的详情(包括被提取的数据),会被存储在机器人的历史选项卡下的那个任务下。
如果你设定一个监控机器人每天[监控]网页变动,它可能需要每天运行一个任务,或者每月运行约30个任务。
新的任务可以通过几种不同的方式创建:
- 你可以在你的仪表板上打开一个机器人,进入其运行任务选项卡,然后运行一个任务。
- 在运行任务选项卡中,你还可以选择[批量运行],通过上传CSV文件一次运行最多50000个任务。
- 如果你配置了监控器,每次需要进行监控检查时,都会自动创建一个新的监控任务。
- 如果你将Browse AI与另一个软件集成或使用API,新的任务可以通过API创建。
- 系统有时会创建任务以确保机器人健康或优化机器人,使其更快或更可靠。任务将被标记为"由系统运行"。
5)监控器
Browse AI最有用的功能之一是内置的监控系统。
每个机器人可以配置无数个监控器,每个监控器对应网站上需要监视的一个页面或一个搜索条件。
例如,你可以用一个机器人监控电商网站上所有产品,并在价格变动或某个产品变得可用时接收通知。
监控器能检测到变动,并可配置为在检测到变动时发送电邮通知或自动将数据送达另一个软件。
6) 输入参数
每个机器人都配备了可以根据任务需求进行调整和监控的输入参数,这意味着你无需为网站上的每一个页面或搜索关键词重新创建机器人。
最常用的输入参数是[源URL],即机器人首次访问的页面。
当你定制机器人时,如果你输入了任何文本,你所输入的将会成为之后可以调节的输入参数。
7) 批量执行
在机器人控制面板的“执行任务”标签页中,可以使用批量执行功能。这个功能允许你上传包含多达50,000组不同[输入参数]的CSV文件,并立即为每组参数创建一个[任务]。任务将排队处理,完成后,你将获得提取的完整数据集。
例如,你可以上传一个包含LinkedIn上50,000个公司页面链接的CSV文件,然后得到这些页面提取的所有数据。
8) 深度抓取
深度抓取是一个常用术语,指的是从某一类别的页面抓取链接列表,然后进一步提取每个链接的详细内容。
这种方式能让你深入收集来自网站内部页面或板块的详细数据。
详细了解使用 Browse AI 进行深度抓取的[相关文章]。
9) 集成应用
通常情况下,你需要将网站上获取的数据传输至你使用的其他软件中,如谷歌表格或CRM。Browse AI 提供了超过5000种集成方式,方便你将任何网站的数据导入到你已经使用的工具中。
10) 谷歌表格与 Airtable 集成
已有[谷歌表格]和 Airtable 的直接集成。一旦在机器人上配置好,每次机器人执行任务时,所提取的数据都会直接插入到你的电子表格里。
Browse AI 的谷歌表格插件
此插件为谷歌表格提供了额外功能:
- 通过突出显示输入参数集并点击按钮,可直接在谷歌表格中运行机器人,
- 自动删除谷歌表格中的旧数据,
- 自动删除谷歌表格中的重复数据。
11) 连接器集成 (Zapier, Make, Pabbly)
通过第三方集成软件的几次点击,这些原生集成方式会使你能够将 Browse AI 与其他5000+应用程序连接起来:
- [Zapier] 操作简便,但在大量使用时成本较高。
- [Make] 成本更低,但使用起来较为复杂。
- [Pabbly Connect] 通常由那些购买过一次性付费终身协议以节省成本的用户所使用。
12) API & Webhooks
如果你的团队里有软件开发者,请确保利用 API 和 webhooks,这些工具可以让你几乎实现控制面板上的所有操作(创建新机器人除外),并通过公开的 API 和 webhooks 进行编程对接。
有些初创公司就是基于 Browse AI 的 API 构建了他们的软件,并将所有需要大量劳动的数据抓取工作外包处理。