综合介绍
Nanobrowser 是一个开源的Chrome浏览器扩展,旨在通过AI驱动的多代理系统实现网页任务的自动化。它是一个免费替代OpenAI Operator的工具,用户只需提供自己的LLM(大型语言模型)API密钥即可使用,支持OpenAI和Anthropic模型,未来还将扩展更多选项。所有操作在本地浏览器中运行,不涉及云端数据共享,确保隐私安全。Nanobrowser通过Planner(规划者)、Navigator(导航者)和Validator(验证者)三个代理协作,处理从简单搜索到复杂流程的任务。项目代码托管于GitHub,社区活跃,用户可通过Discord或X参与讨论和贡献。
功能列表
- 多代理系统: Planner制定策略、Navigator执行操作、Validator验证结果,协作完成复杂任务。
- 灵活的LLM支持: 支持OpenAI和Anthropic,用户可为不同代理选择不同模型。
- 本地运行: 数据处理在本地完成,保护用户隐私。
- 任务自动化: 执行网页搜索、表单填写、数据提取等操作。
- 交互式侧边栏: 提供实时状态更新的聊天界面。
- 对话历史: 保存任务记录,支持后续查看和管理。
- 开源透明: 代码公开,欢迎审查和改进。
- 后续提问: 支持基于任务结果的上下文提问。
使用帮助
安装流程
Nanobrowser作为一个Chrome扩展,提供两种安装方式:直接下载预构建版本或从源码构建。
方法1:直接安装预构建版本
- 下载扩展文件
- 访问
https://github.com/nanobrowser/nanobrowser/releases
。 - 在“Releases”页面找到最新版本(如v1.0.0)。
- 下载名为“nanobrowser.zip”的文件。
- 访问
- 解压文件
- 将“nanobrowser.zip”解压到本地文件夹(如“nanobrowser”文件夹)。
- 加载到Chrome
- 打开Chrome浏览器,输入
chrome://extensions/
。 - 在右上角启用“开发者模式”(Developer Mode)。
- 点击左上角“加载已解压的扩展”(Load unpacked)。
- 选择解压后的“nanobrowser”文件夹,点击“选择文件夹”。
- 安装成功后,Nanobrowser图标出现在Chrome工具栏。
- 打开Chrome浏览器,输入
- 配置API密钥
- 点击工具栏中的Nanobrowser图标,打开侧边栏。
- 点击右上角“设置”(Settings)图标。
- 输入你的LLM API密钥(可在OpenAI或Anthropic官网获取)。
- 为Planner、Navigator、Validator选择模型(如OpenAI的GPT-4o或Anthropic的Claude)。
- 保存设置,完成配置。
方法2:从源码构建
- 准备环境
- 克隆仓库
- 打开终端,输入以下命令:
git clone https://github.com/nanobrowser/nanobrowser.git cd nanobrowser
- 打开终端,输入以下命令:
- 安装依赖
- 输入:
pnpm install
- 输入:
- 构建扩展
- 输入:
pnpm build
- 构建完成后,“dist”文件夹将包含扩展文件。
- 输入:
- 加载到Chrome
- 按照“方法1”中的步骤3加载“dist”文件夹。
- 开发模式(可选)
- 若需实时调试,运行:
pnpm dev
- 若需实时调试,运行:
如何使用主要功能
1. 任务自动化
- 操作流程:
- 点击工具栏Nanobrowser图标,打开侧边栏。
- 在输入框输入任务指令,例如“去TechCrunch提取过去24小时的前10条头条”。
- 点击“执行”,多代理系统启动:
- Planner: 制定任务计划,如打开TechCrunch并定位头条区域。
- Navigator: 执行网页导航和数据提取。
- Validator: 检查结果是否符合要求。
- 结果显示在侧边栏,支持复制或后续提问。
- 使用场景:
- 新闻汇总: 提取特定网站的最新资讯。
- 购物研究: 在亚马逊搜索“防水蓝牙音箱,低于50美元,电池续航超10小时”。
- 代码研究: 查找GitHub上最受欢迎的Python仓库。
2. 配置代理模型
- 操作流程:
- 提示:
- 不同模型适合不同任务,建议尝试组合以提升效率。
- 确保API密钥有效,避免任务中断。
3. 查看和管理对话历史
- 操作流程:
- 在侧边栏选择“历史记录”(Conversation History)。
- 显示任务列表,包含时间、指令和结果。
- 点击某条记录可查看详情,或选择“重试”重新运行。
- 实用技巧:
- 导出历史记录为JSON文件,便于备份。
- 检查失败任务的日志,优化指令或模型。
4. 后续提问
- 操作流程:
- 任务完成后,在侧边栏输入后续问题,如“这些头条中哪些与AI相关?”。
- 系统基于先前结果回答,无需重新执行完整任务。
- 优势:
- 提高交互效率,适合深入分析。
特色功能操作
多代理系统
- 如何体验:
- 输入复杂指令,如“查找HuggingFace上最受欢迎的5个AI模型并整理成列表”。
- Planner分解任务,Navigator提取数据,Validator验证准确性。
- 结果以结构化形式返回。
- 优势:
- 动态纠错:Planner会在遇到障碍时调整策略。
- 高效协作:三个代理并行处理,节省时间。
本地运行与隐私保护
- 如何验证:
- 打开Chrome开发者工具(F12),切换到“网络”标签。
- 执行任务时,仅看到LLM API调用,无其他外部请求。
- 好处:
- 用户凭据和敏感数据不上传云端,安全可靠。
交互式侧边栏
- 如何使用:
- 打开侧边栏后,实时显示任务进度(如“正在导航”、“验证中”)。
- 支持中途调整指令或停止任务。
- 特点:
- 界面直观,适合新手和专业用户。