AI个人学习
和实操指南
讯飞绘镜

Nanobrowser:浏览器中实现任务自动化的多智能插件

综合介绍

Nanobrowser 是一个开源的Chrome浏览器扩展,旨在通过AI驱动的多代理系统实现网页任务的自动化。它是一个免费替代OpenAI Operator的工具,用户只需提供自己的LLM(大型语言模型)API密钥即可使用,支持OpenAI和Anthropic模型,未来还将扩展更多选项。所有操作在本地浏览器中运行,不涉及云端数据共享,确保隐私安全。Nanobrowser通过Planner(规划者)、Navigator(导航者)和Validator(验证者)三个代理协作,处理从简单搜索到复杂流程的任务。项目代码托管于GitHub,社区活跃,用户可通过Discord或X参与讨论和贡献。

Nanobrowser:浏览器中实现网页任务自动化的多智能插件-1


 

功能列表

  • 多代理系统: Planner制定策略、Navigator执行操作、Validator验证结果,协作完成复杂任务。
  • 灵活的LLM支持: 支持OpenAI和Anthropic,用户可为不同代理选择不同模型。
  • 本地运行: 数据处理在本地完成,保护用户隐私。
  • 任务自动化: 执行网页搜索、表单填写、数据提取等操作。
  • 交互式侧边栏: 提供实时状态更新的聊天界面。
  • 对话历史: 保存任务记录,支持后续查看和管理。
  • 开源透明: 代码公开,欢迎审查和改进。
  • 后续提问: 支持基于任务结果的上下文提问。

 

使用帮助

安装流程

Nanobrowser作为一个Chrome扩展,提供两种安装方式:直接下载预构建版本或从源码构建。

方法1:直接安装预构建版本

  1. 下载扩展文件
    • 访问 https://github.com/nanobrowser/nanobrowser/releases
    • 在“Releases”页面找到最新版本(如v1.0.0)。
    • 下载名为“nanobrowser.zip”的文件。
  2. 解压文件
    • 将“nanobrowser.zip”解压到本地文件夹(如“nanobrowser”文件夹)。
  3. 加载到Chrome
    • 打开Chrome浏览器,输入chrome://extensions/
    • 在右上角启用“开发者模式”(Developer Mode)。
    • 点击左上角“加载已解压的扩展”(Load unpacked)。
    • 选择解压后的“nanobrowser”文件夹,点击“选择文件夹”。
    • 安装成功后,Nanobrowser图标出现在Chrome工具栏。
  4. 配置API密钥
    • 点击工具栏中的Nanobrowser图标,打开侧边栏。
    • 点击右上角“设置”(Settings)图标。
    • 输入你的LLM API密钥(可在OpenAI或Anthropic官网获取)。
    • 为Planner、Navigator、Validator选择模型(如OpenAI的GPT-4o或Anthropic的Claude)。
    • 保存设置,完成配置。

方法2:从源码构建

  1. 准备环境
    • 安装 Node.js(v22.12.0或更高版本)。
    • 安装 pnpm(v9.15.1或更高版本)。
  2. 克隆仓库
    • 打开终端,输入以下命令:
      git clone https://github.com/nanobrowser/nanobrowser.git
      cd nanobrowser
      
  3. 安装依赖
    • 输入:
      pnpm install
      
  4. 构建扩展
    • 输入:
      pnpm build
      
    • 构建完成后,“dist”文件夹将包含扩展文件。
  5. 加载到Chrome
    • 按照“方法1”中的步骤3加载“dist”文件夹。
  6. 开发模式(可选)
    • 若需实时调试,运行:
      pnpm dev
      

如何使用主要功能

1. 任务自动化

  • 操作流程:
    • 点击工具栏Nanobrowser图标,打开侧边栏。
    • 在输入框输入任务指令,例如“去TechCrunch提取过去24小时的前10条头条”。
    • 点击“执行”,多代理系统启动:
      • Planner: 制定任务计划,如打开TechCrunch并定位头条区域。
      • Navigator: 执行网页导航和数据提取。
      • Validator: 检查结果是否符合要求。
    • 结果显示在侧边栏,支持复制或后续提问。
  • 使用场景:
    • 新闻汇总: 提取特定网站的最新资讯。
    • 购物研究: 在亚马逊搜索“防水蓝牙音箱,低于50美元,电池续航超10小时”。
    • 代码研究: 查找GitHub上最受欢迎的Python仓库。

2. 配置代理模型

  • 操作流程:
    • 打开侧边栏,点击“设置”。
    • 输入API密钥并选择模型,例如:
      • Planner: OpenAI GPT-4o
      • Navigator: Anthropic Claude 3.5 Sonnet
      • Validator: OpenAI GPT-3.5
    • 点击“保存”,测试连接是否成功。
  • 提示:
    • 不同模型适合不同任务,建议尝试组合以提升效率。
    • 确保API密钥有效,避免任务中断。

3. 查看和管理对话历史

  • 操作流程:
    • 在侧边栏选择“历史记录”(Conversation History)。
    • 显示任务列表,包含时间、指令和结果。
    • 点击某条记录可查看详情,或选择“重试”重新运行。
  • 实用技巧:
    • 导出历史记录为JSON文件,便于备份。
    • 检查失败任务的日志,优化指令或模型。

4. 后续提问

  • 操作流程:
    • 任务完成后,在侧边栏输入后续问题,如“这些头条中哪些与AI相关?”。
    • 系统基于先前结果回答,无需重新执行完整任务。
  • 优势:
    • 提高交互效率,适合深入分析。

特色功能操作

多代理系统

  • 如何体验:
    • 输入复杂指令,如“查找HuggingFace上最受欢迎的5个AI模型并整理成列表”。
    • Planner分解任务,Navigator提取数据,Validator验证准确性。
    • 结果以结构化形式返回。
  • 优势:
    • 动态纠错:Planner会在遇到障碍时调整策略。
    • 高效协作:三个代理并行处理,节省时间。

本地运行与隐私保护

  • 如何验证:
    • 打开Chrome开发者工具(F12),切换到“网络”标签。
    • 执行任务时,仅看到LLM API调用,无其他外部请求。
  • 好处:
    • 用户凭据和敏感数据不上传云端,安全可靠。

交互式侧边栏

  • 如何使用:
    • 打开侧边栏后,实时显示任务进度(如“正在导航”、“验证中”)。
    • 支持中途调整指令或停止任务。
  • 特点:
    • 界面直观,适合新手和专业用户。

注意事项

  • 网络要求: 需稳定网络以调用LLM API。
  • 硬件建议: 在高性能设备上运行效果更佳。
  • 社区支持: 遇到问题可加入 Discord 或关注 X 获取帮助。
CDN1
未经允许不得转载:首席AI分享圈 » Nanobrowser:浏览器中实现任务自动化的多智能插件

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文