Project Mariner:浏览器自动化,探索未来人机交互的研究原型(未发布)

General Introduction

Project Mariner 是 Google DeepMind 推出的一个研究原型,旨在探索未来的人机交互方式。该项目利用 Gemini 2.0 强大的多模态理解和推理能力,通过浏览器自动化来完成各种任务。Project Mariner 能够理解并实时导航复杂的网站,自动执行浏览器中的任务,同时保持用户的控制权。该项目目前仅对一小部分受信任的测试者开放,旨在测试和改进其功能。

Function List

  • multimodal understanding:能够理解浏览器屏幕上的所有内容,包括像素、文本、代码、图像和表单。
  • 浏览器交互:自动导航和操作网站,执行用户指令。
  • 推理能力:能够理解复杂指令并将其分解为可执行的步骤。
  • Real-time feedback:在执行任务时提供视觉反馈和更新。
  • 安全控制:在执行任务时保持用户的控制权,确保安全性。


Using Help

Installation process

  1. 下载扩展程序:访问 Project Mariner 的官方网站,下载并安装 Chrome 浏览器扩展程序。
  2. 设置账户:安装完成后,打开 Chrome 浏览器,点击扩展程序图标,按照提示设置账户并登录。
  3. 加入测试者队列:填写相关信息,申请加入受信任的测试者队列。

Usage Process

  1. 启动扩展程序:登录后,点击浏览器右上角的扩展程序图标,启动 Project Mariner。
  2. input:在弹出的聊天窗口中输入指令,例如“创建购物车”或“查找航班”。
  3. operate:Project Mariner 将自动导航到相关网站并执行任务。用户可以在浏览器中实时查看任务进度。
  4. 反馈与调整:如果 Project Mariner 需要更多信息或遇到问题,会在聊天窗口中请求用户反馈。用户可以根据需要提供更多指令或调整任务。

Main function operation flow

  • 创建购物车:输入购物清单,Project Mariner 将自动导航到购物网站,搜索并添加商品到购物车。
  • 查找航班和酒店:输入旅行日期和目的地,Project Mariner 将自动搜索并显示相关航班和酒店信息。
  • 查找食谱:输入食材或菜名,Project Mariner 将自动搜索并显示相关食谱。

Featured Functions

  • multimodal understanding:Project Mariner 能够理解和处理浏览器屏幕上的各种元素,包括文本、图像和表单。
  • Real-time feedback:在执行任务时,Project Mariner 会提供实时的视觉反馈,确保用户了解任务进度。
  • 安全控制:Project Mariner 在执行任务时保持用户的控制权,确保任务的安全性和准确性。
