Computer Use Preview - Google开源的AI浏览器自动化工具

最新AI资源3个月前发布 AI分享圈

24.3K 00

Computer Use Preview是什么

Computer Use Preview是Google开源的基于Gemini模型的AI浏览器自动化工具，通过自然语言指令实现网页交互操作。采用"截图→分析→执行"的视觉识别流程，支持Playwright本地和BrowserBase云端两种运行模式，能自动完成搜索、填表单等任务。相比传统Selenium工具，无需手动定位元素，但存在单次操作耗时3-6秒、API调用成本较高的局限。

Computer Use Preview - Google开源的AI浏览器自动化工具

Computer Use Preview的功能特色

自然语言理解：通过Google Gemini模型或Vertex AI理解自然语言指令。
浏览器自动化：使用Playwright控制浏览器，支持初始URL注入、操作回放与脚本化的交互管理，还支持截图与可视化调试。
多环境支持：支持本地Playwright和云端Browserbase两种浏览器环境。
模块化结构：便于替换后端模型、扩展工具或集成更多浏览器后端。

Computer Use Preview的核心优势

复杂任务处理：支持多步操作串联和状态回环感知，可在页面跳转、加载延迟、错误弹窗等复杂场景下，识别当前状态与预期状态的差异并修正操作路径。
灵活配置：支持Gemini Developer API和Vertex AI两种后端服务，用户可根据需求切换。
开箱即用：提供完整的安装脚本和配置指南，用户可快速搭建AI浏览器自动化环境。
高性能表现：在WebVoyager基准测试中，任务完成率高达69%，领先于同类产品，响应延迟降低约50%，提供接近实时的交互体验。
稳定性强：在复杂多步任务中保持高一致性，能有效降低任务“翻车”风险。

Computer Use Preview官网是什么

GitHub仓库：https://github.com/google-gemini/computer-use-preview
在线体验地址：https://gemini.browserbase.com/

Computer Use Preview的适用人群

个人用户：可以用Computer Use Preview自动化处理一些重复性的日常任务，如自动查询天气、自动比价购物、自动整理浏览器收藏夹等，节省时间和精力。
企业团队：可以用工具自动化处理一些业务流程，如批量处理表单、监控竞争对手动态、自动生成工作报告等，提高工作效率和准确性。
开发者：可以用Computer Use Preview快速构建和验证自动化网页任务的原型，加速开发流程。
研究人员：可以用工具进行相关领域的研究，如AI驱动的自动化、人机交互等。也可以作为教学工具，帮助学生理解AI在自动化任务中的应用。

© 版权声明

文章版权归 AI分享圈所有，未经允许请勿转载。

相关文章

Awen：使用语音操控图像创作与修改

Awen：使用语音操控图像创作与修改

最新AI资源 # AI图像编辑 # AI在线生成图像

1年前

064.4K

arXiv Paper Visualizer：arXiv论文推荐与可视化解读

arXiv Paper Visualizer：arXiv论文推荐与可视化解读

最新AI资源 # AI教育工具 # 论文

1年前

063.9K

FireRedChat - 小红书开源的全双工语音交互系统

FireRedChat - 小红书开源的全双工语音交互系统

6个月前

040.5K

gpt-realtime - OpenAI最新推出的AI语音模型

gpt-realtime - OpenAI最新推出的AI语音模型

7个月前

041.6K

暂无评论

您必须登录才能参与评论！

none

暂无评论...