AI个人学习
和实操指南
豆包Marscode1

Agent TARS:使用视觉和命令操作电脑的开源智能体

综合介绍

Agent TARS 是一个由字节跳动开源的多模态 AI 智能体,核心特点是通过视觉理解网页内容,并结合命令行和文件系统操作,帮助用户完成复杂的电脑任务。它不像传统工具需要手动操作,而是能自动执行浏览器任务、编辑文件或运行命令。网站提供了桌面应用下载和技术文档,适合开发者或需要自动化工作流的用户。目前它处于技术预览阶段,主要支持 macOS 系统。Agent TARS 的目标是让电脑操作更智能、更高效。该项目基于 UI-TARS Desktop 进行浏览器封装,对标 Manus 。

Agent TARS:使用视觉和命令操作电脑的开源智能体-1


 

功能列表

  • 浏览器自动化:通过视觉识别网页元素,自动完成搜索、点击、填写表单等操作。
  • 命令行集成:支持直接运行系统命令,执行脚本或管理后台任务。
  • 文件系统操作:能读取、编辑或生成文件,处理数据或保存结果。
  • 任务规划与执行:分解复杂任务,自动按步骤完成,支持深度研究或重复性工作。
  • 多模态交互:结合图像、文字和代码输入,适应不同类型任务。
  • 工具扩展:集成搜索、文件编辑和模型上下文协议(MCP),提升功能灵活性。
  • 桌面应用支持:提供界面展示操作过程,方便用户实时查看和调整。

 

使用帮助

Agent TARS 的使用分为安装和操作两部分。以下是详细步骤,让你快速上手。

安装流程

  1. 下载桌面应用
    打开官网 https://agent-tars.com/,点击“Download”按钮,跳转到 GitHub 发布页面(https://github.com/bytedance/UI-TARS-desktop/releases)。选择最新版本(如 AgentTARS-macOS-latest.dmg)下载。文件大小约几十 MB,视网络速度需 1-5 分钟。
  2. 安装到 macOS
    下载完成后,双击 .dmg 文件,弹出安装窗口。将 Agent TARS 图标拖到“应用程序”文件夹。安装过程只需几秒。完成后,在“应用程序”中找到 Agent TARS,点击打开。
  3. 设置权限
    首次启动时,macOS 会提示授予“辅助功能”权限。点击“系统设置 > 隐私与安全性 > 辅助功能”,找到 Agent TARS,开启开关。这是为了让它能控制屏幕和键盘。
  4. 配置模型和 API
    打开应用后,点击左下角设置按钮,进入配置页面。需要设置模型提供商(如 Azure OpenAI)和 API 密钥。具体步骤:

    • 在“Model Config”中选择提供商。
    • 输入你的 API 密钥(需自行从提供商获取)。
    • 如果用 Azure,还需填入 apiVersiondeploymentName 和 endpoint
      保存后,应用会自动连接模型。
  5. 可选搜索配置
    如果需要网页搜索功能,进入“Search Config”,选择搜索提供商并输入 API 密钥。完成后保存。

操作流程

安装好后,Agent TARS 的主界面很简单,有输入框和操作显示区。以下是主要功能的用法。

浏览器自动化

  • 步骤:在输入框输入任务,如“搜索最新 AI 新闻并保存标题”。按回车键,Agent TARS 会打开内置浏览器,自动搜索并提取标题。
  • 显示:右侧窗口会实时展示浏览器操作,比如打开网页、滚动页面。
  • 结果:完成后,它会将标题保存为文本文件,路径显示在界面底部。

命令行集成

  • 步骤:输入命令,如“列出当前文件夹文件”(macOS 下是 ls -l 的等效命令 dir)。按回车键,Agent TARS 调用终端执行。
  • 显示:命令输出会出现在界面下方,方便查看。
  • 高级用法:可输入复杂脚本,如“检查系统内存并记录”,它会运行对应命令并保存结果。

文件系统操作

  • 步骤:输入“新建文件 test.txt 并写入‘hello’”。按回车键,Agent TARS 创建文件并写入内容。
  • 显示:操作过程会显示在界面,完成后可点击路径查看文件。
  • 编辑文件:输入“打开 test.txt 并添加‘world’”,它会自动修改文件。

任务规划与执行

  • 步骤:输入复杂任务,如“研究 Python 最新版本特性并整理文档”。Agent TARS 会分解任务:搜索资料、提取信息、生成文件。
  • 显示:右侧窗口展示每步操作,如打开网页、复制文字。
  • 结果:最终生成整理好的文档,保存到指定路径。

人机协作

  • 实时调整:任务执行中,可在输入框追加指令,如“再加一段例子”。Agent TARS 会根据新输入调整操作。
  • 分享结果:点击“Share”按钮,选择“Local HTML”生成操作记录文件,或配置远程服务器 URL 上传分享。

注意事项

  • 环境要求:目前仅支持 macOS,Windows 和 Linux 版本尚未发布。
  • 网络连接:需要稳定网络以连接模型和搜索服务。
  • 调试:若功能失效(如搜索失败),检查 API 密钥是否正确,或加入 Discord 社区求助(链接在官网)。

通过这些步骤,你可以轻松使用 Agent TARS 完成从简单文件操作到复杂研究任务的各种工作。

 

应用场景

  1. 网页自动化
    用 Agent TARS 自动浏览网页,提取新闻或产品信息。比如,输入“收集最近科技新闻标题”,它会搜索并保存结果,适合市场研究或资讯整理。
  2. 任务管理
    规划复杂项目,如“制定旅行计划”,它会搜索航班、酒店信息并整理成文档。适合个人助理或项目管理。
  3. 代码辅助
    输入“生成 Python 脚本检查文件大小”,Agent TARS 会写好代码并保存,方便开发者快速生成工具。
  4. 数据分析
    处理实时数据,如“分析网页上的股票数据并保存表格”。它会提取数据并生成文件,适合金融或市场分析。

 

QA

  1. Agent TARS 是免费的吗?
    是的,它是开源项目,遵循 Apache 2.0 许可证。代码和应用可免费从 GitHub 下载使用。
  2. 支持 Windows 系统吗?
    目前仅支持 macOS,Windows 和 Linux 版本还在开发中,具体进度可关注 GitHub 更新。
  3. 需要编程知识吗?
    不需要。它用自然语言操作,普通用户也能上手。但懂编程可以更好地利用命令行功能。
  4. 如何解决搜索功能失效?
    检查“Search Config”中的 API 密钥是否正确,或者网络是否连接正常。还可加入 Discord 社区反馈问题。
未经允许不得转载:首席AI分享圈 » Agent TARS:使用视觉和命令操作电脑的开源智能体
zh_CN简体中文