AI个人学习
和实操指南

TankWork:通过语音和文字操作电脑,并提供实时语音反馈的智能体

综合介绍

TankWork是一个开源的桌面代理框架,旨在通过计算机视觉和系统级交互,使AI能够感知和控制您的电脑。该框架允许代理通过语音和文本命令直接控制计算机,处理实时屏幕内容,并提供连续的音频视觉反馈和操作日志。TankWork特别适合开发人员和研究人员,帮助他们创建能够真正理解、分析和与计算机界面交互的自主桌面代理。

TankWork:通过语音和文本操作电脑,并提供实时语音反馈的智能体-1


 

功能列表

  • 直接电脑控制:通过语音和文本命令执行操作
  • 计算机视觉分析:实时屏幕内容处理
  • 语音交互:使用ElevenLabs进行自然语言处理
  • 可定制代理:配置个性和技能
  • 实时反馈:音频视觉更新和日志记录

 

使用帮助

安装流程

  1. 安装前提条件
    • 安装Anaconda(推荐用于依赖管理)
    • 访问终端/命令提示符
  2. 克隆仓库
   git clone https://github.com/AgentTankOS/tankwork.git
cd tankwork
  1. 安装依赖
   pip install --upgrade pip setuptools wheel
pip install -r requirements.txt
  1. 配置环境
    • 在项目根目录创建.env文件:
     cp .env.example .env
    
    • 添加API密钥和设置到.env文件中:
     GEMINI_API_KEY=your_api_key
    OPENAI_API_KEY=your_api_key
    ELEVENLABS_API_KEY=your_api_key
    ANTHROPIC_API_KEY=your_api_key
    ELEVENLABS_MODEL=eleven_flash_v2_5
    COMPUTER_USE_IMPLEMENTATION=tank
    COMPUTER_USE_MODEL=claude-3-5-sonnet-20241022
    COMPUTER_USE_MODEL_PROVIDER=anthropic
    NARRATIVE_LOGGER_NAME=ComputerUse.Tank
    NARRATIVE_MODEL=gpt-4o
    NARRATIVE_TEMPERATURE=0.6
    NARRATIVE_MAX_TOKENS=250
    LOG_LEVEL=INFO
    
  2. 启动应用
   python main.py

使用流程

  1. 电脑控制模式
    • 通过文本输入或语音命令进行基于命令的电脑控制。
    • 例如,您可以说“打开浏览器”或输入“open browser”来启动浏览器。
  2. 计算机视觉分析
    • 实时处理屏幕内容,识别并响应屏幕上的变化。
    • 例如,当屏幕上出现特定图像时,代理可以自动执行预设操作。
  3. 语音交互
    • 使用ElevenLabs的自然语言处理功能,通过语音与代理进行互动。
    • 例如,您可以询问代理当前的天气情况,代理会通过语音回复。
  4. 定制代理
    • 配置代理的个性和技能,以满足特定需求。
    • 例如,您可以设置代理在特定时间执行特定任务,如每天早上8点打开邮件客户端。
  5. 实时反馈
    • 代理会通过音频和视觉方式提供实时更新和操作日志,帮助用户了解当前的操作状态。
    • 例如,当代理执行某个命令时,会通过语音告知用户操作结果。

通过以上步骤,您可以轻松安装和使用TankWork,充分利用其强大的功能来控制和管理您的电脑。

未经允许不得转载:首席AI分享圈 » TankWork:通过语音和文字操作电脑,并提供实时语音反馈的智能体

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文