综合介绍
TankWork是一个开源的桌面代理框架,旨在通过计算机视觉和系统级交互,使AI能够感知和控制您的电脑。该框架允许代理通过语音和文本命令直接控制计算机,处理实时屏幕内容,并提供连续的音频视觉反馈和操作日志。TankWork特别适合开发人员和研究人员,帮助他们创建能够真正理解、分析和与计算机界面交互的自主桌面代理。
功能列表
- 直接电脑控制:通过语音和文本命令执行操作
- 计算机视觉分析:实时屏幕内容处理
- 语音交互:使用ElevenLabs进行自然语言处理
- 可定制代理:配置个性和技能
- 实时反馈:音频视觉更新和日志记录
使用帮助
安装流程
- 安装前提条件:
- 安装Anaconda(推荐用于依赖管理)
- 访问终端/命令提示符
- 克隆仓库:
git clone https://github.com/AgentTankOS/tankwork.git
cd tankwork
- 安装依赖:
pip install --upgrade pip setuptools wheel
pip install -r requirements.txt
- 配置环境:
- 在项目根目录创建
.env
文件:
cp .env.example .env
- 添加API密钥和设置到
.env
文件中:
GEMINI_API_KEY=your_api_key OPENAI_API_KEY=your_api_key ELEVENLABS_API_KEY=your_api_key ANTHROPIC_API_KEY=your_api_key ELEVENLABS_MODEL=eleven_flash_v2_5 COMPUTER_USE_IMPLEMENTATION=tank COMPUTER_USE_MODEL=claude-3-5-sonnet-20241022 COMPUTER_USE_MODEL_PROVIDER=anthropic NARRATIVE_LOGGER_NAME=ComputerUse.Tank NARRATIVE_MODEL=gpt-4o NARRATIVE_TEMPERATURE=0.6 NARRATIVE_MAX_TOKENS=250 LOG_LEVEL=INFO
- 在项目根目录创建
- 启动应用:
python main.py
使用流程
- 电脑控制模式:
- 通过文本输入或语音命令进行基于命令的电脑控制。
- 例如,您可以说“打开浏览器”或输入“open browser”来启动浏览器。
- 计算机视觉分析:
- 实时处理屏幕内容,识别并响应屏幕上的变化。
- 例如,当屏幕上出现特定图像时,代理可以自动执行预设操作。
- 语音交互:
- 使用ElevenLabs的自然语言处理功能,通过语音与代理进行互动。
- 例如,您可以询问代理当前的天气情况,代理会通过语音回复。
- 定制代理:
- 配置代理的个性和技能,以满足特定需求。
- 例如,您可以设置代理在特定时间执行特定任务,如每天早上8点打开邮件客户端。
- 实时反馈:
- 代理会通过音频和视觉方式提供实时更新和操作日志,帮助用户了解当前的操作状态。
- 例如,当代理执行某个命令时,会通过语音告知用户操作结果。
通过以上步骤,您可以轻松安装和使用TankWork,充分利用其强大的功能来控制和管理您的电脑。