General Introduction
Clevrr Computer 是一个开源项目,旨在通过使用 PyAutoGUI 库来实现系统操作的自动化。该项目受到 Anthropic 的启发,设计了一个自动化代理,可以精确高效地执行用户的系统操作任务。Clevrr Computer 能够自动化键盘、鼠标和屏幕交互,同时确保每个任务的安全性和准确性。该项目目前处于测试阶段,用户在使用时需注意相关风险。
推荐智谱推出的自动化桌面操作智能体:GLM-PC (Smart Spectrum Bull) officially released for internal download, the real AI that can control the computer
Function List
- 自动化鼠标移动、点击和键盘输入
- 截屏和管理窗口
- 优雅处理错误并提供反馈
- 以最大精度执行任务,避免无意操作
Using Help
Installation process
- Cloning Warehouse:
git clone https://github.com/Clevrr-AI/Clevrr-Computer.git cd Clevrr-Computer
- Install the dependencies:
pip install -r requirements.txt
- Setting environment variables:
commander-in-chief (military).env_dev
Rename the file to.env
,并添加您的 API 密钥和其他配置:AZURE_OPENAI_API_KEY=<YOUR_AZURE_API_KEY> AZURE_OPENAI_ENDPOINT=<YOUR_AZURE_ENDPOINT_URL> AZURE_OPENAI_API_VERSION=<YOUR_AZURE_API_VERSION> AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=<YOUR_AZURE_DEPLOYMENT_NAME> GOOGLE_API_KEY=<YOUR_GEMINI_API_KEY>
Usage
- Run the application:
python main.py
默认情况下,这将使用 gemini 模型并启用浮动 UI。
- 可选参数:
- 选择模型:您可以通过传递
---model
参数来指定使用的模型。可接受的参数为gemini
maybeopenai
Thepython main.py --model openai
- 浮动 UI:默认情况下,TKinter UI 将浮动并保持在屏幕顶部。您可以通过传递
--float-ui
标志为0
来禁用此行为。python main.py --float-ui 0
- 选择模型:您可以通过传递
Functional operation flow
Clevrr Computer 通过后台运行的多模态 AI 代理来工作,该代理具有持续截屏机制,以了解屏幕上的内容,并使用 PyAutoGUI 库执行相应操作。代理会根据任务创建思维链,并使用 get_screen_info
工具获取屏幕信息。该工具会截取当前屏幕的截图,并使用网格标记屏幕的真实坐标。然后,代理使用多模态 LLM 来理解屏幕内容,并根据代理的问题给出答案。思维链支持 get_screen_info
工具和 PythonREPLAst 工具,后者设计用于使用 PyAutoGUI 库执行操作。
caveat
- 使用专用虚拟机或容器,以最小权限运行,防止直接系统攻击或意外。
- 避免向模型提供敏感数据,如账户登录信息,以防信息泄露。
- 限制互联网访问,仅允许访问白名单中的域名,以减少恶意内容的暴露。
- 对可能产生实际影响的决策和需要确认的任务(如接受 cookies、执行金融交易或同意服务条款)请人工确认。