Clevrr Computer:使用 PyAutoGUI 库实现自动化桌面操作智能体

General Introduction

Clevrr Computer 是一个开源项目,旨在通过使用 PyAutoGUI 库来实现系统操作的自动化。该项目受到 Anthropic 的启发,设计了一个自动化代理,可以精确高效地执行用户的系统操作任务。Clevrr Computer 能够自动化键盘、鼠标和屏幕交互,同时确保每个任务的安全性和准确性。该项目目前处于测试阶段,用户在使用时需注意相关风险。

推荐智谱推出的自动化桌面操作智能体:GLM-PC

Function List

  • 自动化鼠标移动、点击和键盘输入
  • 截屏和管理窗口
  • 优雅处理错误并提供反馈
  • 以最大精度执行任务,避免无意操作


Using Help

Installation process

  1. Cloning Warehouse:
    git clone
    cd Clevrr-Computer
  1. Install the dependencies:
    pip install -r requirements.txt
  2. Setting environment variables:
    commander-in-chief (military) .env_dev Rename the file to .env,并添加您的 API 密钥和其他配置:



  1. Run the application:

    默认情况下,这将使用 gemini 模型并启用浮动 UI。

  2. 可选参数:
    • 选择模型:您可以通过传递 ---model 参数来指定使用的模型。可接受的参数为 gemini maybe openaiThe
      python --model openai
    • 浮动 UI:默认情况下,TKinter UI 将浮动并保持在屏幕顶部。您可以通过传递 --float-ui 标志为 0 来禁用此行为。
      python --float-ui 0

Functional operation flow

Clevrr Computer 通过后台运行的多模态 AI 代理来工作,该代理具有持续截屏机制,以了解屏幕上的内容,并使用 PyAutoGUI 库执行相应操作。代理会根据任务创建思维链,并使用 get_screen_info 工具获取屏幕信息。该工具会截取当前屏幕的截图,并使用网格标记屏幕的真实坐标。然后,代理使用多模态 LLM 来理解屏幕内容,并根据代理的问题给出答案。思维链支持 get_screen_info 工具和 PythonREPLAst 工具,后者设计用于使用 PyAutoGUI 库执行操作。


  • 使用专用虚拟机或容器,以最小权限运行,防止直接系统攻击或意外。
  • 避免向模型提供敏感数据,如账户登录信息,以防信息泄露。
  • 限制互联网访问,仅允许访问白名单中的域名,以减少恶意内容的暴露。
  • 对可能产生实际影响的决策和需要确认的任务(如接受 cookies、执行金融交易或同意服务条款)请人工确认。
