AI个人学习
和实操指南

Clevrr Computer:使用 PyAutoGUI 库实现自动化桌面操作智能体

综合介绍

Clevrr Computer 是一个开源项目,旨在通过使用 PyAutoGUI 库来实现系统操作的自动化。该项目受到 Anthropic 的启发,设计了一个自动化代理,可以精确高效地执行用户的系统操作任务。Clevrr Computer 能够自动化键盘、鼠标和屏幕交互,同时确保每个任务的安全性和准确性。该项目目前处于测试阶段,用户在使用时需注意相关风险。

推荐智谱推出的自动化桌面操作智能体:GLM-PC(智谱牛牛)正式发布内测下载,真正可以控制电脑的AI


Clevrr Computer:使用 PyAutoGUI 库实现智能体自动化操作系统桌面-1

 

Clevrr Computer:使用 PyAutoGUI 库实现智能体自动化操作系统桌面-1

 

功能列表

  • 自动化鼠标移动、点击和键盘输入
  • 截屏和管理窗口
  • 优雅处理错误并提供反馈
  • 以最大精度执行任务,避免无意操作

 

使用帮助

安装流程

  1. 克隆仓库:
    git clone https://github.com/Clevrr-AI/Clevrr-Computer.git
    cd Clevrr-Computer
  1. 安装依赖:
    pip install -r requirements.txt
    
  2. 设置环境变量:
    将 .env_dev 文件重命名为 .env,并添加您的 API 密钥和其他配置:

    AZURE_OPENAI_API_KEY=<YOUR_AZURE_API_KEY>
    AZURE_OPENAI_ENDPOINT=<YOUR_AZURE_ENDPOINT_URL>
    AZURE_OPENAI_API_VERSION=<YOUR_AZURE_API_VERSION>
    AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=<YOUR_AZURE_DEPLOYMENT_NAME>
    GOOGLE_API_KEY=<YOUR_GEMINI_API_KEY>
    

使用方法

  1. 运行应用程序:
    python main.py
    

    默认情况下,这将使用 gemini 模型并启用浮动 UI。

  2. 可选参数:
    • 选择模型:您可以通过传递 --model 参数来指定使用的模型。可接受的参数为 gemini 或 openai
      python main.py --model openai
      
    • 浮动 UI:默认情况下,TKinter UI 将浮动并保持在屏幕顶部。您可以通过传递 --float-ui 标志为 0 来禁用此行为。
      python main.py --float-ui 0
      

功能操作流程

Clevrr Computer 通过后台运行的多模态 AI 代理来工作,该代理具有持续截屏机制,以了解屏幕上的内容,并使用 PyAutoGUI 库执行相应操作。代理会根据任务创建思维链,并使用 get_screen_info 工具获取屏幕信息。该工具会截取当前屏幕的截图,并使用网格标记屏幕的真实坐标。然后,代理使用多模态 LLM 来理解屏幕内容,并根据代理的问题给出答案。思维链支持 get_screen_info 工具和 PythonREPLAst 工具,后者设计用于使用 PyAutoGUI 库执行操作。

注意事项

  • 使用专用虚拟机或容器,以最小权限运行,防止直接系统攻击或意外。
  • 避免向模型提供敏感数据,如账户登录信息,以防信息泄露。
  • 限制互联网访问,仅允许访问白名单中的域名,以减少恶意内容的暴露。
  • 对可能产生实际影响的决策和需要确认的任务(如接受 cookies、执行金融交易或同意服务条款)请人工确认。
未经允许不得转载:首席AI分享圈 » Clevrr Computer:使用 PyAutoGUI 库实现自动化桌面操作智能体

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文