AI Personal Learning
und praktische Anleitung
讯飞绘镜

Clevrr Computer: Automatisierung der Desktop-Manipulationsintelligenz mit der PyAutoGUI-Bibliothek

Allgemeine Einführung

Clevrr Computer ist ein Open-Source-Projekt, das darauf abzielt, Systemoperationen mit Hilfe der PyAutoGUI-Bibliothek zu automatisieren. Das Projekt wird unterstützt von Anthropisch Clevrr Computer wurde dazu inspiriert, einen automatisierten Agenten zu entwickeln, der die Aufgaben des Benutzers bei der Systembedienung genau und effizient ausführt. Clevrr Computer ist in der Lage, Tastatur-, Maus- und Bildschirminteraktionen zu automatisieren und gleichzeitig die Sicherheit und Genauigkeit jeder Aufgabe zu gewährleisten. Das Projekt befindet sich derzeit in der Beta-Phase und die Benutzer sollten sich der Risiken bewusst sein, die mit seiner Verwendung verbunden sind.

Empfohlene automatische Desktop-Betriebsintelligenz, die von Smart Spectrum eingeführt wurde:GLM-PC (Smart Spectrum Bull) ist offiziell zum internen Download freigegeben, die KI, die wirklich den Computer steuern kann


Clevrr Computer:使用 PyAutoGUI 库实现智能体自动化操作系统桌面-1

 

Clevrr Computer:使用 PyAutoGUI 库实现智能体自动化操作系统桌面-1

 

Funktionsliste

  • Automatisieren Sie Mausbewegungen, Klicks und Tastatureingaben
  • Screenshots und Verwaltungsfenster
  • Fehler anständig behandeln und Feedback geben
  • Führt Aufgaben mit maximaler Präzision aus und vermeidet ungewollte Eingriffe

 

Hilfe verwenden

Einbauverfahren

  1. Klon-Lagerhaus:
    git clone https://github.com/Clevrr-AI/Clevrr-Computer.git
    cd Clevrr-Computer
  1. Installieren Sie die Abhängigkeit:
    pip install -r requirements.txt
    
  2. Setzen von Umgebungsvariablen:
    Oberbefehlshaber (Militär) .env_dev Benennen Sie die Datei um in .envund fügen Sie Ihren API-Schlüssel und andere Konfigurationen hinzu:

    AZURE_OPENAI_API_KEY=<YOUR_AZURE_API_KEY>
    AZURE_OPENAI_ENDPOINT=<YOUR_AZURE_ENDPOINT_URL>
    AZURE_OPENAI_API_VERSION=<YOUR_AZURE_API_VERSION>
    AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=<YOUR_AZURE_DEPLOYMENT_NAME>
    GOOGLE_API_KEY=<YOUR_GEMINI_API_KEY>
    

Verwendung

  1. Führen Sie die Anwendung aus:
    python main.py
    

    Standardmäßig wird dabei die gemini Modell und aktivieren Sie die gleitende Benutzeroberfläche.

  2. Optionale Parameter:
    • Auswahl eines Modells: Sie können ein Modell auswählen, indem Sie die --model um das zu verwendende Modell anzugeben. Akzeptable Parameter sind gemini vielleicht openai.
      python main.py --model openai
      
    • Schwebende Benutzeroberfläche: Standardmäßig schwebt die TKinter-Benutzeroberfläche und bleibt am oberen Rand des Bildschirms. Sie können die UI schweben lassen, indem Sie die --float-ui bezeichnen. 0 um dieses Verhalten zu deaktivieren.
      python main.py --float-ui 0
      

Funktion Betriebsablauf

Clevrr Computer arbeitet durch einen multimodalen KI-Agenten, der im Hintergrund mit einem kontinuierlichen Screenshot-Mechanismus läuft, um zu verstehen, was auf dem Bildschirm zu sehen ist und die entsprechenden Aktionen unter Verwendung der PyAutoGUI-Bibliothek auszuführen. Der Agent erstellt eine Gedankenkette auf der Grundlage der Aufgabe und verwendet die get_screen_info um Informationen über den Bildschirm zu erhalten. Das Tool macht einen Screenshot des aktuellen Bildschirms und verwendet ein Raster, um die tatsächlichen Koordinaten des Bildschirms zu markieren. Der Agent verwendet dann ein multimodales LLM, um den Bildschirminhalt zu verstehen und Antworten auf die Fragen des Agenten zu geben. Unterstützung der Gedankenkette get_screen_info und das Werkzeug PythonREPLAst, das für die Durchführung von Operationen mit der PyAutoGUI-Bibliothek konzipiert ist.

caveat

  • Verwenden Sie dedizierte virtuelle Maschinen oder Container, die mit minimalen Berechtigungen laufen, um direkte Systemangriffe oder Unfälle zu verhindern.
  • Vermeiden Sie die Weitergabe sensibler Daten, wie z. B. Kontoanmeldeinformationen, an das Modell, um Informationsverluste zu vermeiden.
  • Beschränken Sie den Internetzugang auf Domänen, die auf der Whitelist stehen, um die Gefährdung durch bösartige Inhalte zu verringern.
  • Eine manuelle Bestätigung ist erforderlich für Entscheidungen, die praktische Auswirkungen haben können, und für Aufgaben, die eine Bestätigung erfordern (z. B. die Annahme von Cookies, die Durchführung von Finanztransaktionen oder die Zustimmung zu den Nutzungsbedingungen).
Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " Clevrr Computer: Automatisierung der Desktop-Manipulationsintelligenz mit der PyAutoGUI-Bibliothek
de_DEDeutsch