AI Personal Learning
und praktische Anleitung
豆包Marscode1

LangGraph CUA: LangGraph-basierte KI-Intelligenz zur Steuerung von Computeroperationen

Allgemeine Einführung

LangGraph CUA ist ein Open-Source-Projekt, das vom LangChain-Team entwickelt wurde. Es basiert auf dem LangGraph-Framework und ermöglicht es Entwicklern, mit Python KI-Intelligenzen zu entwickeln, die Computer direkt bedienen können. Das Herzstück dieses Tools ist der Computer Use Agent (CUA), der menschliches Verhalten auf einem Computer simuliert, wie z. B. Klicken, Texteingabe oder Surfen im Internet. Er unterstützt Speicherfunktionen, die Zusammenarbeit zwischen Mensch und Computer und die Ausgabe in Echtzeit, so dass er sich für die Automatisierung von sich wiederholenden Aufgaben oder die Entwicklung intelligenter Assistenten eignet. Der Code des Projekts steht Entwicklern zum Herunterladen, Ändern und zur freien Verwendung zur Verfügung und eignet sich daher besonders für Technikbegeisterte, die sich für die Automatisierung von KI interessieren.

 

Funktionsliste

  • Unterstützt die KI-Steuerung von Computervorgängen per Text und Stimme, z. B. das Öffnen von Software, das Eingeben von Text oder das Klicken auf Schaltflächen.
  • Bietet Kurz- und Langzeitspeicherfunktionen, um sich an frühere Vorgänge und Dialoginhalte zu erinnern.
  • Der eingebaute Mensch-Computer-Kollaborationsmodus ermöglicht es dem Benutzer, jederzeit einzugreifen und das Verhalten der KI anzupassen.
  • Unterstützt Echtzeit-Streaming-Ausgang, kann der Betrieb Prozess angezeigt werden Schritt für Schritt.
  • Integration mit Scrapybara zur Ausführung von KI-Agenten auf virtuellen Maschinen und zum Zugriff auf Webseiten.
  • Ermöglicht Entwicklern die Anpassung von Tools und Konfigurationen für flexible und erweiterte Funktionen.

 

Hilfe verwenden

Die Installation und Verwendung von LangGraph CUA ist nicht kompliziert, erfordert aber einige grundlegende Python-Umgebungs- und API-Konfigurationen. Hier sind die detaillierten Schritte, damit Sie loslegen können.

Einbauverfahren

  1. Vorbereiten der Umgebung
    Stellen Sie sicher, dass Ihr Computer Python 3.8 oder höher hat. Sie können dies mit dem Befehl überprüfen:
python --version

Wenn nicht, laden Sie es von https://www.python.org herunter und installieren Sie es.

  1. Klonprojekt
    Laden Sie den Code lokal herunter, indem Sie den folgenden Befehl in das Terminal eingeben:
git clone https://github.com/langchain-ai/langgraph-cua-py.git

Sobald der Download abgeschlossen ist, wechseln Sie in den Projektordner:

cd langgraph-cua-py
  1. Installation von Abhängigkeiten
    Das Projekt benötigt einige Python-Bibliotheken, die mit diesem Befehl installiert werden:
pip install -r requirements.txt

Wenn Sie Probleme mit den Berechtigungen haben, können Sie --user::

pip install -r requirements.txt --user
  1. API-Schlüssel konfigurieren
    LangGraph CUA benötigt API-Schlüssel für OpenAI und Scrapybara. Registrieren Sie zunächst ein Konto, um den Schlüssel zu erhalten, und setzen Sie dann die Umgebungsvariablen im Terminal:
export OPENAI_API_KEY=<你的OpenAI密钥>
export SCRAPYBARA_API_KEY=<你的Scrapybara密钥>

Austauschbarkeit <你的OpenAI密钥> im Gesang antworten <你的Scrapybara密钥> Windows-Benutzer können Folgendes verwenden set Ersatz für export.

  1. Überprüfen der Installation
    Führen Sie einen einfachen Test durch, um sicherzustellen, dass die Umgebung in Ordnung ist. Wechseln Sie in das Projektverzeichnis und führen Sie ihn aus:
python -m langgraph_cua

Wenn keine Fehler gemeldet werden, war die Installation erfolgreich.

Verwendung der wichtigsten Funktionen

Das Herzstück von LangGraph CUA ist die Erstellung eines KI-Agenten, der den Computer bedient. Und so funktioniert es.

Erstellen eines AI-Agenten

Importieren und konfigurieren Sie den Agenten z. B. in einer Python-Datei:

from langgraph_cua import create_cua
cua_graph = create_cua()

Dadurch wird ein Standard-AI-Agent erzeugt. Sie können Parameter hinzufügen, wenn Sie eine bestimmte VM-Instanz verwenden möchten:

cua_graph = create_cua(auth_state_id="你的认证ID")

Bedienen Sie den Computer

Der Agent kann den Computer mit Befehlen steuern. Sagen Sie ihm zum Beispiel, dass er einen Browser öffnen soll:

cua_graph.invoke({"command": "open browser"})

Oder geben Sie Text ein:

cua_graph.invoke({"command": "type", "text": "你好,世界"})

Diese Befehle werden direkt auf dem Computer ausgeführt.

Verwendung der Speicherfunktion

Der Agent merkt sich frühere Aktionen. Lassen Sie ihn zum Beispiel zuerst Notepad öffnen:

cua_graph.invoke({"command": "open notepad"})

Geben Sie dann den Inhalt ein:

cua_graph.invoke({"command": "type", "text": "这是测试"})

Wenn es das nächste Mal aufgerufen wird, weiß es, dass Notepad geöffnet ist und setzt den Vorgang direkt fort.

Mensch-Maschine-Kollaboration

Wenn Sie sie manuell einstellen möchten, können Sie den HMI-Modus aktivieren. Parameter zur Laufzeit hinzufügen:

cua_graph.invoke({"command": "click", "x": 100, "y": 200}, human_in_loop=True)

An diesem Punkt der Ausführung hält das Programm an und wartet darauf, dass Sie die Koordinaten bestätigen oder ändern.

Echtzeit-Ausgabe

Wenn Sie jeden Schritt des Vorgangs sehen möchten, können Sie die Streaming-Ausgabe verwenden:

for step in cua_graph.stream({"command": "search web", "query": "天气"}):
print(step)

Sie zeigt den Suchvorgang Schritt für Schritt an.

Featured Function Bedienung

Einbindung von Scrapybara

Scrapybara ermöglicht die Ausführung des Agenten auf einer virtuellen Maschine, die für die Bearbeitung von Webaufgaben geeignet ist. Konfigurieren Sie ihn, um sicherzustellen, dass der API-Schlüssel korrekt ist, und führen Sie ihn dann aus:

cua_graph.invoke({"command": "browse", "url": "https://example.com"})

Der Agent öffnet die Webseite und bedient sie in der virtuellen Maschine.

Werkzeuge zur Anpassung

Sie können Ihre eigenen Werkzeuge hinzufügen. Definieren Sie zum Beispiel ein Taschenrechner-Tool:

def calculator(a, b):
return a + b
cua_graph = create_cua(tools=[calculator])

Dann rufen Sie an:

cua_graph.invoke({"command": "calculate", "a": 5, "b": 3})

Das Ergebnis ist die 8.


Diese Schritte und der Code helfen Ihnen, sich schnell mit LangGraph CUA vertraut zu machen, sowohl für einfache Aufgaben als auch für komplexe Anpassungen.

 

Anwendungsszenario

  1. automatisierte Büroarbeit
    Verwenden Sie den KI-Agenten zur Stapelverarbeitung von Dateien, z. B. zum Öffnen von Excel, zur Dateneingabe und zum Speichern, um sich wiederholende Vorgänge zu vermeiden.
  2. Web-Datenerfassung
    Lassen Sie Agenten Websites besuchen und Informationen extrahieren, z. B. durch automatische Erfassung von Schlagzeilen oder Preisdaten.
  3. Entwicklung intelligenter Assistenten
    Erstellen Sie einen Assistenten, der auf Sprachbefehle hört, wie z. B. "E-Mail öffnen" oder "Dokumente suchen", und diese direkt ausführt.
  4. Bildung und Ausbildung
    Zeigen Sie, wie KI die Bedienung eines Computers durch einen Menschen während des Unterrichts simulieren kann, damit die Schüler die Prinzipien der Automatisierung verstehen.

 

QA

  1. Brauchen Sie Programmiergrundlagen?
    Grundlegende Python-Kenntnisse sind erforderlich, z. B. die Fähigkeit, die Befehlszeile zu verwenden und einfachen Code zu schreiben. Wenn Sie das nicht können, können Sie zunächst die grundlegende Syntax lernen.
  2. Was ist, wenn ich keinen API-Schlüssel habe?
    Gehen Sie auf die offiziellen Websites von OpenAI (https://openai.com) und Scrapybara, um ein Konto zu erstellen und einen Schlüssel anzufordern. Kostenlose Credits können begrenzt sein, daher empfehlen wir einen Blick auf die Preise.
  3. Kann ich keine virtuelle Maschine verwenden?
    Ja, aber eine virtuelle Maschine mit Scrapybara ist sicherer, da sie die Betriebsumgebung isoliert und Auswirkungen auf den lokalen Computer vermeidet.
  4. Unterstützt es chinesische Befehle?
    Unterstützung. Solange das KI-Modell Chinesisch versteht, ist die Eingabe von chinesischen Befehlen genauso effektiv.
Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " LangGraph CUA: LangGraph-basierte KI-Intelligenz zur Steuerung von Computeroperationen
de_DEDeutsch