AI Personal Learning
und praktische Anleitung
讯飞绘镜

Open Operator: Automatisierung in Cloud Browsern mit KI-Intelligenz

Allgemeine Einführung

Öffnen Sie Betreiber Open Operator ist ein Open-Source-Projekt, das darauf abzielt, Operationen im Browser durch KI-Intelligenzen zu automatisieren. Das von Browserbase entwickelte Projekt kombiniert die Technologien von Stagehand und Browserbase, um es Nutzern zu ermöglichen, das Verhalten ihres Browsers durch natürlichsprachliche Befehle zu steuern.Open Operator bietet keinen direkten Dienst, sondern dient vielmehr als Referenzimplementierung, die zeigt, wie Web-Browsing-Funktionen in ein KI-Tool integriert werden können. Es eignet sich für Entwickler, die ihre eigenen Browser-Automatisierungstools erstellen und testen wollen oder die Komplexität der KI-Interaktion mit Webseiten verstehen wollen.

Open Operator:通过AI智能体在云浏览器中进行自动化操作-1


 

Funktionsliste

  • AI Driver Browser BetriebKI: Verwendung von Befehlen in natürlicher Sprache, um die manuelle Bedienung eines Browsers zu simulieren.
  • Konvertierung von natürlicher Sprache in Browser-OperationenStagehand: Übersetzen Sie die natürliche Sprache des Benutzers mit dem Stagehand-Tool in spezifische Browseraktionen.
  • Open Source und SkalierbarkeitBereitstellung des vollständigen Quellcodes, Förderung der Beteiligung der Gemeinschaft und Unterstützung der Benutzer bei der Erweiterung der Funktionalität nach Bedarf.
  • Integration mit BrowserbaseDie Nutzung der Cloud-Browser-Infrastruktur von Browserbase gewährleistet einen effizienten und stabilen Betrieb.
  • BildungsressourcenUmfassende Dokumentation und Beispielcode helfen Anfängern und professionellen Entwicklern beim Lernen und Anwenden.

 

Hilfe verwenden

Einbauverfahren

Da Open Operator ein Open-Source-Projekt ist, gibt es keine Installationsschritte im herkömmlichen Sinne, aber Sie können die folgenden Schritte befolgen, um loszulegen oder zu entwickeln:

1.Klon-Lager::

  • Öffnen Sie ein Terminal oder eine Eingabeaufforderung.
  • ausnutzengit cloneBefehl, um das Projekt lokal zu klonen:
    git clone https://github.com/browserbase/open-operator.git
    
  • Rufen Sie den Projektkatalog auf:
    cd open-operator
    

2.Installation von Abhängigkeiten::

  • Stellen Sie sicher, dass Sie Node.js und npm installiert haben, da das Projekt den pnpm-Paketmanager verwendet.
  • Installieren Sie pnpm (falls nicht bereits installiert):
    npm install -g pnpm
    
  • Installieren Sie die Projektabhängigkeiten:
    pnpm install
    

3.Laufende Projekte::

  • Starten Sie den lokalen Server:
    pnpm dev
    
  • Öffnen Sie Ihren Browser und besuchen Siehttp://localhost:3000um Open Operator in Aktion zu sehen.

Leitlinien für die Verwendung

Verstehen der Projektstruktur::

  • src/Katalog, der den gesamten Quellcode enthält.src/agent/Von besonderem Interesse ist der Katalog, in dem die Logik der KI-Intelligenzen definiert ist.
  • examples/Der mitgelieferte Beispielcode hilft Ihnen, die Verwendung des Projekts schnell zu verstehen.

Schreiben Sie Ihre erste AI-Mission::

  • Compilerexamples/example.tsHier ist ein einfaches Beispiel, das zeigt, wie man KI für die Webmanipulation verwendet. Das Codebeispiel finden Sie unten:
import { Agent } from '@browserbase/open-operator';
  import { OpenAI } from 'langchain/llms/openai';

  async function run() {
    const agent = new Agent({
      llm: new OpenAI({ temperature: 0 }),
    });

    const task = await agent.run({
      task: "Search for 'Browserbase' on Google and click on the first result.",
    });

    console.log(task.result);
  }

  run();
  • Dieser Code zeigt, wie man einen Agenten instanziiert und dann eine einfache Such- und Klickaufgabe ausführt.

Prüfung und Fehlersuche:

  • Verwenden Sie die Entwickler-Tools Ihres Browsers, um die Auswirkungen von KI-Operationen in Echtzeit zu beobachten. Netzwerkanfragen, Konsolenprotokolle und mehr können in Chrome DevTools angezeigt werden, um jeden Schritt einer KI-Operation zu überwachen.
  • Testen Sie verschiedene KI-Aufgaben, indem Sie die Datei example.ts ändern oder neue Skriptdateien hinzufügen.

Erweiterung und Anpassung:

  • Sie können die Funktionalität von Open Operator erweitern, indem Sie die Agentenklasse ändern oder bei Bedarf neue Verarbeitungslogik hinzufügen.
  • Für eine genauere Steuerung der Browser-Operationen wird auf die Dokumentation von Stagehand verwiesen.

Mit den oben genannten Schritten und Anleitungen können Sie Open Operator erkunden und seine Design-Philosophie verstehen, um im Gegenzug anspruchsvollere KI-gestützte Browser-Automatisierungsanwendungen zu entwickeln.

Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " Open Operator: Automatisierung in Cloud Browsern mit KI-Intelligenz
de_DEDeutsch