Allgemeine Einführung
Öffnen Sie Betreiber Open Operator ist ein Open-Source-Projekt, das darauf abzielt, Operationen im Browser durch KI-Intelligenzen zu automatisieren. Das von Browserbase entwickelte Projekt kombiniert die Technologien von Stagehand und Browserbase, um es Nutzern zu ermöglichen, das Verhalten ihres Browsers durch natürlichsprachliche Befehle zu steuern.Open Operator bietet keinen direkten Dienst, sondern dient vielmehr als Referenzimplementierung, die zeigt, wie Web-Browsing-Funktionen in ein KI-Tool integriert werden können. Es eignet sich für Entwickler, die ihre eigenen Browser-Automatisierungstools erstellen und testen wollen oder die Komplexität der KI-Interaktion mit Webseiten verstehen wollen.
Funktionsliste
- AI Driver Browser BetriebKI: Verwendung von Befehlen in natürlicher Sprache, um die manuelle Bedienung eines Browsers zu simulieren.
- Konvertierung von natürlicher Sprache in Browser-OperationenStagehand: Übersetzen Sie die natürliche Sprache des Benutzers mit dem Stagehand-Tool in spezifische Browseraktionen.
- Open Source und SkalierbarkeitBereitstellung des vollständigen Quellcodes, Förderung der Beteiligung der Gemeinschaft und Unterstützung der Benutzer bei der Erweiterung der Funktionalität nach Bedarf.
- Integration mit BrowserbaseDie Nutzung der Cloud-Browser-Infrastruktur von Browserbase gewährleistet einen effizienten und stabilen Betrieb.
- BildungsressourcenUmfassende Dokumentation und Beispielcode helfen Anfängern und professionellen Entwicklern beim Lernen und Anwenden.
Hilfe verwenden
Einbauverfahren
Da Open Operator ein Open-Source-Projekt ist, gibt es keine Installationsschritte im herkömmlichen Sinne, aber Sie können die folgenden Schritte befolgen, um loszulegen oder zu entwickeln:
1.Klon-Lager::
- Öffnen Sie ein Terminal oder eine Eingabeaufforderung.
- ausnutzen
git clone
Befehl, um das Projekt lokal zu klonen:git clone https://github.com/browserbase/open-operator.git
- Rufen Sie den Projektkatalog auf:
cd open-operator
2.Installation von Abhängigkeiten::
- Stellen Sie sicher, dass Sie Node.js und npm installiert haben, da das Projekt den pnpm-Paketmanager verwendet.
- Installieren Sie pnpm (falls nicht bereits installiert):
npm install -g pnpm
- Installieren Sie die Projektabhängigkeiten:
pnpm install
3.Laufende Projekte::
- Starten Sie den lokalen Server:
pnpm dev
- Öffnen Sie Ihren Browser und besuchen Sie
http://localhost:3000
um Open Operator in Aktion zu sehen.
Leitlinien für die Verwendung
Verstehen der Projektstruktur::
src/
Katalog, der den gesamten Quellcode enthält.src/agent/
Von besonderem Interesse ist der Katalog, in dem die Logik der KI-Intelligenzen definiert ist.examples/
Der mitgelieferte Beispielcode hilft Ihnen, die Verwendung des Projekts schnell zu verstehen.
Schreiben Sie Ihre erste AI-Mission::
- Compiler
examples/example.ts
Hier ist ein einfaches Beispiel, das zeigt, wie man KI für die Webmanipulation verwendet. Das Codebeispiel finden Sie unten:
import { Agent } from '@browserbase/open-operator';
import { OpenAI } from 'langchain/llms/openai';
async function run() {
const agent = new Agent({
llm: new OpenAI({ temperature: 0 }),
});
const task = await agent.run({
task: "Search for 'Browserbase' on Google and click on the first result.",
});
console.log(task.result);
}
run();
- Dieser Code zeigt, wie man einen Agenten instanziiert und dann eine einfache Such- und Klickaufgabe ausführt.
Prüfung und Fehlersuche:
- Verwenden Sie die Entwickler-Tools Ihres Browsers, um die Auswirkungen von KI-Operationen in Echtzeit zu beobachten. Netzwerkanfragen, Konsolenprotokolle und mehr können in Chrome DevTools angezeigt werden, um jeden Schritt einer KI-Operation zu überwachen.
- Testen Sie verschiedene KI-Aufgaben, indem Sie die Datei example.ts ändern oder neue Skriptdateien hinzufügen.
Erweiterung und Anpassung:
- Sie können die Funktionalität von Open Operator erweitern, indem Sie die Agentenklasse ändern oder bei Bedarf neue Verarbeitungslogik hinzufügen.
- Für eine genauere Steuerung der Browser-Operationen wird auf die Dokumentation von Stagehand verwiesen.
Mit den oben genannten Schritten und Anleitungen können Sie Open Operator erkunden und seine Design-Philosophie verstehen, um im Gegenzug anspruchsvollere KI-gestützte Browser-Automatisierungsanwendungen zu entwickeln.