Nanobrowser: Multi-Intelligenz-Plugin für die Aufgabenautomatisierung in Browsern

Neueste AI-RessourcenAktualisiert vor 6 Monaten AI-Austauschkreis

15.8K 00

Allgemeine Einführung

Nanobrowser ist eine quelloffene Chrome-Erweiterung zur Automatisierung von Webaufgaben durch ein KI-gestütztes Multiagentensystem. Es handelt sich um eine kostenlose Alternative zu OpenAI Operator, die Benutzer durch die einfache Bereitstellung ihres LLM (Large Language Model) API-Schlüssels nutzen können, mit Unterstützung für OpenAI- und Anthropic-Modelle, mit weiteren Optionen, die in Zukunft erweitert werden. Alle Operationen werden in einem lokalen Browser ausgeführt, ohne dass Daten in der Cloud ausgetauscht werden, was den Datenschutz und die Sicherheit gewährleistet.Nanobrowser erledigt Aufgaben, die von einfachen Suchen bis hin zu komplexen Prozessen reichen, durch die Zusammenarbeit von drei Agenten: Planner, Navigator und Validator. Der Projektcode wird auf GitHub gehostet, mit einer aktiven Community, in der Benutzer an Diskussionen teilnehmen und über Discord oder X beitragen können.

Funktionsliste

Multi-Agenten-SystemDer Planer entwickelt Strategien, der Navigator führt Operationen durch, und der Validator überprüft die Ergebnisse, wobei er bei komplexen Aufgaben zusammenarbeitet.
Flexible LLM-UnterstützungUnterstützung für OpenAI und Anthropic: Benutzer können verschiedene Modelle für verschiedene Agenten wählen.
lokaler Betrieb:: Die Datenverarbeitung erfolgt lokal, um die Privatsphäre der Nutzer zu schützen.
Automatisierung von AufgabenWeb-Suche, Ausfüllen von Formularen, Datenextraktion usw.
Interaktive Seitenleiste:: Bieten Sie eine Chat-Schnittstelle mit Echtzeit-Status-Updates.
Dialog mit der Geschichte:: Aufzeichnung von Aufgaben zur Unterstützung der späteren Einsichtnahme und Verwaltung.
quelloffen und transparentDer Code ist offen für Überprüfungen und Verbesserungen.
Weitergehende Fragen:: Unterstützung für kontextbezogene Fragen auf der Grundlage von Aufgabenergebnissen.

Hilfe verwenden

Einbauverfahren

Nanobrowser ist als Chrome-Erweiterung verfügbar, die zwei Installationsoptionen bietet: das direkte Herunterladen einer vorgefertigten Version oder das Erstellen aus dem Quellcode.

Methode 1: Installieren Sie direkt die vorgefertigte Version

Erweiterungen herunterladen
- Interviews https://github.com/nanobrowser/nanobrowser/releases.
- Die neueste Version (z.B. v1.0.0) finden Sie auf der Seite Releases.
- Laden Sie die Datei "nanobrowser.zip" herunter.
Entpacken Sie die Datei
- Entpacken Sie "nanobrowser.zip" in einen lokalen Ordner (z. B. den Ordner "nanobrowser").
In Chrome laden
- Öffnen Sie Chrome und geben Siechrome://extensions/.
- Aktivieren Sie den "Entwicklermodus" in der oberen rechten Ecke.
- Klicken Sie in der oberen linken Ecke auf "Ungepackt laden".
- Wählen Sie den entpackten Ordner "nanobrowser" und klicken Sie auf "Ordner auswählen".
- Nach erfolgreicher Installation erscheint das Nanobrowser-Symbol in der Chrome-Symbolleiste.
Konfigurieren des API-Schlüssels
- Klicken Sie auf das Nanobrowser-Symbol in der Symbolleiste, um die Seitenleiste zu öffnen.
- Klicken Sie auf das Symbol Einstellungen in der oberen rechten Ecke.
- Geben Sie Ihren LLM-API-Schlüssel ein (verfügbar auf den Websites von OpenAI oder Anthropic).
- Wählen Sie Modelle für Planner, Navigator, Validator (z. B. GPT-4o von OpenAI oder Claude von Anthropic).
- Speichern Sie die Einstellungen, um die Konfiguration abzuschließen.

Methode 2: Aus dem Quellcode erstellen

Vorbereiten der Umgebung
- Montage Node.js(v22.12.0 oder höher).
- Montage pnpm(v9.15.1 oder höher).
Klon-Lager
- Öffnen Sie ein Terminal und geben Sie den folgenden Befehl ein:
```
git clone https://github.com/nanobrowser/nanobrowser.git
cd nanobrowser
```
Installation von Abhängigkeiten
- Eingabe:
```
pnpm install
```
Gebäudeerweiterungen
- Eingabe:
```
pnpm build
```
- Wenn die Erstellung abgeschlossen ist, enthält der Ordner "dist" die Erweiterungsdateien.
In Chrome laden
- Folgen Sie Schritt 3 in "Methode 1", um den Ordner "dist" zu laden.
Entwicklungsmodus (optional)
- Wenn Echtzeit-Debugging erforderlich ist, führen Sie es aus:
```
pnpm dev
```

Verwendung der wichtigsten Funktionen

1. das Mandat zur Automatisierung

Arbeitsablauf:
- Klicken Sie auf das Nanobrowser-Symbol in der Symbolleiste, um die Seitenleiste zu öffnen.
- Geben Sie einen Aufgabenbefehl in das Eingabefeld ein, z. B. "Gehe zu TechCrunch und extrahiere die 10 wichtigsten Schlagzeilen der letzten 24 Stunden".
- Klicken Sie auf "Ausführen", um das Multiagentensystem zu starten:
  - PlanerErstellen Sie einen Aufgabenplan, z. B. das Öffnen von TechCrunch und das Auffinden des Schlagzeilenbereichs.
  - Navigator:: Durchführung von Webnavigation und Datenextraktion.
  - Prüfer:: Übereinstimmung der Inspektionsergebnisse mit den Anforderungen.
- Die Ergebnisse werden in einer Seitenleiste angezeigt, die das Kopieren oder Folgefragen unterstützt.
Verwendungsszenarien:
- Zusammenfassung der NachrichtenExtrahiert die neuesten Informationen von einer bestimmten Website.
- Einkaufen Forschung:: Suchen Sie bei Amazon nach "wasserdichter Bluetooth-Lautsprecher, unter $50, mit über 10 Stunden Akkulaufzeit".
- Code-Forschung: Finden Sie die beliebtesten Python-Repositories auf GitHub.

2. das Modell des Konfigurationsagenten

Arbeitsablauf:
- Öffnen Sie die Seitenleiste und klicken Sie auf "Einstellungen".
- Geben Sie den API-Schlüssel ein und wählen Sie z. B. das Modell aus:
  - Planer: OpenAI GPT-4o
  - Navigator. Anthropisch Claude 3.5 Sonett
  - Prüfer: OpenAI GPT-3.5
- Klicken Sie auf "Speichern", um zu testen, ob die Verbindung erfolgreich ist.
auf etw. aufmerksam machen:
- Verschiedene Modelle sind für unterschiedliche Aufgaben geeignet, und es empfiehlt sich, Kombinationen auszuprobieren, um die Effizienz zu verbessern.
- Stellen Sie sicher, dass der API-Schlüssel gültig ist, um eine Unterbrechung der Aufgabe zu vermeiden.

3. die Anzeige und Verwaltung des Dialogverlaufs

Arbeitsablauf:
- Wählen Sie Gesprächsverlauf in der Seitenleiste.
- Zeigt eine Liste von Aufgaben mit Zeiten, Anweisungen und Ergebnissen an.
- Klicken Sie auf einen Datensatz, um die Details zu sehen, oder wählen Sie "Wiederholen", um ihn erneut auszuführen.
praktisches Können:
- Exportieren Sie den Verlauf als JSON-Datei zur einfachen Sicherung.
- Prüfen Sie die Protokolle fehlgeschlagener Aufgaben und optimieren Sie die Anweisungen oder Modelle.

4. weiterführende Fragen

Arbeitsablauf:
- Sobald die Aufgabe abgeschlossen ist, geben Sie in der Seitenleiste eine Folgefrage ein, z. B. "Welche dieser Schlagzeilen haben mit KI zu tun?". .
- Das System antwortet auf der Grundlage früherer Ergebnisse, ohne dass die gesamte Aufgabe erneut ausgeführt werden muss.
Schneidkante:
- Verbesserte Interaktionseffizienz und Eignung für vertiefte Analysen.

Featured Function Bedienung

Multi-Agenten-System

Wie man erlebt:
- Geben Sie komplexe Befehle ein, z. B. "Finde die 5 beliebtesten KI-Modelle auf HuggingFace und organisiere sie in einer Liste".
- Der Planner gliedert die Aufgabe, der Navigator extrahiert die Daten und der Validator prüft die Richtigkeit.
- Die Ergebnisse werden in strukturierter Form zurückgegeben.
Schneidkante:
- Dynamische Fehlerkorrektur: Der Planer passt seine Strategie an, wenn er auf Hindernisse stößt.
- Effiziente Zusammenarbeit: Sparen Sie Zeit durch die parallele Bearbeitung von drei Agenten.

Lokaler Betrieb und Schutz der Privatsphäre

Wie überprüfen?:
- Öffnen Sie die Chrome-Entwicklerwerkzeuge (F12) und wechseln Sie zur Registerkarte Netzwerk.
- Bei der Ausführung einer Aufgabe werden nur LLM-API-Aufrufe und keine anderen externen Anfragen gesehen.
Kilometerstand:
- Benutzeranmeldeinformationen und sensible Daten werden nicht in die Cloud hochgeladen, was sie sicher macht.

Interaktive Seitenleiste

Wie zu verwenden:
- Wenn die Seitenleiste geöffnet wird, wird der Fortschritt der Aufgabe in Echtzeit angezeigt (z. B. "Navigieren", "Validieren").
- Unterstützung für die Anpassung von Befehlen oder das Anhalten von Aufgaben auf halbem Weg.
Besonderheiten:
- Die Benutzeroberfläche ist intuitiv und eignet sich sowohl für Anfänger als auch für professionelle Anwender.

caveat

NetzanforderungEin stabiles Netzwerk ist erforderlich, um die LLM-API aufzurufen.
Hardware-Empfehlungen:: Läuft besser auf Hochleistungsgeräten.
Unterstützung der Gemeinschaft:: Beitreten, wenn Sie Probleme haben Diskord oder Aufmerksamkeit X Holen Sie sich Hilfe.