Nanobrowser : Plugin multi-intelligence pour l'automatisation des tâches dans les navigateurs

Dernières ressources sur l'IAMise à jour il y a 6 mois Cercle de partage de l'IA

16.1K 00

Introduction générale

Nanobrowser est une extension Chrome open source conçue pour automatiser les tâches web grâce à un système multi-agent alimenté par l'IA. Il s'agit d'une alternative gratuite à OpenAI Operator, que les utilisateurs peuvent utiliser en fournissant simplement leur clé d'API LLM (Large Language Model), avec un support pour les modèles OpenAI et Anthropic, et d'autres options qui seront étendues à l'avenir. Toutes les opérations sont exécutées dans un navigateur local, sans partage de données dans le nuage, ce qui garantit la confidentialité et la sécurité. Nanobrowser gère des tâches allant de simples recherches à des processus complexes grâce à la collaboration de trois agents : le planificateur, le navigateur et le validateur. Le code du projet est hébergé sur GitHub, avec une communauté active où les utilisateurs peuvent participer aux discussions et contribuer via Discord ou X.

Liste des fonctions

système multi-agentsLe planificateur élabore des stratégies, le navigateur effectue des opérations et le validateur vérifie les résultats, en collaborant à des tâches complexes.
Soutien flexible au LLMLa prise en charge d'OpenAI et d'Anthropic permet aux utilisateurs de choisir des modèles différents pour des agents différents.
opération localeLe traitement des données est effectué localement pour protéger la vie privée de l'utilisateur.
Automatisation des tâches: : Effectuer des recherches sur le web, remplir des formulaires, extraire des données, etc.
Barre latérale interactiveLes services d'aide à la décision : : Fournir une interface de chat avec des mises à jour de statut en temps réel.
Dialogue avec l'histoireLes tâches sont enregistrées afin de faciliter leur visualisation et leur gestion ultérieures.
source ouverte et transparenteLe code est ouvert à l'examen et à l'amélioration.
Questions de suivi: : Soutien à l'interrogation contextuelle basée sur les résultats de la tâche.

Utiliser l'aide

Processus d'installation

Nanobrowser est disponible sous la forme d'une extension Chrome qui offre deux options d'installation : le téléchargement direct d'une version préconstruite ou la construction à partir des sources.

Méthode 1 : Installation directe de la version préconstruite

Télécharger les extensions
- entretiens https://github.com/nanobrowser/nanobrowser/releases.
- Trouvez la dernière version (par exemple v1.0.0) sur la page Releases.
- Téléchargez le fichier "nanobrowser.zip".
Décompresser le fichier
- Extraire "nanobrowser.zip" dans un dossier local (par exemple le dossier "nanobrowser").
Charger vers Chrome
- Ouvrez Chrome et tapezchrome://extensions/.
- Activez le "mode développeur" dans le coin supérieur droit.
- Cliquez sur "Load unpacked" dans le coin supérieur gauche.
- Sélectionnez le dossier "nanobrowser" décompressé et cliquez sur "Select Folder".
- Une fois l'installation réussie, l'icône Nanobrowser apparaît dans la barre d'outils de Chrome.
Configuration de la clé API
- Cliquez sur l'icône Nanobrowser dans la barre d'outils pour ouvrir la barre latérale.
- Cliquez sur l'icône Paramètres dans le coin supérieur droit.
- Saisissez votre clé API LLM (disponible sur les sites web d'OpenAI ou d'Anthropic).
- Sélectionner des modèles pour le planificateur, le navigateur et le validateur (par exemple, GPT-4o d'OpenAI ou Claude d'Anthropic).
- Enregistrez les paramètres pour terminer la configuration.

Méthode 2 : Construction à partir de la source

Préparation de l'environnement
- montage Node.js(v22.12.0 ou ultérieure).
- montage pnpm(v9.15.1 ou ultérieure).

entrepôt de clones

Ouvrez un terminal et entrez la commande suivante :

git clone https://github.com/nanobrowser/nanobrowser.git
cd nanobrowser

Installation des dépendances
- Entrée :
```
pnpm install
```
Extensions de bâtiments
- Entrée :
```
pnpm build
```
- Lorsque la construction est terminée, le dossier "dist" contient les fichiers d'extension.
Charger vers Chrome
- Suivez l'étape 3 de la "Méthode 1" pour charger le dossier "dist".
Mode développement (optionnel)
- Si un débogage en temps réel est nécessaire, exécutez :
```
pnpm dev
```

Comment utiliser les principales fonctionnalités

1) Mandater l'automatisation

flux de travail:
- Cliquez sur l'icône Nanobrowser dans la barre d'outils pour ouvrir la barre latérale.
- Saisissez une commande de tâche dans le champ de saisie, par exemple, "Aller sur TechCrunch et extraire les 10 principaux titres des dernières 24 heures".
- Cliquez sur "Exécuter" pour démarrer le système multi-agents :
  - PlanificateurLes tâches à accomplir : créer un plan de travail, par exemple ouvrir TechCrunch et repérer la zone des titres.
  - Navigateur: : Effectuer la navigation sur le web et l'extraction de données.
  - Valideur: : Conformité des résultats de l'inspection avec les exigences.
- Les résultats sont affichés dans une barre latérale qui permet de copier ou de poser des questions complémentaires.
Scénarios d'utilisation:
- Résumé de l'actualité: extrait les informations les plus récentes d'un site web particulier.
- Recherche sur les achatsPour plus d'informations, consultez la rubrique "Enceintes Bluetooth étanches, moins de 50 $, avec plus de 10 heures d'autonomie" sur le site d'Amazon.
- Recherche de codes: Trouvez les dépôts Python les plus populaires sur GitHub.

2. modèle d'agent de configuration

flux de travail:
- Ouvrez la barre latérale et cliquez sur "Paramètres".
- Saisissez la clé API et sélectionnez le modèle, par exemple :
  - Planificateur : OpenAI GPT-4o
  - Navigateur. Anthropique Claude 3.5 Sonnet
  - Validateur : OpenAI GPT-3.5
- Cliquez sur "Enregistrer" pour vérifier que la connexion est réussie.
attirer l'attention sur qqch.:
- Différents modèles conviennent à différentes tâches et il est recommandé d'essayer des combinaisons pour améliorer l'efficacité.
- Assurez-vous que la clé API est valide afin d'éviter toute interruption de la tâche.

3. afficher et gérer l'historique du dialogue

flux de travail:
- Sélectionnez Historique des conversations dans la barre latérale.
- Affiche une liste de tâches avec les heures, les instructions et les résultats.
- Cliquez sur un enregistrement pour en afficher les détails ou sélectionnez "Réessayer" pour l'exécuter à nouveau.
compétence pratique:
- Exportation de l'historique sous forme de fichier JSON pour faciliter la sauvegarde.
- Examinez les journaux des tâches qui ont échoué et optimisez les instructions ou les modèles.

4. questions de suivi

flux de travail:
- Une fois la tâche terminée, saisissez une question de suivi dans la barre latérale, telle que "Parmi ces titres, lesquels sont liés à l'IA ?". .
- Le système répond sur la base des résultats précédents sans avoir à réexécuter la tâche complète.
tranchant:
- Amélioration de l'efficacité de l'interaction et de la pertinence de l'analyse approfondie.

Fonction en vedette Fonctionnement

système multi-agents

Comment faire l'expérience:
- Saisir des commandes complexes telles que "Trouver les 5 modèles d'IA les plus populaires sur HuggingFace et les classer dans une liste".
- Le planificateur décompose la tâche, le navigateur extrait les données et le validateur en vérifie l'exactitude.
- Les résultats sont renvoyés sous une forme structurée.
tranchant:
- Correction dynamique des erreurs : le planificateur ajuste sa stratégie au fur et à mesure qu'il rencontre des obstacles.
- Collaboration efficace : gagnez du temps en traitant trois agents en parallèle.

Fonctionnement local et protection de la vie privée

Comment vérifier:
- Ouvrez Chrome Developer Tools (F12) et passez à l'onglet Network.
- Lors de l'exécution d'une tâche, seuls les appels à l'API LLM sont perçus, à l'exclusion de toute autre demande externe.
kilométrage:
- Les informations d'identification de l'utilisateur et les données sensibles ne sont pas téléchargées dans le nuage, ce qui le rend sûr et sécurisé.

Barre latérale interactive

Comment l'utiliser:
- Lorsque la barre latérale est ouverte, la progression de la tâche est affichée en temps réel (par exemple, "Naviguer", "Valider").
- Aide à l'ajustement des commandes ou à l'arrêt des tâches à mi-parcours.
spécificités:
- L'interface est intuitive et convient aussi bien aux utilisateurs novices qu'aux professionnels.

mise en garde

exigences en matière de réseauL'utilisation de l'API LLM nécessite un réseau stable.
Recommandations concernant le matérielLes résultats sont meilleurs sur les équipements de haute performance.
Soutien communautaire: : Rejoignez-nous si vous avez des problèmes Discord ou l'attention X Demandez de l'aide.