Browser-Use : construction d'outils d'automatisation Web intelligents pour que les intelligents IA puissent facilement utiliser les navigateurs

Dernières ressources sur l'IAMise à jour il y a 8 mois Cercle de partage de l'IA

14.4K 00

Introduction générale

Browser-Use est un outil d'automatisation web open source innovant, spécialement conçu pour permettre aux modèles de langage (LLM) d'interagir naturellement avec les sites web. Il fournit un cadre puissant et flexible qui prend en charge un large éventail de modèles de langage courants, notamment GPT-4, Claude et d'autres. La caractéristique la plus remarquable de l'outil est l'intégration transparente des capacités d'IA avec l'automatisation du navigateur, prenant en charge la reconnaissance visuelle et l'extraction HTML, la gestion automatique des pages multi-onglets, la détection intelligente des éléments, etc. Browser-Use n'exécute pas seulement des tâches simples de navigation sur le web, mais gère également des scénarios d'interaction complexes tels que le remplissage automatique de formulaires, la soumission de demandes et la recherche d'informations. Il est conçu pour permettre aux agents d'intelligence artificielle d'utiliser les navigateurs aussi naturellement que les humains, ce qui simplifie grandement le processus de développement de l'automatisation du web. L'outil est particulièrement adapté aux développeurs qui ont besoin d'effectuer de l'automatisation web, de la collecte de données et des opérations par lots.

Liste des fonctions

Prise en charge de la reconnaissance visuelle et de l'extraction intelligente du contenu HTML
Système automatisé de gestion de pages à onglets multiples
Extrait les chemins XPath des éléments cliqués et reproduit les opérations LLM exactes.
Prise en charge d'actions personnalisées (par exemple, enregistrer un fichier, pousser une base de données, envoyer une notification, obtenir une contribution manuelle)
Capacité d'autocorrection
Compatible avec tous les modèles linguistiques pris en charge par LangChain
Prise en charge de l'exécution en parallèle de plusieurs agents d'intelligence artificielle
Fonctions de sécurité du navigateur configurables
Fonction de stockage persistant des cookies
Réglages flexibles du temps d'attente pour le chargement des pages

Utiliser l'aide

1. configuration de l'installation

Installez d'abord le paquet Browser-Use via pip :

pip install browser-use

(Facultatif) Installer le dramaturge :

playwright install

Configurer les variables d'environnement :
établir.envet ajoutez les clés d'API nécessaires :

OPENAI_API_KEY=你的OpenAI API密钥
ANTHROPIC_API_KEY=你的Anthropic API密钥

2. utilisation de base

2.1 Création d'un agent IA simple

from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
async def main():
agent = Agent(
task="查找特定航班信息",
llm=ChatOpenAI(model="gpt-4"),
)
result = await agent.run()
print(result)
asyncio.run(main())

2.2 Enregistrement d'actions personnalisées

Des actions personnalisées peuvent être ajoutées au moyen de décorateurs :

from browser_use.controller.service import Controller
controller = Controller()
@controller.action('询问用户信息')
def ask_human(question: str, display_question: bool) -> str:
return input(f'\n{question}\nInput: ')

2.3 Définition de modèles paramétriques avec Pydantic

from pydantic import BaseModel
from typing import Optional
class JobDetails(BaseModel):
title: str
company: str
job_link: str
salary: Optional[str] = None
@controller.action('保存职位详情', param_model=JobDetails, requires_browser=True)
async def save_job(params: JobDetails, browser: Browser):
print(params)
page = browser.get_current_page()
page.go_to(params.job_link)

3. utilisation des fonctions avancées

3.1 Agents de parallélisation

Il est recommandé d'utiliser une seule instance du navigateur et de paralléliser le contexte pour chaque agent :

browser = Browser()
for i in range(10):
async with browser.new_context() as context:
agent = Agent(
task=f"任务 {i}",
llm=model,
browser_context=context
)
# 处理任务...

3.2 Configuration du navigateur

Le comportement du navigateur peut être configuré par les classes BrowserConfig et BrowserContextConfig :

browser_config = BrowserConfig(
headless=False,  # 是否使用无头模式
keep_open=True,  # 脚本结束后保持浏览器开启
disable_security=True,  # 禁用安全特性
cookies_file="cookies.json",  # Cookie存储文件
minimum_wait_page_load_time=1.0,  # 最小页面加载等待时间
wait_for_network_idle_page_load_time=2.0,  # 网络空闲等待时间
maximum_wait_page_load_time=10.0  # 最大页面加载等待时间
)

4) Recommandations pour l'optimisation des performances

Utiliser des temps d'attente appropriés pour le chargement des pages afin d'éviter les temps d'attente excessifs.
Utilisation rationnelle des fonctions de parallélisation pour améliorer l'efficacité du traitement
Activer le mode sans tête le cas échéant pour réduire l'utilisation des ressources
Réduire la duplication de l'authentification grâce à la persistance des cookies
Ajuster la configuration des dispositifs de sécurité en fonction des besoins

5. dépannage

Si vous rencontrez des problèmes avec les requêtes inter-domaines, envisagez d'activer l'optiondisable_securityoptions (comme dans les paramètres d'un logiciel informatique)
Délai de chargement de la page avec paramètre de temps d'attente réglable
S'assurer que la clé API est correctement configurée
Vérifier l'état de la connexion au réseau
Consultez le journal de la console du navigateur pour obtenir des messages d'erreur détaillés

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Deep Recall : un outil open source qui fournit un cadre de mémoire de classe entreprise pour les grands modèles

Dernières ressources sur l'IA # AI Java Open Source Projecct # Recherche de connaissances et cadre RAG

Il y a 4 mois

011.3K

Retrieval based Voice Conversion WebUI：基于检索的语音转换框架|模拟真人歌声

Conversion vocale basée sur la recherche WebUI : un cadre pour la conversion vocale basée sur la recherche simulant les voix de chant de la vie réelle

Dernières ressources sur l'IA # AI Java Open Source Projecct # Clonage vocal AI

Il y a 11 mois

015.2K

PSHuman : Générer des modèles de portrait 3D réalistes, utiliser une photo pour générer une modélisation humaine 3D

Dernières ressources sur l'IA # AI Text and Image to 3D (Texte et image en 3D)

Il y a 9 mois

011.7K

Raven：自动整理书籍笔记，提升阅读效率，轻松管理笔记，智能标签分类，快速查找笔记

Raven : organiser automatiquement les notes du livre pour améliorer l'efficacité de la lecture, gérer facilement les notes, classer intelligemment les étiquettes, trouver rapidement les notes.

Dernières ressources sur l'IA # AI Notes

Il y a 10 mois

011.8K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

Browser-Use : construction d'outils d'automatisation Web intelligents pour que les intelligents IA puissent facilement utiliser les navigateurs

Introduction générale

Liste des fonctions

Utiliser l'aide

1. configuration de l'installation

2. utilisation de base

2.1 Création d'un agent IA simple

2.2 Enregistrement d'actions personnalisées

2.3 Définition de modèles paramétriques avec Pydantic

3. utilisation des fonctions avancées

3.1 Agents de parallélisation

3.2 Configuration du navigateur

4) Recommandations pour l'optimisation des performances

5. dépannage

YTSage : YouTube Downloader, Télécharger gratuitement des vidéos YouTube, Extraire l'audio, Obtenir les sous-titres

DeOldify : l'outil open source classique pour coloriser les photos et vidéos en noir et blanc à l'aide de techniques d'IA

Articles connexes

Deep Recall : un outil open source qui fournit un cadre de mémoire de classe entreprise pour les grands modèles

Conversion vocale basée sur la recherche WebUI : un cadre pour la conversion vocale basée sur la recherche simulant les voix de chant de la vie réelle

PSHuman : Générer des modèles de portrait 3D réalistes, utiliser une photo pour générer une modélisation humaine 3D

Raven : organiser automatiquement les notes du livre pour améliorer l'efficacité de la lecture, gérer facilement les notes, classer intelligemment les étiquettes, trouver rapidement les notes.

Pas de commentaires

Dernières collections

Derniers articles

Browser-Use : construction d'outils d'automatisation Web intelligents pour que les intelligents IA puissent facilement utiliser les navigateurs

Introduction générale

Liste des fonctions

Utiliser l'aide

1. configuration de l'installation

2. utilisation de base

2.1 Création d'un agent IA simple

2.2 Enregistrement d'actions personnalisées

2.3 Définition de modèles paramétriques avec Pydantic

3. utilisation des fonctions avancées

3.1 Agents de parallélisation

3.2 Configuration du navigateur

4) Recommandations pour l'optimisation des performances

5. dépannage

YTSage : YouTube Downloader, Télécharger gratuitement des vidéos YouTube, Extraire l'audio, Obtenir les sous-titres

DeOldify : l'outil open source classique pour coloriser les photos et vidéos en noir et blanc à l'aide de techniques d'IA

Articles connexes

Deep Recall : un outil open source qui fournit un cadre de mémoire de classe entreprise pour les grands modèles

Conversion vocale basée sur la recherche WebUI : un cadre pour la conversion vocale basée sur la recherche simulant les voix de chant de la vie réelle

PSHuman : Générer des modèles de portrait 3D réalistes, utiliser une photo pour générer une modélisation humaine 3D

Raven : organiser automatiquement les notes du livre pour améliorer l'efficacité de la lecture, gérer facilement les notes, classer intelligemment les étiquettes, trouver rapidement les notes.

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles