Browser-Use : construction d'outils d'automatisation Web intelligents pour que les intelligents IA puissent facilement utiliser les navigateurs

Introduction générale

Browser-Use est un outil d'automatisation web open source innovant, spécialement conçu pour permettre aux modèles de langage (LLM) d'interagir naturellement avec les sites web. Il fournit un cadre puissant et flexible qui prend en charge un large éventail de modèles de langage courants, notamment GPT-4, Claude et d'autres. La caractéristique la plus remarquable de l'outil est l'intégration transparente des capacités d'IA avec l'automatisation du navigateur, prenant en charge la reconnaissance visuelle et l'extraction HTML, la gestion automatique des pages multi-onglets, la détection intelligente des éléments, etc. Browser-Use n'exécute pas seulement des tâches simples de navigation sur le web, mais gère également des scénarios d'interaction complexes tels que le remplissage automatique de formulaires, la soumission de demandes et la recherche d'informations. Il est conçu pour permettre aux agents d'intelligence artificielle d'utiliser les navigateurs aussi naturellement que les humains, ce qui simplifie grandement le processus de développement de l'automatisation du web. L'outil est particulièrement adapté aux développeurs qui ont besoin d'effectuer de l'automatisation web, de la collecte de données et des opérations par lots.

Browser-Use:构建智能网页自动化工具,让AI智能体轻松操作浏览器

 

Liste des fonctions

  • Prise en charge de la reconnaissance visuelle et de l'extraction intelligente du contenu HTML
  • Système automatisé de gestion de pages à onglets multiples
  • Extrait les chemins XPath des éléments cliqués et reproduit les opérations LLM exactes.
  • Prise en charge d'actions personnalisées (par exemple, enregistrer un fichier, pousser une base de données, envoyer une notification, obtenir une contribution manuelle)
  • Capacité d'autocorrection
  • Compatible avec tous les modèles linguistiques pris en charge par LangChain
  • Prise en charge de l'exécution en parallèle de plusieurs agents d'intelligence artificielle
  • Fonctions de sécurité du navigateur configurables
  • Fonction de stockage persistant des cookies
  • Réglages flexibles du temps d'attente pour le chargement des pages

 

Utiliser l'aide

1. configuration de l'installation

  1. Installez d'abord le paquet Browser-Use via pip :
pip install browser-use
  1. (Facultatif) Installer le dramaturge :
playwright install
  1. Configurer les variables d'environnement :
    établir.envet ajoutez les clés d'API nécessaires :
OPENAI_API_KEY=你的OpenAI API密钥
ANTHROPIC_API_KEY=你的Anthropic API密钥

2. utilisation de base

2.1 Création d'un agent IA simple

from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
async def main():
agent = Agent(
task="查找特定航班信息",
llm=ChatOpenAI(model="gpt-4"),
)
result = await agent.run()
print(result)
asyncio.run(main())

2.2 Enregistrement d'actions personnalisées

Des actions personnalisées peuvent être ajoutées au moyen de décorateurs :

from browser_use.controller.service import Controller
controller = Controller()
@controller.action('询问用户信息')
def ask_human(question: str, display_question: bool) -> str:
return input(f'\n{question}\nInput: ')

2.3 Définition de modèles paramétriques avec Pydantic

from pydantic import BaseModel
from typing import Optional
class JobDetails(BaseModel):
title: str
company: str
job_link: str
salary: Optional[str] = None
@controller.action('保存职位详情', param_model=JobDetails, requires_browser=True)
async def save_job(params: JobDetails, browser: Browser):
print(params)
page = browser.get_current_page()
page.go_to(params.job_link)

3. utilisation des fonctions avancées

3.1 Agents de parallélisation

Il est recommandé d'utiliser une seule instance du navigateur et de paralléliser le contexte pour chaque agent :

browser = Browser()
for i in range(10):
async with browser.new_context() as context:
agent = Agent(
task=f"任务 {i}",
llm=model,
browser_context=context
)
# 处理任务...

3.2 Configuration du navigateur

Le comportement du navigateur peut être configuré par les classes BrowserConfig et BrowserContextConfig :

browser_config = BrowserConfig(
headless=False,  # 是否使用无头模式
keep_open=True,  # 脚本结束后保持浏览器开启
disable_security=True,  # 禁用安全特性
cookies_file="cookies.json",  # Cookie存储文件
minimum_wait_page_load_time=1.0,  # 最小页面加载等待时间
wait_for_network_idle_page_load_time=2.0,  # 网络空闲等待时间
maximum_wait_page_load_time=10.0  # 最大页面加载等待时间
)

4) Recommandations pour l'optimisation des performances

  1. Utiliser des temps d'attente appropriés pour le chargement des pages afin d'éviter les temps d'attente excessifs.
  2. Utilisation rationnelle des fonctions de parallélisation pour améliorer l'efficacité du traitement
  3. Activer le mode sans tête le cas échéant pour réduire l'utilisation des ressources
  4. Réduire la duplication de l'authentification grâce à la persistance des cookies
  5. Ajuster la configuration des dispositifs de sécurité en fonction des besoins

5. dépannage

  1. Si vous rencontrez des problèmes avec les requêtes inter-domaines, envisagez d'activer l'optiondisable_securityoptions (comme dans les paramètres d'un logiciel informatique)
  2. Délai de chargement de la page avec paramètre de temps d'attente réglable
  3. S'assurer que la clé API est correctement configurée
  4. Vérifier l'état de la connexion au réseau
  5. Consultez le journal de la console du navigateur pour obtenir des messages d'erreur détaillés
© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...