Allgemeine Einführung
Browser-Use ist ein innovatives Open-Source-Web-Automatisierungstool, das speziell entwickelt wurde, um Sprachmodelle (LLMs) in die Lage zu versetzen, auf natürliche Weise mit Websites zu interagieren. Es bietet ein leistungsstarkes und flexibles Framework, das eine breite Palette von Mainstream-Sprachmodellen unterstützt, darunter GPT-4, Claude und andere. Das bemerkenswerteste Merkmal des Tools ist die nahtlose Integration von KI-Fähigkeiten mit der Browser-Automatisierung, die visuelle Erkennung und HTML-Extraktion, die automatische Verwaltung von Multi-Tab-Seiten, intelligente Elementerkennung usw. unterstützt. Browser-Use führt nicht nur einfache Web-Browsing-Aufgaben aus, sondern bewältigt auch komplexe Interaktionsszenarien wie das automatische Ausfüllen von Formularen, das Einreichen von Anträgen und die Suche nach Informationen. Es wurde entwickelt, um KI-Agenten in die Lage zu versetzen, Browser so natürlich wie Menschen zu nutzen, was den Entwicklungsprozess der Web-Automatisierung erheblich vereinfacht. Das Tool ist besonders für Entwickler geeignet, die Web-Automatisierung, Datenerfassung und Batch-Operationen durchführen müssen.
Funktionsliste
- Unterstützt die visuelle Erkennung und intelligente Extraktion von HTML-Inhalten
- Automatisiertes System zur Verwaltung von Seiten mit mehreren Registerkarten
- Extrahiert XPath-Pfade von angeklickten Elementen und reproduziert exakte LLM-Operationen.
- Unterstützung für benutzerdefinierte Aktionen (z. B. Datei speichern, Datenbank pushen, Benachrichtigung senden, manuelle Eingaben abrufen)
- Fähigkeit zur Selbstkorrektur
- Kompatibel mit allen von LangChain unterstützten Sprachmodellen
- Unterstützung für die parallele Ausführung mehrerer AI-Agenten
- Konfigurierbare Browser-Sicherheitsfunktionen
- Funktion zur dauerhaften Speicherung von Cookies
- Flexible Einstellungen für die Wartezeit beim Laden von Seiten
Hilfe verwenden
1. die Konfiguration der Installation
- Installieren Sie zunächst das Paket Browser-Use über pip:
pip install browser-use
- (Optional) Installieren Sie den Dramaturgen:
playwright install
- Konfigurieren Sie die Umgebungsvariablen:
einrichten..env
Datei und fügen Sie die erforderlichen API-Schlüssel hinzu:
OPENAI_API_KEY=你的OpenAI API密钥
ANTHROPIC_API_KEY=你的Anthropic API密钥
2. grundlegende Verwendung
2.1 Erstellen eines einfachen KI-Agenten
from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
async def main():
agent = Agent(
task="查找特定航班信息",
llm=ChatOpenAI(model="gpt-4"),
)
result = await agent.run()
print(result)
asyncio.run(main())
2.2 Registrierung von benutzerdefinierten Aktionen
Benutzerdefinierte Aktionen können mit Hilfe von Dekoratoren hinzugefügt werden:
from browser_use.controller.service import Controller
controller = Controller()
@controller.action('询问用户信息')
def ask_human(question: str, display_question: bool) -> str:
return input(f'\n{question}\nInput: ')
2.3 Definition von parametrischen Modellen mit Pydantic
from pydantic import BaseModel
from typing import Optional
class JobDetails(BaseModel):
title: str
company: str
job_link: str
salary: Optional[str] = None
@controller.action('保存职位详情', param_model=JobDetails, requires_browser=True)
async def save_job(params: JobDetails, browser: Browser):
print(params)
page = browser.get_current_page()
page.go_to(params.job_link)
3. die Nutzung der erweiterten Funktionen
3.1 Parallelisierungsmittel
Es wird empfohlen, eine einzige Browser-Instanz zu verwenden und den Kontext für jeden Agenten zu parallelisieren:
browser = Browser()
for i in range(10):
async with browser.new_context() as context:
agent = Agent(
task=f"任务 {i}",
llm=model,
browser_context=context
)
# 处理任务...
3.2 Browser-Konfiguration
Das Verhalten des Browsers kann durch die Klassen BrowserConfig und BrowserContextConfig konfiguriert werden:
browser_config = BrowserConfig(
headless=False, # 是否使用无头模式
keep_open=True, # 脚本结束后保持浏览器开启
disable_security=True, # 禁用安全特性
cookies_file="cookies.json", # Cookie存储文件
minimum_wait_page_load_time=1.0, # 最小页面加载等待时间
wait_for_network_idle_page_load_time=2.0, # 网络空闲等待时间
maximum_wait_page_load_time=10.0 # 最大页面加载等待时间
)
4 Empfehlungen zur Leistungsoptimierung
- Angemessene Wartezeiten beim Laden der Seite, um übermäßige Wartezeiten zu vermeiden
- Rationelle Nutzung von Parallelisierungsfunktionen zur Verbesserung der Verarbeitungseffizienz
- Aktivieren Sie gegebenenfalls den Headless-Modus, um den Ressourcenverbrauch zu reduzieren.
- Verringerung der doppelten Authentifizierung mit Cookie-Persistenz
- Anpassung der Konfiguration der Sicherheitsmerkmale nach Bedarf
5. die Fehlersuche
- Wenn Sie Probleme mit domänenübergreifenden Anfragen haben, sollten Sie die Option
disable_security
Optionen (wie bei Computersoftware-Einstellungen) - Zeitüberschreitung beim Laden der Seite mit einstellbarem Wartezeitparameter
- Stellen Sie sicher, dass der API-Schlüssel korrekt konfiguriert ist.
- Status der Netzwerkverbindung prüfen
- Überprüfen Sie das Konsolenprotokoll des Browsers auf detaillierte Fehlermeldungen