AI Personal Learning
und praktische Anleitung
豆包Marscode1

Browser-Use: Entwicklung intelligenter Web-Automatisierungs-Tools für KI-Intelligenz zur einfachen Bedienung von Browsern

Allgemeine Einführung

Browser-Use ist ein innovatives Open-Source-Web-Automatisierungstool, das speziell entwickelt wurde, um Sprachmodelle (LLMs) in die Lage zu versetzen, auf natürliche Weise mit Websites zu interagieren. Es bietet ein leistungsstarkes und flexibles Framework, das eine breite Palette von Mainstream-Sprachmodellen unterstützt, darunter GPT-4, Claude und andere. Das bemerkenswerteste Merkmal des Tools ist die nahtlose Integration von KI-Fähigkeiten mit der Browser-Automatisierung, die visuelle Erkennung und HTML-Extraktion, die automatische Verwaltung von Multi-Tab-Seiten, intelligente Elementerkennung usw. unterstützt. Browser-Use führt nicht nur einfache Web-Browsing-Aufgaben aus, sondern bewältigt auch komplexe Interaktionsszenarien wie das automatische Ausfüllen von Formularen, das Einreichen von Anträgen und die Suche nach Informationen. Es wurde entwickelt, um KI-Agenten in die Lage zu versetzen, Browser so natürlich wie Menschen zu nutzen, was den Entwicklungsprozess der Web-Automatisierung erheblich vereinfacht. Das Tool ist besonders für Entwickler geeignet, die Web-Automatisierung, Datenerfassung und Batch-Operationen durchführen müssen.

Browser-Use:构建智能网页自动化工具,让AI智能体轻松操作浏览器-1


 

Funktionsliste

  • Unterstützt die visuelle Erkennung und intelligente Extraktion von HTML-Inhalten
  • Automatisiertes System zur Verwaltung von Seiten mit mehreren Registerkarten
  • Extrahiert XPath-Pfade von angeklickten Elementen und reproduziert exakte LLM-Operationen.
  • Unterstützung für benutzerdefinierte Aktionen (z. B. Datei speichern, Datenbank pushen, Benachrichtigung senden, manuelle Eingaben abrufen)
  • Fähigkeit zur Selbstkorrektur
  • Kompatibel mit allen von LangChain unterstützten Sprachmodellen
  • Unterstützung für die parallele Ausführung mehrerer AI-Agenten
  • Konfigurierbare Browser-Sicherheitsfunktionen
  • Funktion zur dauerhaften Speicherung von Cookies
  • Flexible Einstellungen für die Wartezeit beim Laden von Seiten

 

Hilfe verwenden

1. die Konfiguration der Installation

  1. Installieren Sie zunächst das Paket Browser-Use über pip:
pip install browser-use
  1. (Optional) Installieren Sie den Dramaturgen:
playwright install
  1. Konfigurieren Sie die Umgebungsvariablen:
    einrichten..envDatei und fügen Sie die erforderlichen API-Schlüssel hinzu:
OPENAI_API_KEY=你的OpenAI API密钥
ANTHROPIC_API_KEY=你的Anthropic API密钥

2. grundlegende Verwendung

2.1 Erstellen eines einfachen KI-Agenten

from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
async def main():
agent = Agent(
task="查找特定航班信息",
llm=ChatOpenAI(model="gpt-4"),
)
result = await agent.run()
print(result)
asyncio.run(main())

2.2 Registrierung von benutzerdefinierten Aktionen

Benutzerdefinierte Aktionen können mit Hilfe von Dekoratoren hinzugefügt werden:

from browser_use.controller.service import Controller
controller = Controller()
@controller.action('询问用户信息')
def ask_human(question: str, display_question: bool) -> str:
return input(f'\n{question}\nInput: ')

2.3 Definition von parametrischen Modellen mit Pydantic

from pydantic import BaseModel
from typing import Optional
class JobDetails(BaseModel):
title: str
company: str
job_link: str
salary: Optional[str] = None
@controller.action('保存职位详情', param_model=JobDetails, requires_browser=True)
async def save_job(params: JobDetails, browser: Browser):
print(params)
page = browser.get_current_page()
page.go_to(params.job_link)

3. die Nutzung der erweiterten Funktionen

3.1 Parallelisierungsmittel

Es wird empfohlen, eine einzige Browser-Instanz zu verwenden und den Kontext für jeden Agenten zu parallelisieren:

browser = Browser()
for i in range(10):
async with browser.new_context() as context:
agent = Agent(
task=f"任务 {i}",
llm=model,
browser_context=context
)
# 处理任务...

3.2 Browser-Konfiguration

Das Verhalten des Browsers kann durch die Klassen BrowserConfig und BrowserContextConfig konfiguriert werden:

browser_config = BrowserConfig(
headless=False,  # 是否使用无头模式
keep_open=True,  # 脚本结束后保持浏览器开启
disable_security=True,  # 禁用安全特性
cookies_file="cookies.json",  # Cookie存储文件
minimum_wait_page_load_time=1.0,  # 最小页面加载等待时间
wait_for_network_idle_page_load_time=2.0,  # 网络空闲等待时间
maximum_wait_page_load_time=10.0  # 最大页面加载等待时间
)

4 Empfehlungen zur Leistungsoptimierung

  1. Angemessene Wartezeiten beim Laden der Seite, um übermäßige Wartezeiten zu vermeiden
  2. Rationelle Nutzung von Parallelisierungsfunktionen zur Verbesserung der Verarbeitungseffizienz
  3. Aktivieren Sie gegebenenfalls den Headless-Modus, um den Ressourcenverbrauch zu reduzieren.
  4. Verringerung der doppelten Authentifizierung mit Cookie-Persistenz
  5. Anpassung der Konfiguration der Sicherheitsmerkmale nach Bedarf

5. die Fehlersuche

  1. Wenn Sie Probleme mit domänenübergreifenden Anfragen haben, sollten Sie die Optiondisable_securityOptionen (wie bei Computersoftware-Einstellungen)
  2. Zeitüberschreitung beim Laden der Seite mit einstellbarem Wartezeitparameter
  3. Stellen Sie sicher, dass der API-Schlüssel korrekt konfiguriert ist.
  4. Status der Netzwerkverbindung prüfen
  5. Überprüfen Sie das Konsolenprotokoll des Browsers auf detaillierte Fehlermeldungen
Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " Browser-Use: Entwicklung intelligenter Web-Automatisierungs-Tools für KI-Intelligenz zur einfachen Bedienung von Browsern
de_DEDeutsch