Browser-Use: creación de herramientas inteligentes de automatización web para que las inteligencias artificiales manejen fácilmente los navegadores

Introducción general

Browser-Use es una innovadora herramienta de automatización web de código abierto diseñada específicamente para que los modelos lingüísticos (LLM) interactúen de forma natural con los sitios web. Proporciona un marco potente y flexible que admite una amplia gama de modelos lingüísticos convencionales, como GPT-4, Claude y otros. La característica más destacada de la herramienta es la perfecta integración de las capacidades de IA con la automatización del navegador, que admite el reconocimiento visual y la extracción de HTML, la gestión automática de páginas con varias pestañas, la detección inteligente de elementos, etc. Browser-Use no sólo realiza tareas sencillas de navegación web, sino que también gestiona escenarios de interacción complejos, como el autorellenado de formularios, el envío de solicitudes y la búsqueda de información. Está diseñada para que los agentes de IA utilicen los navegadores con la misma naturalidad que los humanos, lo que simplifica enormemente el proceso de desarrollo de la automatización web. La herramienta es especialmente adecuada para desarrolladores que necesiten realizar automatización web, recopilación de datos y operaciones por lotes.

Browser-Use:构建智能网页自动化工具,让AI智能体轻松操作浏览器

 

Lista de funciones

  • Reconocimiento visual y extracción inteligente de contenidos HTML
  • Sistema automatizado de gestión de páginas con varias pestañas
  • Extrae las rutas XPath de los elementos seleccionados y reproduce las operaciones LLM exactas.
  • Soporte para acciones personalizadas (por ejemplo, guardar archivo, empujar base de datos, enviar notificación, obtener entrada manual).
  • Capacidad de autocorrección
  • Compatible con todos los modelos lingüísticos admitidos por LangChain
  • Posibilidad de ejecutar varios agentes de IA en paralelo
  • Funciones de seguridad del navegador configurables
  • Función de almacenamiento persistente de cookies
  • Configuración flexible del tiempo de espera de carga de la página

 

Utilizar la ayuda

1. Configuración de la instalación

  1. Primero instale el paquete Browser-Use mediante pip:
pip install browser-use
  1. (Opcional) Instalar dramaturgo:
playwright install
  1. Configurar variables de entorno:
    establecer.envy añada las claves API necesarias:
OPENAI_API_KEY=你的OpenAI API密钥
ANTHROPIC_API_KEY=你的Anthropic API密钥

2. Uso básico

2.1 Creación de un agente de IA sencillo

from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
async def main():
agent = Agent(
task="查找特定航班信息",
llm=ChatOpenAI(model="gpt-4"),
)
result = await agent.run()
print(result)
asyncio.run(main())

2.2 Registro de acciones personalizadas

Se pueden añadir acciones personalizadas mediante decoradores:

from browser_use.controller.service import Controller
controller = Controller()
@controller.action('询问用户信息')
def ask_human(question: str, display_question: bool) -> str:
return input(f'\n{question}\nInput: ')

2.3 Definición de modelos paramétricos con Pydantic

from pydantic import BaseModel
from typing import Optional
class JobDetails(BaseModel):
title: str
company: str
job_link: str
salary: Optional[str] = None
@controller.action('保存职位详情', param_model=JobDetails, requires_browser=True)
async def save_job(params: JobDetails, browser: Browser):
print(params)
page = browser.get_current_page()
page.go_to(params.job_link)

3. Utilización de funciones avanzadas

3.1 Agentes de paralelización

Se recomienda utilizar una única instancia del Navegador y paralelizar el contexto para cada agente:

browser = Browser()
for i in range(10):
async with browser.new_context() as context:
agent = Agent(
task=f"任务 {i}",
llm=model,
browser_context=context
)
# 处理任务...

3.2 Configuración del navegador

El comportamiento del navegador puede configurarse a través de las clases BrowserConfig y BrowserContextConfig:

browser_config = BrowserConfig(
headless=False,  # 是否使用无头模式
keep_open=True,  # 脚本结束后保持浏览器开启
disable_security=True,  # 禁用安全特性
cookies_file="cookies.json",  # Cookie存储文件
minimum_wait_page_load_time=1.0,  # 最小页面加载等待时间
wait_for_network_idle_page_load_time=2.0,  # 网络空闲等待时间
maximum_wait_page_load_time=10.0  # 最大页面加载等待时间
)

4. Recomendaciones para optimizar el rendimiento

  1. Utilice tiempos de espera de carga de página adecuados para evitar esperas excesivas
  2. Uso racional de las funciones de paralelización para mejorar la eficacia del procesamiento
  3. Activar el modo headless cuando proceda para reducir el uso de recursos.
  4. Reducir la autenticación duplicada con la persistencia de cookies
  5. Ajuste la configuración de los dispositivos de seguridad según sea necesario

5. Solución de problemas

  1. Si tiene problemas con las peticiones entre dominios, considere la posibilidad de activardisable_securityopciones (como en la configuración de programas informáticos)
  2. Tiempo de espera de carga de la página con parámetro de tiempo de espera ajustable
  3. Asegúrese de que la clave API está configurada correctamente
  4. Comprobar el estado de la conexión de red
  5. Compruebe el registro de la consola del navegador para obtener mensajes de error detallados
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...