Browser-Use: creación de herramientas inteligentes de automatización web para que las inteligencias artificiales manejen fácilmente los navegadores
Últimos recursos sobre IAActualizado hace 8 meses Círculo de intercambio de inteligencia artificial 3.2K 00
Introducción general
Browser-Use es una innovadora herramienta de automatización web de código abierto diseñada específicamente para que los modelos lingüísticos (LLM) interactúen de forma natural con los sitios web. Proporciona un marco potente y flexible que admite una amplia gama de modelos lingüísticos convencionales, como GPT-4, Claude y otros. La característica más destacada de la herramienta es la perfecta integración de las capacidades de IA con la automatización del navegador, que admite el reconocimiento visual y la extracción de HTML, la gestión automática de páginas con varias pestañas, la detección inteligente de elementos, etc. Browser-Use no sólo realiza tareas sencillas de navegación web, sino que también gestiona escenarios de interacción complejos, como el autorellenado de formularios, el envío de solicitudes y la búsqueda de información. Está diseñada para que los agentes de IA utilicen los navegadores con la misma naturalidad que los humanos, lo que simplifica enormemente el proceso de desarrollo de la automatización web. La herramienta es especialmente adecuada para desarrolladores que necesiten realizar automatización web, recopilación de datos y operaciones por lotes.

Lista de funciones
- Reconocimiento visual y extracción inteligente de contenidos HTML
- Sistema automatizado de gestión de páginas con varias pestañas
- Extrae las rutas XPath de los elementos seleccionados y reproduce las operaciones LLM exactas.
- Soporte para acciones personalizadas (por ejemplo, guardar archivo, empujar base de datos, enviar notificación, obtener entrada manual).
- Capacidad de autocorrección
- Compatible con todos los modelos lingüísticos admitidos por LangChain
- Posibilidad de ejecutar varios agentes de IA en paralelo
- Funciones de seguridad del navegador configurables
- Función de almacenamiento persistente de cookies
- Configuración flexible del tiempo de espera de carga de la página
Utilizar la ayuda
1. Configuración de la instalación
- Primero instale el paquete Browser-Use mediante pip:
pip install browser-use
- (Opcional) Instalar dramaturgo:
playwright install
- Configurar variables de entorno:
establecer.env
y añada las claves API necesarias:
OPENAI_API_KEY=你的OpenAI API密钥
ANTHROPIC_API_KEY=你的Anthropic API密钥
2. Uso básico
2.1 Creación de un agente de IA sencillo
from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
async def main():
agent = Agent(
task="查找特定航班信息",
llm=ChatOpenAI(model="gpt-4"),
)
result = await agent.run()
print(result)
asyncio.run(main())
2.2 Registro de acciones personalizadas
Se pueden añadir acciones personalizadas mediante decoradores:
from browser_use.controller.service import Controller
controller = Controller()
@controller.action('询问用户信息')
def ask_human(question: str, display_question: bool) -> str:
return input(f'\n{question}\nInput: ')
2.3 Definición de modelos paramétricos con Pydantic
from pydantic import BaseModel
from typing import Optional
class JobDetails(BaseModel):
title: str
company: str
job_link: str
salary: Optional[str] = None
@controller.action('保存职位详情', param_model=JobDetails, requires_browser=True)
async def save_job(params: JobDetails, browser: Browser):
print(params)
page = browser.get_current_page()
page.go_to(params.job_link)
3. Utilización de funciones avanzadas
3.1 Agentes de paralelización
Se recomienda utilizar una única instancia del Navegador y paralelizar el contexto para cada agente:
browser = Browser()
for i in range(10):
async with browser.new_context() as context:
agent = Agent(
task=f"任务 {i}",
llm=model,
browser_context=context
)
# 处理任务...
3.2 Configuración del navegador
El comportamiento del navegador puede configurarse a través de las clases BrowserConfig y BrowserContextConfig:
browser_config = BrowserConfig(
headless=False, # 是否使用无头模式
keep_open=True, # 脚本结束后保持浏览器开启
disable_security=True, # 禁用安全特性
cookies_file="cookies.json", # Cookie存储文件
minimum_wait_page_load_time=1.0, # 最小页面加载等待时间
wait_for_network_idle_page_load_time=2.0, # 网络空闲等待时间
maximum_wait_page_load_time=10.0 # 最大页面加载等待时间
)
4. Recomendaciones para optimizar el rendimiento
- Utilice tiempos de espera de carga de página adecuados para evitar esperas excesivas
- Uso racional de las funciones de paralelización para mejorar la eficacia del procesamiento
- Activar el modo headless cuando proceda para reducir el uso de recursos.
- Reducir la autenticación duplicada con la persistencia de cookies
- Ajuste la configuración de los dispositivos de seguridad según sea necesario
5. Solución de problemas
- Si tiene problemas con las peticiones entre dominios, considere la posibilidad de activar
disable_security
opciones (como en la configuración de programas informáticos) - Tiempo de espera de carga de la página con parámetro de tiempo de espera ajustable
- Asegúrese de que la clave API está configurada correctamente
- Comprobar el estado de la conexión de red
- Compruebe el registro de la consola del navegador para obtener mensajes de error detallados
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...