Aprendizagem pessoal com IA
e orientação prática
讯飞绘镜

Browser-Use: criação de ferramentas inteligentes de automação da Web para que os inteligentes de IA operem facilmente os navegadores

Introdução geral

O Browser-Use é uma ferramenta inovadora de automação da Web de código aberto, projetada especificamente para permitir que os modelos de linguagem (LLMs) interajam naturalmente com os sites. Ele oferece uma estrutura avançada e flexível que suporta uma ampla gama de modelos de linguagem convencionais, incluindo GPT-4, Claude e outros. O recurso mais notável da ferramenta é a integração perfeita dos recursos de IA com a automação do navegador, suportando reconhecimento visual e extração de HTML, gerenciamento automático de páginas com várias guias, detecção inteligente de elementos etc. O Browser-Use não só executa tarefas simples de navegação na Web, mas também lida com cenários de interação complexos, como preenchimento automático de formulários, envio de aplicativos e busca de informações. Ele foi projetado para permitir que os agentes de IA usem os navegadores de forma tão natural quanto os humanos, simplificando muito o processo de desenvolvimento da automação da Web. A ferramenta é especialmente adequada para desenvolvedores que precisam executar automação da Web, coleta de dados e operações em lote.

Browser-Use:构建智能网页自动化工具,让AI智能体轻松操作浏览器-1


 

Lista de funções

  • Oferece suporte ao reconhecimento visual e à extração inteligente de conteúdo HTML
  • Sistema automatizado de gerenciamento de páginas com várias abas
  • Extrai caminhos XPath de elementos clicados e reproduz operações LLM exatas.
  • Suporte a ações personalizadas (por exemplo, salvar arquivo, enviar banco de dados, enviar notificação, obter entrada manual)
  • Capacidade de autocorreção
  • Compatível com todos os modelos de idiomas suportados pelo LangChain
  • Suporte para a execução de vários agentes de IA em paralelo
  • Recursos de segurança configuráveis do navegador
  • Função de armazenamento persistente de cookies
  • Configurações flexíveis do tempo de espera de carregamento da página

 

Usando a Ajuda

1. configuração da instalação

  1. Primeiro, instale o pacote Browser-Use via pip:
pip install browser-use
  1. (Opcional) Instale o dramaturgo:
playwright install
  1. Configurar variáveis de ambiente:
    estabelecer.enve adicione as chaves de API necessárias:
OPENAI_API_KEY=你的OpenAI API密钥
ANTHROPIC_API_KEY=你的Anthropic API密钥

2. uso básico

2.1 Criação de um agente de IA simples

from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
async def main():
agent = Agent(
task="查找特定航班信息",
llm=ChatOpenAI(model="gpt-4"),
)
result = await agent.run()
print(result)
asyncio.run(main())

2.2 Registro de ações personalizadas

Ações personalizadas podem ser adicionadas por meio de decoradores:

from browser_use.controller.service import Controller
controller = Controller()
@controller.action('询问用户信息')
def ask_human(question: str, display_question: bool) -> str:
return input(f'\n{question}\nInput: ')

2.3 Definição de modelos paramétricos usando o Pydantic

from pydantic import BaseModel
from typing import Optional
class JobDetails(BaseModel):
title: str
company: str
job_link: str
salary: Optional[str] = None
@controller.action('保存职位详情', param_model=JobDetails, requires_browser=True)
async def save_job(params: JobDetails, browser: Browser):
print(params)
page = browser.get_current_page()
page.go_to(params.job_link)

3. uso de funções avançadas

3.1 Agentes de paralelização

Recomenda-se usar uma única instância do navegador e paralelizar o contexto para cada agente:

browser = Browser()
for i in range(10):
async with browser.new_context() as context:
agent = Agent(
task=f"任务 {i}",
llm=model,
browser_context=context
)
# 处理任务...

3.2 Configuração do navegador

O comportamento do navegador pode ser configurado por meio das classes BrowserConfig e BrowserContextConfig:

browser_config = BrowserConfig(
headless=False,  # 是否使用无头模式
keep_open=True,  # 脚本结束后保持浏览器开启
disable_security=True,  # 禁用安全特性
cookies_file="cookies.json",  # Cookie存储文件
minimum_wait_page_load_time=1.0,  # 最小页面加载等待时间
wait_for_network_idle_page_load_time=2.0,  # 网络空闲等待时间
maximum_wait_page_load_time=10.0  # 最大页面加载等待时间
)

4. recomendações de otimização de desempenho

  1. Use tempos de espera de carregamento de página adequados para evitar esperas excessivas
  2. Uso racional dos recursos de paralelização para aumentar a eficiência do processamento
  3. Ativar o modo headless quando apropriado para reduzir o uso de recursos
  4. Reduzindo a autenticação duplicada com a persistência de cookies
  5. Ajuste a configuração dos recursos de segurança conforme necessário

5 Solução de problemas

  1. Se você tiver problemas com solicitações entre domínios, considere a possibilidade de ativardisable_securityopções (como nas configurações de software de computador)
  2. Tempo limite de carregamento da página com parâmetro de tempo de espera ajustável
  3. Certifique-se de que a chave da API esteja configurada corretamente
  4. Verificar o status da conexão de rede
  5. Verifique o registro do console do navegador para obter mensagens de erro detalhadas
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Browser-Use: criação de ferramentas inteligentes de automação da Web para que os inteligentes de IA operem facilmente os navegadores
pt_BRPortuguês do Brasil