Browser-Use: создание интеллектуальных инструментов веб-автоматизации для ИИ-интеллектуалов, позволяющих легко управлять браузерами

Общее введение

Browser-Use - это инновационный инструмент автоматизации веб-пространства с открытым исходным кодом, специально разработанный для того, чтобы языковые модели (LLM) могли естественным образом взаимодействовать с веб-сайтами. Он предоставляет мощный и гибкий фреймворк, поддерживающий широкий спектр основных языковых моделей, включая GPT-4, Claude и другие. Наиболее примечательной особенностью инструмента является плавная интеграция возможностей ИИ с автоматизацией браузера, поддержка визуального распознавания и извлечения HTML, автоматическое управление страницами с несколькими вкладками, интеллектуальное определение элементов и т. д. Browser-Use не только выполняет простые задачи просмотра веб-страниц, но и обрабатывает сложные сценарии взаимодействия, такие как автоматическое заполнение форм, отправка заявок и поиск информации. Он разработан для того, чтобы агенты искусственного интеллекта могли использовать браузеры так же естественно, как и люди, что значительно упрощает процесс разработки веб-автоматики. Инструмент особенно подходит для разработчиков, которым необходимо выполнять веб-автоматизацию, сбор данных и пакетные операции.

Browser-Use:构建智能网页自动化工具,让AI智能体轻松操作浏览器

 

Список функций

  • Поддержка визуального распознавания и интеллектуального извлечения HTML-контента
  • Автоматизированная система управления страницами с несколькими вкладками
  • Извлекает XPath-пути щелкнутых элементов и воспроизводит точные операции LLM.
  • Поддержка пользовательских действий (например, сохранить файл, нажать на базу данных, отправить уведомление, получить ручной ввод)
  • Способность к самокоррекции
  • Совместимость со всеми языковыми моделями, поддерживаемыми LangChain
  • Поддержка параллельного запуска нескольких агентов ИИ
  • Настраиваемые функции безопасности браузера
  • Функция постоянного хранения файлов cookie
  • Гибкие настройки времени ожидания загрузки страницы

 

Использование помощи

1. конфигурация установки

  1. Сначала установите пакет Browser-Use с помощью pip:
pip install browser-use
  1. (Необязательно) Установите драматурга:
playwright install
  1. Настройте переменные окружения:
    создать.envфайл и добавьте необходимые API-ключи:
OPENAI_API_KEY=你的OpenAI API密钥
ANTHROPIC_API_KEY=你的Anthropic API密钥

2. Основное использование

2.1 Создание простого агента искусственного интеллекта

from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
async def main():
agent = Agent(
task="查找特定航班信息",
llm=ChatOpenAI(model="gpt-4"),
)
result = await agent.run()
print(result)
asyncio.run(main())

2.2 Регистрация пользовательских действий

Пользовательские действия могут быть добавлены с помощью декораторов:

from browser_use.controller.service import Controller
controller = Controller()
@controller.action('询问用户信息')
def ask_human(question: str, display_question: bool) -> str:
return input(f'\n{question}\nInput: ')

2.3 Определение параметрических моделей с помощью Pydantic

from pydantic import BaseModel
from typing import Optional
class JobDetails(BaseModel):
title: str
company: str
job_link: str
salary: Optional[str] = None
@controller.action('保存职位详情', param_model=JobDetails, requires_browser=True)
async def save_job(params: JobDetails, browser: Browser):
print(params)
page = browser.get_current_page()
page.go_to(params.job_link)

3. Использование расширенных функций

3.1 Агенты распараллеливания

Рекомендуется использовать один экземпляр Browser и распараллеливать контекст для каждого агента:

browser = Browser()
for i in range(10):
async with browser.new_context() as context:
agent = Agent(
task=f"任务 {i}",
llm=model,
browser_context=context
)
# 处理任务...

3.2 Конфигурация браузера

Поведение браузера может быть настроено с помощью классов BrowserConfig и BrowserContextConfig:

browser_config = BrowserConfig(
headless=False,  # 是否使用无头模式
keep_open=True,  # 脚本结束后保持浏览器开启
disable_security=True,  # 禁用安全特性
cookies_file="cookies.json",  # Cookie存储文件
minimum_wait_page_load_time=1.0,  # 最小页面加载等待时间
wait_for_network_idle_page_load_time=2.0,  # 网络空闲等待时间
maximum_wait_page_load_time=10.0  # 最大页面加载等待时间
)

4. Рекомендации по оптимизации производительности

  1. Используйте соответствующее время ожидания загрузки страниц, чтобы избежать чрезмерного ожидания.
  2. Рациональное использование возможностей распараллеливания для повышения эффективности обработки
  3. Включайте безголовый режим, когда это необходимо, чтобы снизить потребление ресурсов.
  4. Сокращение дублирования аутентификации с помощью постоянства файлов cookie
  5. При необходимости отрегулируйте конфигурацию элементов безопасности

5. Устранение неполадок

  1. Если у вас возникли проблемы с междоменными запросами, попробуйте включитьdisable_securityопции (как в настройках компьютерного программного обеспечения)
  2. Таймаут загрузки страницы с настраиваемым параметром времени ожидания
  3. Убедитесь, что ключ API настроен правильно
  4. Проверьте состояние сетевого подключения
  5. Проверьте журнал консоли браузера, чтобы получить подробные сообщения об ошибках
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...