Browser-Use: создание интеллектуальных инструментов веб-автоматизации для ИИ-интеллектуалов, позволяющих легко управлять браузерами
Общее введение
Browser-Use - это инновационный инструмент автоматизации веб-пространства с открытым исходным кодом, специально разработанный для того, чтобы языковые модели (LLM) могли естественным образом взаимодействовать с веб-сайтами. Он предоставляет мощный и гибкий фреймворк, поддерживающий широкий спектр основных языковых моделей, включая GPT-4, Claude и другие. Наиболее примечательной особенностью инструмента является плавная интеграция возможностей ИИ с автоматизацией браузера, поддержка визуального распознавания и извлечения HTML, автоматическое управление страницами с несколькими вкладками, интеллектуальное определение элементов и т. д. Browser-Use не только выполняет простые задачи просмотра веб-страниц, но и обрабатывает сложные сценарии взаимодействия, такие как автоматическое заполнение форм, отправка заявок и поиск информации. Он разработан для того, чтобы агенты искусственного интеллекта могли использовать браузеры так же естественно, как и люди, что значительно упрощает процесс разработки веб-автоматики. Инструмент особенно подходит для разработчиков, которым необходимо выполнять веб-автоматизацию, сбор данных и пакетные операции.

Список функций
- Поддержка визуального распознавания и интеллектуального извлечения HTML-контента
- Автоматизированная система управления страницами с несколькими вкладками
- Извлекает XPath-пути щелкнутых элементов и воспроизводит точные операции LLM.
- Поддержка пользовательских действий (например, сохранить файл, нажать на базу данных, отправить уведомление, получить ручной ввод)
- Способность к самокоррекции
- Совместимость со всеми языковыми моделями, поддерживаемыми LangChain
- Поддержка параллельного запуска нескольких агентов ИИ
- Настраиваемые функции безопасности браузера
- Функция постоянного хранения файлов cookie
- Гибкие настройки времени ожидания загрузки страницы
Использование помощи
1. конфигурация установки
- Сначала установите пакет Browser-Use с помощью pip:
pip install browser-use
- (Необязательно) Установите драматурга:
playwright install
- Настройте переменные окружения:
создать.env
файл и добавьте необходимые API-ключи:
OPENAI_API_KEY=你的OpenAI API密钥
ANTHROPIC_API_KEY=你的Anthropic API密钥
2. Основное использование
2.1 Создание простого агента искусственного интеллекта
from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
async def main():
agent = Agent(
task="查找特定航班信息",
llm=ChatOpenAI(model="gpt-4"),
)
result = await agent.run()
print(result)
asyncio.run(main())
2.2 Регистрация пользовательских действий
Пользовательские действия могут быть добавлены с помощью декораторов:
from browser_use.controller.service import Controller
controller = Controller()
@controller.action('询问用户信息')
def ask_human(question: str, display_question: bool) -> str:
return input(f'\n{question}\nInput: ')
2.3 Определение параметрических моделей с помощью Pydantic
from pydantic import BaseModel
from typing import Optional
class JobDetails(BaseModel):
title: str
company: str
job_link: str
salary: Optional[str] = None
@controller.action('保存职位详情', param_model=JobDetails, requires_browser=True)
async def save_job(params: JobDetails, browser: Browser):
print(params)
page = browser.get_current_page()
page.go_to(params.job_link)
3. Использование расширенных функций
3.1 Агенты распараллеливания
Рекомендуется использовать один экземпляр Browser и распараллеливать контекст для каждого агента:
browser = Browser()
for i in range(10):
async with browser.new_context() as context:
agent = Agent(
task=f"任务 {i}",
llm=model,
browser_context=context
)
# 处理任务...
3.2 Конфигурация браузера
Поведение браузера может быть настроено с помощью классов BrowserConfig и BrowserContextConfig:
browser_config = BrowserConfig(
headless=False, # 是否使用无头模式
keep_open=True, # 脚本结束后保持浏览器开启
disable_security=True, # 禁用安全特性
cookies_file="cookies.json", # Cookie存储文件
minimum_wait_page_load_time=1.0, # 最小页面加载等待时间
wait_for_network_idle_page_load_time=2.0, # 网络空闲等待时间
maximum_wait_page_load_time=10.0 # 最大页面加载等待时间
)
4. Рекомендации по оптимизации производительности
- Используйте соответствующее время ожидания загрузки страниц, чтобы избежать чрезмерного ожидания.
- Рациональное использование возможностей распараллеливания для повышения эффективности обработки
- Включайте безголовый режим, когда это необходимо, чтобы снизить потребление ресурсов.
- Сокращение дублирования аутентификации с помощью постоянства файлов cookie
- При необходимости отрегулируйте конфигурацию элементов безопасности
5. Устранение неполадок
- Если у вас возникли проблемы с междоменными запросами, попробуйте включить
disable_security
опции (как в настройках компьютерного программного обеспечения) - Таймаут загрузки страницы с настраиваемым параметром времени ожидания
- Убедитесь, что ключ API настроен правильно
- Проверьте состояние сетевого подключения
- Проверьте журнал консоли браузера, чтобы получить подробные сообщения об ошибках
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...