Nanobrowser: мультиинтеллектуальный плагин для автоматизации задач в браузерах

Последние ресурсы по искусственному интеллектуОбновлено 12 месяцев назад Круг обмена ИИ

80.9K 00

Общее введение

Nanobrowser - это расширение для Chrome с открытым исходным кодом, предназначенное для автоматизации веб-задач с помощью мультиагентной системы на базе ИИ. Это бесплатная альтернатива OpenAI Operator, которую пользователи могут использовать, просто предоставив свой API-ключ LLM (Large Language Model), с поддержкой OpenAI и антропных моделей, а в будущем планируется расширение возможностей. Все операции выполняются в локальном браузере, без передачи данных в облако, что обеспечивает конфиденциальность и безопасность. Nanobrowser решает задачи от простого поиска до сложных процессов благодаря совместной работе трех агентов: Planner, Navigator и Validator. Код проекта размещен на GitHub с активным сообществом, где пользователи могут участвовать в обсуждениях и вносить свой вклад через Discord или X.

Список функций

мультиагентная системаПланировщик разрабатывает стратегии, Навигатор выполняет операции, а Валидатор проверяет результаты, сотрудничая в решении сложных задач.
Гибкая поддержка LLM: Поддержка OpenAI и Anthropic позволяет пользователям выбирать различные модели для разных агентов.
локальная операция:: Обработка данных осуществляется локально для защиты конфиденциальности пользователя.
Автоматизация задач:: Выполнение веб-поиска, заполнение форм, извлечение данных и т. д.
Интерактивная боковая панель:: Предоставьте интерфейс чата с обновлением статуса в режиме реального времени.
Диалог с историей:: Ведение записей о задачах для последующего просмотра и управления.
открытый исходный код и прозрачность: Код открыт для просмотра и улучшения.
Последующие вопросы:: Поддержка контекстных вопросов по результатам выполнения заданий.

Использование помощи

Процесс установки

Nanobrowser доступен в виде расширения для Chrome, которое предлагает два варианта установки: загрузку готовой версии напрямую или сборку из исходников.

Способ 1: Непосредственная установка предварительно собранной версии

Скачать расширения
- интервью https://github.com/nanobrowser/nanobrowser/releases.
- Найдите последнюю версию (например, v1.0.0) на странице "Релизы".
- Загрузите файл под названием "nanobrowser.zip".
Распакуйте файл
- Распакуйте файл "nanobrowser.zip" в локальную папку (например, в папку "nanobrowser").
Загрузка в Chrome
- Откройте Chrome и введитеchrome://extensions/.
- Включите "Режим разработчика" в правом верхнем углу.
- Нажмите на кнопку "Загрузить распакованное" в левом верхнем углу.
- Выберите распакованную папку "nanobrowser" и нажмите "Выбрать папку".
- После успешной установки на панели инструментов Chrome появится значок Nanobrowser.
Настройка ключа API
- Щелкните значок Nanobrowser на панели инструментов, чтобы открыть боковую панель.
- Нажмите на значок "Настройки" в правом верхнем углу.
- Введите свой API-ключ LLM (его можно получить на сайтах OpenAI или Anthropic).
- Выберите модели для Planner, Navigator, Validator (например, GPT-4o от OpenAI или Claude от Anthropic).
- Сохраните настройки, чтобы завершить конфигурацию.

Метод 2: Сборка из исходного кода

Подготовка среды
- монтаж Node.js(v22.12.0 или более поздняя версия).
- монтаж pnpm(версия 9.15.1 или более поздняя).
склад клонов
- Откройте терминал и введите следующую команду:
```
git clone https://github.com/nanobrowser/nanobrowser.git
cd nanobrowser
```
Установка зависимостей
- Вход:
```
pnpm install
```
Пристройки к зданиям
- Вход:
```
pnpm build
```
- После завершения сборки в папке "dist" появятся файлы расширения.
Загрузка в Chrome
- Выполните шаг 3 в "Методе 1", чтобы загрузить папку "dist".
Режим разработки (опционально)
- Если требуется отладка в реальном времени, запустите его:
```
pnpm dev
```

Как использовать основные функции

1. автоматизация мандатов

рабочий процесс:
- Щелкните значок Nanobrowser на панели инструментов, чтобы открыть боковую панель.
- Введите команду задачи в поле ввода, например, "Перейти на TechCrunch и извлечь 10 лучших заголовков за последние 24 часа".
- Нажмите "Выполнить", чтобы запустить мультиагентную систему:
  - Планировщик: Составьте план задач, например, откройте TechCrunch и найдите область заголовков.
  - Навигатор:: Выполнение веб-навигации и извлечение данных.
  - Валидатор:: Соответствие результатов проверки требованиям.
- Результаты отображаются на боковой панели, которая поддерживает копирование или последующие вопросы.
Сценарии использования:
- Сводка новостей: Извлекает самую свежую информацию с определенного веб-сайта.
- Исследование покупок:: Найдите на Amazon "водонепроницаемый bluetooth-динамик, менее $50, с более чем 10 часами автономной работы".
- Исследование кода: Найдите самые популярные репозитории Python на GitHub.

2. Модель агента конфигурации

рабочий процесс:
- Откройте боковую панель и нажмите на "Настройки".
- Введите ключ API и выберите модель, например:
  - Планировщик: OpenAI GPT-4o
  - Навигатор. Антропология Клод 3.5 Сонет
  - Валидатор: OpenAI GPT-3.5
- Нажмите "Сохранить", чтобы проверить успешность подключения.
привлекать внимание к чему-л.:
- Разные модели подходят для разных задач, и для повышения эффективности рекомендуется пробовать их сочетания.
- Убедитесь, что ключ API действителен, чтобы избежать прерывания выполнения задания.

3. Просмотр и управление историей диалогов

рабочий процесс:
- Выберите История разговоров на боковой панели.
- Отображает список заданий с указанием времени, инструкций и результатов.
- Нажмите на запись, чтобы просмотреть подробности, или выберите "Повторить", чтобы запустить ее снова.
практический навык:
- Экспортируйте историю в файл JSON для удобства резервного копирования.
- Изучите журналы неудачных заданий и оптимизируйте инструкции или модели.

4. последующие вопросы

рабочий процесс:
- После выполнения задания введите в боковую панель вопрос, например "Какие из этих заголовков связаны с искусственным интеллектом?". .
- Система отвечает, основываясь на предыдущих результатах, без необходимости повторного выполнения всего задания.
доминирование:
- Повышенная эффективность взаимодействия и пригодность для углубленного анализа.

Функциональное управление

мультиагентная система

Как испытать:
- Введите сложные команды, например "Найти 5 самых популярных моделей ИИ на HuggingFace и составить список".
- Планировщик разбивает задачу, Навигатор извлекает данные, а Валидатор проверяет их точность.
- Результаты возвращаются в структурированном виде.
доминирование:
- Динамическая коррекция ошибок: планировщик корректирует свою стратегию, когда сталкивается с препятствиями.
- Эффективная совместная работа: экономьте время, обрабатывая три агента параллельно.

Локальное управление и защита конфиденциальности

Как проверить:
- Откройте Chrome Developer Tools (F12) и переключитесь на вкладку "Сеть".
- При выполнении задания видны только вызовы LLM API, без других внешних запросов.
пробег:
- Учетные данные пользователей и конфиденциальная информация не загружаются в облако, что делает его безопасным и надежным.

Интерактивная боковая панель

Как использовать:
- При открытии боковой панели в режиме реального времени отображается ход выполнения задания (например, "Навигация", "Проверка").
- Поддержка корректировки команд или остановки заданий на полпути.
особенности:
- Интерфейс интуитивно понятен и подходит как для начинающих, так и для профессиональных пользователей.

предостережение

сетевые требования: Для вызова LLM API требуется стабильная сеть.
Рекомендации по аппаратному обеспечению:: Работает лучше на высокопроизводительном оборудовании.
Поддержка общества:: Присоединяйтесь, если у вас есть проблемы Дискорд или внимание X Обратитесь за помощью.