Nanobrowser: мультиинтеллектуальный плагин для автоматизации задач в браузерах
Общее введение
Nanobrowser - это расширение для Chrome с открытым исходным кодом, предназначенное для автоматизации веб-задач с помощью мультиагентной системы на базе ИИ. Это бесплатная альтернатива OpenAI Operator, которую пользователи могут использовать, просто предоставив свой API-ключ LLM (Large Language Model), с поддержкой OpenAI и антропных моделей, а в будущем планируется расширение возможностей. Все операции выполняются в локальном браузере, без передачи данных в облако, что обеспечивает конфиденциальность и безопасность. Nanobrowser решает задачи от простого поиска до сложных процессов благодаря совместной работе трех агентов: Planner, Navigator и Validator. Код проекта размещен на GitHub с активным сообществом, где пользователи могут участвовать в обсуждениях и вносить свой вклад через Discord или X.

Список функций
- мультиагентная системаПланировщик разрабатывает стратегии, Навигатор выполняет операции, а Валидатор проверяет результаты, сотрудничая в решении сложных задач.
- Гибкая поддержка LLM: Поддержка OpenAI и Anthropic позволяет пользователям выбирать различные модели для разных агентов.
- локальная операция:: Обработка данных осуществляется локально для защиты конфиденциальности пользователя.
- Автоматизация задач:: Выполнение веб-поиска, заполнение форм, извлечение данных и т. д.
- Интерактивная боковая панель:: Предоставьте интерфейс чата с обновлением статуса в режиме реального времени.
- Диалог с историей:: Ведение записей о задачах для последующего просмотра и управления.
- открытый исходный код и прозрачность: Код открыт для просмотра и улучшения.
- Последующие вопросы:: Поддержка контекстных вопросов по результатам выполнения заданий.
Использование помощи
Процесс установки
Nanobrowser доступен в виде расширения для Chrome, которое предлагает два варианта установки: загрузку готовой версии напрямую или сборку из исходников.
Способ 1: Непосредственная установка предварительно собранной версии
- Скачать расширения
- интервью
https://github.com/nanobrowser/nanobrowser/releases
. - Найдите последнюю версию (например, v1.0.0) на странице "Релизы".
- Загрузите файл под названием "nanobrowser.zip".
- интервью
- Распакуйте файл
- Распакуйте файл "nanobrowser.zip" в локальную папку (например, в папку "nanobrowser").
- Загрузка в Chrome
- Откройте Chrome и введите
chrome://extensions/
. - Включите "Режим разработчика" в правом верхнем углу.
- Нажмите на кнопку "Загрузить распакованное" в левом верхнем углу.
- Выберите распакованную папку "nanobrowser" и нажмите "Выбрать папку".
- После успешной установки на панели инструментов Chrome появится значок Nanobrowser.
- Откройте Chrome и введите
- Настройка ключа API
- Щелкните значок Nanobrowser на панели инструментов, чтобы открыть боковую панель.
- Нажмите на значок "Настройки" в правом верхнем углу.
- Введите свой API-ключ LLM (его можно получить на сайтах OpenAI или Anthropic).
- Выберите модели для Planner, Navigator, Validator (например, GPT-4o от OpenAI или Claude от Anthropic).
- Сохраните настройки, чтобы завершить конфигурацию.
Метод 2: Сборка из исходного кода
- Подготовка среды
- склад клонов
- Откройте терминал и введите следующую команду:
git clone https://github.com/nanobrowser/nanobrowser.git cd nanobrowser
- Откройте терминал и введите следующую команду:
- Установка зависимостей
- Вход:
pnpm install
- Вход:
- Пристройки к зданиям
- Вход:
pnpm build
- После завершения сборки в папке "dist" появятся файлы расширения.
- Вход:
- Загрузка в Chrome
- Выполните шаг 3 в "Методе 1", чтобы загрузить папку "dist".
- Режим разработки (опционально)
- Если требуется отладка в реальном времени, запустите его:
pnpm dev
- Если требуется отладка в реальном времени, запустите его:
Как использовать основные функции
1. автоматизация мандатов
- рабочий процесс:
- Щелкните значок Nanobrowser на панели инструментов, чтобы открыть боковую панель.
- Введите команду задачи в поле ввода, например, "Перейти на TechCrunch и извлечь 10 лучших заголовков за последние 24 часа".
- Нажмите "Выполнить", чтобы запустить мультиагентную систему:
- Планировщик: Составьте план задач, например, откройте TechCrunch и найдите область заголовков.
- Навигатор:: Выполнение веб-навигации и извлечение данных.
- Валидатор:: Соответствие результатов проверки требованиям.
- Результаты отображаются на боковой панели, которая поддерживает копирование или последующие вопросы.
- Сценарии использования:
- Сводка новостей: Извлекает самую свежую информацию с определенного веб-сайта.
- Исследование покупок:: Найдите на Amazon "водонепроницаемый bluetooth-динамик, менее $50, с более чем 10 часами автономной работы".
- Исследование кода: Найдите самые популярные репозитории Python на GitHub.
2. Модель агента конфигурации
- рабочий процесс:
- Откройте боковую панель и нажмите на "Настройки".
- Введите ключ API и выберите модель, например:
- Планировщик: OpenAI GPT-4o
- Навигатор. АнтропологияКлод 3.5 Сонет
- Валидатор: OpenAI GPT-3.5
- Нажмите "Сохранить", чтобы проверить успешность подключения.
- привлекать внимание к чему-л.:
- Разные модели подходят для разных задач, и для повышения эффективности рекомендуется пробовать их сочетания.
- Убедитесь, что ключ API действителен, чтобы избежать прерывания выполнения задания.
3. Просмотр и управление историей диалогов
- рабочий процесс:
- Выберите История разговоров на боковой панели.
- Отображает список заданий с указанием времени, инструкций и результатов.
- Нажмите на запись, чтобы просмотреть подробности, или выберите "Повторить", чтобы запустить ее снова.
- практический навык:
- Экспортируйте историю в файл JSON для удобства резервного копирования.
- Изучите журналы неудачных заданий и оптимизируйте инструкции или модели.
4. последующие вопросы
- рабочий процесс:
- После выполнения задания введите в боковую панель вопрос, например "Какие из этих заголовков связаны с искусственным интеллектом?". .
- Система отвечает, основываясь на предыдущих результатах, без необходимости повторного выполнения всего задания.
- доминирование:
- Повышенная эффективность взаимодействия и пригодность для углубленного анализа.
Функциональное управление
мультиагентная система
- Как испытать:
- Введите сложные команды, например "Найти 5 самых популярных моделей ИИ на HuggingFace и составить список".
- Планировщик разбивает задачу, Навигатор извлекает данные, а Валидатор проверяет их точность.
- Результаты возвращаются в структурированном виде.
- доминирование:
- Динамическая коррекция ошибок: планировщик корректирует свою стратегию, когда сталкивается с препятствиями.
- Эффективная совместная работа: экономьте время, обрабатывая три агента параллельно.
Локальное управление и защита конфиденциальности
- Как проверить:
- Откройте Chrome Developer Tools (F12) и переключитесь на вкладку "Сеть".
- При выполнении задания видны только вызовы LLM API, без других внешних запросов.
- пробег:
- Учетные данные пользователей и конфиденциальная информация не загружаются в облако, что делает его безопасным и надежным.
Интерактивная боковая панель
- Как использовать:
- При открытии боковой панели в режиме реального времени отображается ход выполнения задания (например, "Навигация", "Проверка").
- Поддержка корректировки команд или остановки заданий на полпути.
- особенности:
- Интерфейс интуитивно понятен и подходит как для начинающих, так и для профессиональных пользователей.
предостережение
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...