Nanobrowser: мультиинтеллектуальный плагин для автоматизации задач в браузерах

Общее введение

Nanobrowser - это расширение для Chrome с открытым исходным кодом, предназначенное для автоматизации веб-задач с помощью мультиагентной системы на базе ИИ. Это бесплатная альтернатива OpenAI Operator, которую пользователи могут использовать, просто предоставив свой API-ключ LLM (Large Language Model), с поддержкой OpenAI и антропных моделей, а в будущем планируется расширение возможностей. Все операции выполняются в локальном браузере, без передачи данных в облако, что обеспечивает конфиденциальность и безопасность. Nanobrowser решает задачи от простого поиска до сложных процессов благодаря совместной работе трех агентов: Planner, Navigator и Validator. Код проекта размещен на GitHub с активным сообществом, где пользователи могут участвовать в обсуждениях и вносить свой вклад через Discord или X.

Nanobrowser:浏览器中实现任务自动化的多智能插件

 

Список функций

  • мультиагентная системаПланировщик разрабатывает стратегии, Навигатор выполняет операции, а Валидатор проверяет результаты, сотрудничая в решении сложных задач.
  • Гибкая поддержка LLM: Поддержка OpenAI и Anthropic позволяет пользователям выбирать различные модели для разных агентов.
  • локальная операция:: Обработка данных осуществляется локально для защиты конфиденциальности пользователя.
  • Автоматизация задач:: Выполнение веб-поиска, заполнение форм, извлечение данных и т. д.
  • Интерактивная боковая панель:: Предоставьте интерфейс чата с обновлением статуса в режиме реального времени.
  • Диалог с историей:: Ведение записей о задачах для последующего просмотра и управления.
  • открытый исходный код и прозрачность: Код открыт для просмотра и улучшения.
  • Последующие вопросы:: Поддержка контекстных вопросов по результатам выполнения заданий.

 

Использование помощи

Процесс установки

Nanobrowser доступен в виде расширения для Chrome, которое предлагает два варианта установки: загрузку готовой версии напрямую или сборку из исходников.

Способ 1: Непосредственная установка предварительно собранной версии

  1. Скачать расширения
    • интервью https://github.com/nanobrowser/nanobrowser/releases.
    • Найдите последнюю версию (например, v1.0.0) на странице "Релизы".
    • Загрузите файл под названием "nanobrowser.zip".
  2. Распакуйте файл
    • Распакуйте файл "nanobrowser.zip" в локальную папку (например, в папку "nanobrowser").
  3. Загрузка в Chrome
    • Откройте Chrome и введитеchrome://extensions/.
    • Включите "Режим разработчика" в правом верхнем углу.
    • Нажмите на кнопку "Загрузить распакованное" в левом верхнем углу.
    • Выберите распакованную папку "nanobrowser" и нажмите "Выбрать папку".
    • После успешной установки на панели инструментов Chrome появится значок Nanobrowser.
  4. Настройка ключа API
    • Щелкните значок Nanobrowser на панели инструментов, чтобы открыть боковую панель.
    • Нажмите на значок "Настройки" в правом верхнем углу.
    • Введите свой API-ключ LLM (его можно получить на сайтах OpenAI или Anthropic).
    • Выберите модели для Planner, Navigator, Validator (например, GPT-4o от OpenAI или Claude от Anthropic).
    • Сохраните настройки, чтобы завершить конфигурацию.

Метод 2: Сборка из исходного кода

  1. Подготовка среды
    • монтаж Node.js(v22.12.0 или более поздняя версия).
    • монтаж pnpm(версия 9.15.1 или более поздняя).
  2. склад клонов
    • Откройте терминал и введите следующую команду:
      git clone https://github.com/nanobrowser/nanobrowser.git
      cd nanobrowser
      
  3. Установка зависимостей
    • Вход:
      pnpm install
      
  4. Пристройки к зданиям
    • Вход:
      pnpm build
      
    • После завершения сборки в папке "dist" появятся файлы расширения.
  5. Загрузка в Chrome
    • Выполните шаг 3 в "Методе 1", чтобы загрузить папку "dist".
  6. Режим разработки (опционально)
    • Если требуется отладка в реальном времени, запустите его:
      pnpm dev
      

Как использовать основные функции

1. автоматизация мандатов

  • рабочий процесс:
    • Щелкните значок Nanobrowser на панели инструментов, чтобы открыть боковую панель.
    • Введите команду задачи в поле ввода, например, "Перейти на TechCrunch и извлечь 10 лучших заголовков за последние 24 часа".
    • Нажмите "Выполнить", чтобы запустить мультиагентную систему:
      • Планировщик: Составьте план задач, например, откройте TechCrunch и найдите область заголовков.
      • Навигатор:: Выполнение веб-навигации и извлечение данных.
      • Валидатор:: Соответствие результатов проверки требованиям.
    • Результаты отображаются на боковой панели, которая поддерживает копирование или последующие вопросы.
  • Сценарии использования:
    • Сводка новостей: Извлекает самую свежую информацию с определенного веб-сайта.
    • Исследование покупок:: Найдите на Amazon "водонепроницаемый bluetooth-динамик, менее $50, с более чем 10 часами автономной работы".
    • Исследование кода: Найдите самые популярные репозитории Python на GitHub.

2. Модель агента конфигурации

  • рабочий процесс:
    • Откройте боковую панель и нажмите на "Настройки".
    • Введите ключ API и выберите модель, например:
    • Нажмите "Сохранить", чтобы проверить успешность подключения.
  • привлекать внимание к чему-л.:
    • Разные модели подходят для разных задач, и для повышения эффективности рекомендуется пробовать их сочетания.
    • Убедитесь, что ключ API действителен, чтобы избежать прерывания выполнения задания.

3. Просмотр и управление историей диалогов

  • рабочий процесс:
    • Выберите История разговоров на боковой панели.
    • Отображает список заданий с указанием времени, инструкций и результатов.
    • Нажмите на запись, чтобы просмотреть подробности, или выберите "Повторить", чтобы запустить ее снова.
  • практический навык:
    • Экспортируйте историю в файл JSON для удобства резервного копирования.
    • Изучите журналы неудачных заданий и оптимизируйте инструкции или модели.

4. последующие вопросы

  • рабочий процесс:
    • После выполнения задания введите в боковую панель вопрос, например "Какие из этих заголовков связаны с искусственным интеллектом?". .
    • Система отвечает, основываясь на предыдущих результатах, без необходимости повторного выполнения всего задания.
  • доминирование:
    • Повышенная эффективность взаимодействия и пригодность для углубленного анализа.

Функциональное управление

мультиагентная система

  • Как испытать:
    • Введите сложные команды, например "Найти 5 самых популярных моделей ИИ на HuggingFace и составить список".
    • Планировщик разбивает задачу, Навигатор извлекает данные, а Валидатор проверяет их точность.
    • Результаты возвращаются в структурированном виде.
  • доминирование:
    • Динамическая коррекция ошибок: планировщик корректирует свою стратегию, когда сталкивается с препятствиями.
    • Эффективная совместная работа: экономьте время, обрабатывая три агента параллельно.

Локальное управление и защита конфиденциальности

  • Как проверить:
    • Откройте Chrome Developer Tools (F12) и переключитесь на вкладку "Сеть".
    • При выполнении задания видны только вызовы LLM API, без других внешних запросов.
  • пробег:
    • Учетные данные пользователей и конфиденциальная информация не загружаются в облако, что делает его безопасным и надежным.

Интерактивная боковая панель

  • Как использовать:
    • При открытии боковой панели в режиме реального времени отображается ход выполнения задания (например, "Навигация", "Проверка").
    • Поддержка корректировки команд или остановки заданий на полпути.
  • особенности:
    • Интерфейс интуитивно понятен и подходит как для начинающих, так и для профессиональных пользователей.

предостережение

  • сетевые требования: Для вызова LLM API требуется стабильная сеть.
  • Рекомендации по аппаратному обеспечению:: Работает лучше на высокопроизводительном оборудовании.
  • Поддержка общества:: Присоединяйтесь, если у вас есть проблемы Дискорд или внимание X Обратитесь за помощью.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...