Skyvern: автоматизация рабочих процессов на основе браузера с помощью LLM и компьютерного зрения

Общее введение

Skyvern - это инструмент для автоматизации рабочих процессов в браузере с использованием методов моделирования большого языка (LLM) и компьютерного зрения. Skyvern может заменить хрупкие или ненадежные решения по автоматизации, предоставляя простую конечную точку API, которая может эффективно автоматизировать ручные действия на большом количестве веб-сайтов. Skyvern может работать с веб-сайтами, которые никогда не были видны ранее, автоматически сопоставляя визуальные элементы с действиями, необходимыми для завершения рабочего процесса, без какого-либо пользовательского кода.

Skyvern - это что-то вроде BabyAGI и AutoGPT с возможностями видения, где несколько агентов полностью автоматизируют процесс обдумывания и выполнения задач.

Skyvern:使用LLM和计算机视觉自动化基于浏览器工作流

Опыт Skyvern Online: https://www.skyvern.com/

 

Список характеристик Skyvern

  • Автоматизация рабочих процессов браузера: Автоматизация различных задач в браузере с помощью LLM и методов компьютерного зрения.
  • Конечная точка API: Предоставляет простой интерфейс API для легкой интеграции и вызова.
  • Не требуется пользовательский код: Нет необходимости писать собственные скрипты для каждого сайта, адаптивность.
  • Сопротивление изменениям веб-разметки: Не зависит от фиксированного XPath или селектора и может работать с изменениями в макете страницы.
  • крупномасштабное применение: Возможность применения одного рабочего процесса к нескольким сайтам.
  • интеллектуальное взаимодействие: Рассуждения с использованием LLM для обработки сложных сценариев взаимодействия.

 

Использование помощи

Процесс установки

  1. Подготовка к защите окружающей среды::
    • Убедитесь, что у вас установлен Python 3.11 и выше.
    • Установите инструмент управления зависимостями Poetry.
    • Установите базу данных PostgreSQL.
    • Установите среду Node.js.
    • Поддержка развертывания Docker одним щелчком мыши
  2. клонировать исходный код::
    git clone https://github.com/skyvern-ai/skyvern.git
    cd skyvern
    
  3. Установка зависимостей::
    ./setup.sh
    
  4. Настройка переменных среды::
    • модификации .env файл, введите необходимый ключ API и параметры конфигурации.
  5. Начальные услуги::
    docker-compose up -d
    

задача визуализации

Как понять информацию, отображаемую Skyvern

Визуализация результатов

Skyvern поставляется с инструментом визуализации, который поможет вам понять, как выполняются ваши задачи. Сначала перейдите на страницу "История задач" и нажмите на любую задачу, чтобы просмотреть ее.

Skyvern:使用LLM和计算机视觉自动化基于浏览器工作流

 

буровая установка

Каждое действие, выполняемое Skyvern, можно просмотреть в окне просмотра действий, и оно сопровождается скриншотом состояния экрана после выполнения действия.

Skyvern:使用LLM和计算机视觉自动化基于浏览器工作流

 

запись (видео или аудио)

Каждое задание Skyvern содержит запись всей операции (из конца в конец). Чтобы просмотреть запись, перейдите на вкладку Записи.

Skyvern:使用LLM和计算机视觉自动化基于浏览器工作流

 

Параметры миссии

Параметры задачи - это входные данные, которые вы предоставляете Skyvern и которые включают URL-адреса, правила извлечения и любую другую необходимую информацию.

Skyvern:使用LLM和计算机视觉自动化基于浏览器工作流

 

Диагностический журнал

Вкладка Diagnostics содержит информацию, которую Skyvern использует для обработки, включая аннотированные скриншоты, скриншоты действий, деревья элементов, подсказки, списки действий, HTML-страницы и необработанные запросы Large Language Model (LLM).

Skyvern:使用LLM和计算机视觉自动化基于浏览器工作流

 

рабочий процесс

рабочий процесс - Связывание нескольких задач воедино

Рабочий процесс представляет собой соединение нескольких фрагментов данных вместе. Представьте себе последовательный вызов нескольких задач, выполнение условной логики, извлечение данных в CSV и т. д. Все эти идеи будут поддерживаться в нашей функциональности рабочих процессов.

Все наши рабочие процессы начинаются с YAML Определения форматов, но новая версия предоставляет графический интерфейс, позволяющий соединять несколько компонентов для получения определенного результата.

Skyvern:使用LLM和计算机视觉自动化基于浏览器工作流

 

Поддерживаемые модули

  1. TaskBlock: The магия Skyvern перемещается по веб-сайтам для выполнения действий и/или получения информации.
  2. ForLoopBlock
  3. CodeBlock
  4. TextPromptBlock
  5. DownloadToS3Block
  6. UploadToS3Block
  7. SendEmailBlock
  8. FileParserBlock

 

Входы целевого блока

  1. URL (обычно требуется). В идеале отправной точкой для Skyvern Agent является целевой веб-сайт, который вы хотите автоматизировать.
    • На экране рабочего процесса, если этот вход оставить пустым, он продолжит работу с того места, где остановился предыдущий узел. Цель навигации - установить или сбросить начальную точку агента.
    • Если вы вошли на сайт в первом блоке задания, во втором блоке вы можете оставить URL пустым, чтобы продолжить работу после входа в систему
  2. Навигационные цели (обычно требуется). Подробное описание того, куда Skyvern перемещается и какие действия выполняет. Четкая цель навигации должна представлять собой единую задачу, разбитую на шаги. Избегайте указания нескольких целей. Для указания завершения цели необходимо использовать "COMPLETE" или "TERMINATE" для прерывания цели!
    • Навигационная цель не используется для загрузки URL-адресов; требование Skyvern "Посетить сайт A" в этом поле не даст желаемого эффекта!
    • Завершение операции приведет к тому, что Skyvern объяснит причину остановки навигации
    • Вы можете опустить это поле, если хотите, чтобы Skyvern извлекал данные только без перехода в другое место.
  3. Цели извлечения данных (Необязательно). Есть ли какие-либо данные, извлекаемые и возвращаемые Skyvern, кроме навигационной позиции и действий Skyvern? Хорошие цели извлечения данных должны определять, какие данные Skyvern возвращает пользователю
    • Обратите внимание, что извлечение данных происходит только после завершения навигации Skyvern!
  4. Способ извлечения информации (Необязательно). Если у вас есть цели извлечения данных, некоторым пользователям могут понадобиться данные в определенном формате для внутренних целей. При загрузке навигации принимается спецификация формата JSON для форматирования возвращаемых данных
  5. Максимальное количество пройденных шагов (Необязательно). Некоторые пользователи хотят ограничить расходы по количеству шагов в задаче.
  6. Максимальное количество повторных попыток (Необязательно). Количество повторных попыток, разрешенных при неудачном выполнении шага
  7. Загрузка завершена, и все готово (Необязательно). Разрешить Skyvern выполнять задания после загрузки файла
  8. Суффикс файла (Необязательно). Идентификаторы, прикрепленные к загруженным файлам
  9. TOTP URL и TOTP Identifier (Необязательно). Если у вас есть внутренняя система, которая может хранить код TOTP для 2FA, этот URL-адрес вызывает это хранилище. Идентификатор связывает код с заданием, что важно, если вы выполняете несколько заданий одновременно. Если вы хотите настроить получение 2FA в рабочем процессе, то в качестве параметра Пожалуйста, свяжитесь с нами.
  10. параметры (Необязательно). Параметры - это пользовательские заполнители, которые задают параметры выполнения. Это могут быть параметры рабочего процесса, переданные через вызов API, или выходные параметры, взятые из предыдущего блока задач. Если эти параметры указаны, они будут использоваться Skyvern для облегчения навигации, заполнения форм или дальнейшего влияния на действия на сайте.

 

 

 

Поток использования API для задач (пример)

API Tasks полностью документирован на сайте

  1. Создание заданий::
    • Создайте задачу через конечную точку API, указав целевой URL и цель операции.
    • Пример запроса:
      {
      "url": "https://example.com",
      "navigation_goal": "填写表单并提交",
      "data_extraction_goal": "提取提交后的确认信息"
      }
  2. Задачи мониторинга::
    • Используйте функцию мониторинга в реальном времени, предоставляемую Skyvern, чтобы узнать, как выполняются задания.
    • Доступ через браузер http://localhost:8080 Просмотр операций в режиме реального времени.
  3. извлечение данных::
    • Укажите режим и формат извлечения данных, и Skyvern автоматически извлечет и вернет данные.
    • Пример запроса:
      {
      "url": "https://example.com/data",
      "data_extraction_schema": {
      "name": "string",
      "email": "string",
      "phone": "string"
      }
      }
  4. Скачать файл::
    • Укажите цель загрузки файла, и Skyvern автоматически загрузит файл и предоставит ссылку на скачивание.
    • Пример запроса:
      {
      "url": "https://example.com/files",
      "file_download_goal": "下载所有PDF文件"
      }

 

общие проблемы

  • Как осуществляется аутентификация? Skyvern поддерживает несколько методов аутентификации, включая интеграцию менеджера паролей и многофакторную аутентификацию (2FA). При создании задачи navigation_payload Предоставьте идентификационную информацию.
  • Как вы справляетесь со сложными многоступенчатыми рабочими процессами? Skyvern поддерживает объединение нескольких задач в рабочий процесс, последовательно выполняя каждую из них через конечные точки API для завершения сложных операционных процессов.
© заявление об авторских правах

Похожие статьи

Hoarder:开源 AI 书签管理工具,支持多种格式文件,智能标签分类、全文检索

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...