Maxun: платформа с открытым исходным кодом, которая автоматически просматривает веб-данные и преобразует их в API или электронные таблицы.

Общее введение

Maxun - это платформа для извлечения веб-данных с открытым исходным кодом, которая позволяет пользователям за считанные минуты обучить роботов автоматическому сканированию веб-данных и преобразованию их в API или электронные таблицы. Платформа поддерживает пагинацию и прокрутку, может адаптироваться к изменениям в макете веб-сайта и предоставляет мощные функции для извлечения данных для различных нужд.

Maxun:开源无代码平台,自动抓取网页数据并转换为API或电子表格

 

Maxun:开源无代码平台,自动抓取网页数据并转换为API或电子表格

 

Список функций

  • Извлечение данных без кода: не нужно писать код для просмотра данных веб-страницы
  • Автоматизированное наползание данных: роботы автоматизируют задачи по наползанию данных
  • Генерация API: преобразование полученных данных в API
  • Преобразование в электронную таблицу: экспорт захваченных данных в электронную таблицу
  • Поддержка пагинации и прокрутки: работа с многостраничными данными и данными на длинных страницах
  • Адаптация к изменениям макета сайта: автоматическая адаптация к изменениям макета страницы
  • Поддержка авторизации и двухфакторной аутентификации: сбор данных с сайтов, требующих авторизации (скоро)
  • Интеграция с Google Sheets: импорт данных непосредственно в Google Sheets
  • Поддержка прокси-серверов: используйте внешние прокси-серверы для обхода защиты от ботов

 

Использование помощи

Процесс установки

Установка с помощью Docker Compose

  1. Хранилище проектов клонирования:
   git clone https://github.com/getmaxun/maxun
  1. Перейдите в каталог проектов:
   cd maxun
  1. Создайте и запустите службу с помощью Docker Compose:
   docker-compose up -d --build

ручная установка

  1. Убедитесь, что в вашей системе установлены Node.js, PostgreSQL, MinIO и Redis.
  2. Хранилище проектов клонирования:
   git clone https://github.com/getmaxun/maxun
  1. Перейдите в каталог проекта и установите зависимости:
   cd maxun
npm install
cd maxun-core
npm install
  1. Запустите внешние и внутренние сервисы:
   npm run start
  1. Внешняя служба будет работать на http://localhost:5173/, а внутренняя - на http://localhost:8080/.

Руководство по использованию

  1. Создание роботов::
    • После входа в платформу нажмите на кнопку "Создать бота".
    • Выберите тип данных для захвата (список, текст или снимок экрана).
    • Настройте правила наползания, такие как целевой URL, частота наполнения и т. д.
    • Сохраните и запустите робота, который автоматически выполнит задачу захвата данных.
  2. Экспорт данных::
    • После завершения миссии бота перейдите на страницу подробностей миссии.
    • Выберите формат экспорта (API или электронная таблица).
    • Нажмите кнопку "Экспорт", чтобы загрузить данные или получить ссылку на API.
  3. Работа с пагинацией и прокруткой::
    • Настройте параметры пагинации и прокрутки при создании бота.
    • Робот автоматически обрабатывает многостраничные данные и данные с длинными страницами, чтобы обеспечить целостность данных.
  4. Адаптация к изменениям макета сайта::
    • В платформу встроены интеллектуальные алгоритмы, которые автоматически адаптируются к изменениям в макете страницы.
    • Нет необходимости вручную настраивать правила переползания, робот автоматически адаптируется к изменениям.
  5. Интеграция с Google Sheets::
    • В разделе "Настройки платформы" настройте интеграцию с Google Sheets.
    • Данные, захваченные роботом, будут автоматически импортированы в указанную форму Google Sheets.
  6. Использование прокси-серверов::
    • В разделе "Настройки платформы" настройте внешнего агента.
    • Робот будет выполнять задачу захвата через прокси-сервер, обходя защиту от роботов.
© заявление об авторских правах

Похожие статьи

Napkin:将文字转换为效果出众的概念示意图,文章快速制作插图

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...