Maxun: платформа с открытым исходным кодом, которая автоматически просматривает веб-данные и преобразует их в API или электронные таблицы.
Общее введение
Maxun - это платформа для извлечения веб-данных с открытым исходным кодом, которая позволяет пользователям за считанные минуты обучить роботов автоматическому сканированию веб-данных и преобразованию их в API или электронные таблицы. Платформа поддерживает пагинацию и прокрутку, может адаптироваться к изменениям в макете веб-сайта и предоставляет мощные функции для извлечения данных для различных нужд.


Список функций
- Извлечение данных без кода: не нужно писать код для просмотра данных веб-страницы
- Автоматизированное наползание данных: роботы автоматизируют задачи по наползанию данных
- Генерация API: преобразование полученных данных в API
- Преобразование в электронную таблицу: экспорт захваченных данных в электронную таблицу
- Поддержка пагинации и прокрутки: работа с многостраничными данными и данными на длинных страницах
- Адаптация к изменениям макета сайта: автоматическая адаптация к изменениям макета страницы
- Поддержка авторизации и двухфакторной аутентификации: сбор данных с сайтов, требующих авторизации (скоро)
- Интеграция с Google Sheets: импорт данных непосредственно в Google Sheets
- Поддержка прокси-серверов: используйте внешние прокси-серверы для обхода защиты от ботов
Использование помощи
Процесс установки
Установка с помощью Docker Compose
- Хранилище проектов клонирования:
git clone https://github.com/getmaxun/maxun
- Перейдите в каталог проектов:
cd maxun
- Создайте и запустите службу с помощью Docker Compose:
docker-compose up -d --build
ручная установка
- Убедитесь, что в вашей системе установлены Node.js, PostgreSQL, MinIO и Redis.
- Хранилище проектов клонирования:
git clone https://github.com/getmaxun/maxun
- Перейдите в каталог проекта и установите зависимости:
cd maxun
npm install
cd maxun-core
npm install
- Запустите внешние и внутренние сервисы:
npm run start
- Внешняя служба будет работать на http://localhost:5173/, а внутренняя - на http://localhost:8080/.
Руководство по использованию
- Создание роботов::
- После входа в платформу нажмите на кнопку "Создать бота".
- Выберите тип данных для захвата (список, текст или снимок экрана).
- Настройте правила наползания, такие как целевой URL, частота наполнения и т. д.
- Сохраните и запустите робота, который автоматически выполнит задачу захвата данных.
- Экспорт данных::
- После завершения миссии бота перейдите на страницу подробностей миссии.
- Выберите формат экспорта (API или электронная таблица).
- Нажмите кнопку "Экспорт", чтобы загрузить данные или получить ссылку на API.
- Работа с пагинацией и прокруткой::
- Настройте параметры пагинации и прокрутки при создании бота.
- Робот автоматически обрабатывает многостраничные данные и данные с длинными страницами, чтобы обеспечить целостность данных.
- Адаптация к изменениям макета сайта::
- В платформу встроены интеллектуальные алгоритмы, которые автоматически адаптируются к изменениям в макете страницы.
- Нет необходимости вручную настраивать правила переползания, робот автоматически адаптируется к изменениям.
- Интеграция с Google Sheets::
- В разделе "Настройки платформы" настройте интеграцию с Google Sheets.
- Данные, захваченные роботом, будут автоматически импортированы в указанную форму Google Sheets.
- Использование прокси-серверов::
- В разделе "Настройки платформы" настройте внешнего агента.
- Робот будет выполнять задачу захвата через прокси-сервер, обходя защиту от роботов.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...