综合介绍
Maxun是一个开源的无代码网页数据提取平台,用户可以在几分钟内训练机器人,自动抓取网页数据并将其转换为API或电子表格。该平台支持分页和滚动,能够适应网站布局的变化,提供强大的数据抓取功能,适用于各种数据提取需求。
功能列表
- 无代码数据提取:无需编写代码即可抓取网页数据
- 自动化数据抓取:机器人自动执行数据抓取任务
- API生成:将抓取的数据转换为API
- 电子表格转换:将抓取的数据导出为电子表格
- 分页和滚动支持:处理多页数据和长页面数据
- 适应网站布局变化:自动适应网页布局的变化
- 登录和双因素认证支持:抓取需要登录的网站数据(即将推出)
- 集成Google Sheets:直接将数据导入Google Sheets
- 代理支持:使用外部代理绕过反机器人保护
使用帮助
安装流程
使用Docker Compose安装
- 克隆项目仓库:
git clone https://github.com/getmaxun/maxun
- 进入项目目录:
cd maxun
- 使用Docker Compose构建并启动服务:
docker-compose up -d --build
手动安装
- 确保系统已安装Node.js、PostgreSQL、MinIO和Redis。
- 克隆项目仓库:
git clone https://github.com/getmaxun/maxun
- 进入项目目录并安装依赖:
cd maxun
npm install
cd maxun-core
npm install
- 启动前端和后端服务:
npm run start
- 前端服务将运行在http://localhost:5173/,后端服务将运行在http://localhost:8080/。
使用指南
- 创建机器人:
- 登录平台后,点击“创建机器人”按钮。
- 选择需要抓取的数据类型(列表、文本或截图)。
- 配置抓取规则,如目标URL、抓取频率等。
- 保存并启动机器人,机器人将自动执行数据抓取任务。
- 数据导出:
- 在机器人任务完成后,进入任务详情页面。
- 选择导出格式(API或电子表格)。
- 点击“导出”按钮,下载数据或获取API链接。
- 处理分页和滚动:
- 在创建机器人时,配置分页和滚动选项。
- 机器人将自动处理多页数据和长页面数据,确保数据完整性。
- 适应网站布局变化:
- 平台内置智能算法,能够自动适应网页布局的变化。
- 无需手动调整抓取规则,机器人将自动适应变化。
- 集成Google Sheets:
- 在平台设置中,配置Google Sheets集成。
- 机器人抓取的数据将自动导入指定的Google Sheets表格中。
- 使用代理:
- 在平台设置中,配置外部代理。
- 机器人将通过代理执行抓取任务,绕过反机器人保护。