综合介绍
Maxun是一个开源的无代码网页数据提取平台,用户可以在几分钟内训练机器人,自动抓取网页数据并将其转换为API或电子表格。该平台支持分页和滚动,能够适应网站布局的变化,提供强大的数据抓取功能,适用于各种数据提取需求。


功能列表
- 无代码数据提取:无需编写代码即可抓取网页数据
 - 自动化数据抓取:机器人自动执行数据抓取任务
 - API生成:将抓取的数据转换为API
 - 电子表格转换:将抓取的数据导出为电子表格
 - 分页和滚动支持:处理多页数据和长页面数据
 - 适应网站布局变化:自动适应网页布局的变化
 - 登录和双因素认证支持:抓取需要登录的网站数据(即将推出)
 - 集成Google Sheets:直接将数据导入Google Sheets
 - 代理支持:使用外部代理绕过反机器人保护
 
使用帮助
安装流程
使用Docker Compose安装
- 克隆项目仓库:
 
   git clone https://github.com/getmaxun/maxun
- 进入项目目录:
 
   cd maxun
- 使用Docker Compose构建并启动服务:
 
   docker-compose up -d --build
手动安装
- 确保系统已安装Node.js、PostgreSQL、MinIO和Redis。
 - 克隆项目仓库:
 
   git clone https://github.com/getmaxun/maxun
- 进入项目目录并安装依赖:
 
   cd maxun
npm install
cd maxun-core
npm install
- 启动前端和后端服务:
 
   npm run start
- 前端服务将运行在http://localhost:5173/,后端服务将运行在http://localhost:8080/。
 
使用指南
- 创建机器人:
- 登录平台后,点击“创建机器人”按钮。
 - 选择需要抓取的数据类型(列表、文本或截图)。
 - 配置抓取规则,如目标URL、抓取频率等。
 - 保存并启动机器人,机器人将自动执行数据抓取任务。
 
 - 数据导出:
- 在机器人任务完成后,进入任务详情页面。
 - 选择导出格式(API或电子表格)。
 - 点击“导出”按钮,下载数据或获取API链接。
 
 - 处理分页和滚动:
- 在创建机器人时,配置分页和滚动选项。
 - 机器人将自动处理多页数据和长页面数据,确保数据完整性。
 
 - 适应网站布局变化:
- 平台内置智能算法,能够自动适应网页布局的变化。
 - 无需手动调整抓取规则,机器人将自动适应变化。
 
 - 集成Google Sheets:
- 在平台设置中,配置Google Sheets集成。
 - 机器人抓取的数据将自动导入指定的Google Sheets表格中。
 
 - 使用代理:
- 在平台设置中,配置外部代理。
 - 机器人将通过代理执行抓取任务,绕过反机器人保护。
 
 
© 版权声明
文章版权归 AI分享圈  所有,未经允许请勿转载。
相关文章
暂无评论...




