AI个人学习
和实操指南

Scraperr:自托管网页数据抓取工具

综合介绍

Scraperr 是一个自托管的网页数据抓取工具,用户可以通过指定 XPath 元素来抓取网页数据。用户提交 URL 和相应的抓取元素,结果将显示在表格中,并可下载为 Excel 文件。Scraperr 支持用户登录管理抓取任务,并提供日志查看和统计功能。

Scraperr:自托管网页数据抓取工具-1


 

功能列表

  • 提交和排队 URL 进行网页抓取
  • 使用 XPath 添加和管理抓取元素
  • 抓取同一域名下的所有页面
  • 添加自定义 JSON 头部发送请求
  • 显示抓取数据结果
  • 下载包含结果的 CSV 文件
  • 重新运行抓取任务
  • 查看排队任务状态
  • 收藏和查看收藏的任务
  • 用户登录/注册以组织任务
  • 查看应用日志
  • 查看任务统计
  • AI 集成,支持将抓取结果纳入对话上下文

 

使用帮助

安装流程

  1. 克隆仓库:
    git clone https://github.com/jaypyles/scraperr.git
    
  2. 设置环境变量和标签: 在 docker-compose.yml 文件中设置环境变量和标签,例如:
    scraperr:
    labels:
    - "traefik.enable=true"
    - "traefik.http.routers.scraperr.rule=Host(`localhost`)"
    - "traefik.http.routers.scraperr.entrypoints=web"
    scraperr_api:
    environment:
    - LOG_LEVEL=INFO
    - MONGODB_URI=mongodb://root:example@webscrape-mongo:27017
    - SECRET_KEY=your_secret_key
    - ALGORITHM=HS256
    - ACCESS_TOKEN_EXPIRE_MINUTES=600
    
  3. 启动服务:
    docker-compose up -d
    

使用流程

  1. 提交 URL 进行抓取
    • 登录 Scraperr 后,进入抓取任务页面。
    • 输入要抓取的 URL 和相应的 XPath 元素。
    • 提交任务后,系统会自动排队并开始抓取。
  2. 管理抓取元素
    • 在抓取任务页面,可以添加、编辑或删除 XPath 元素。
    • 支持抓取同一域名下的所有页面。
  3. 查看抓取结果
    • 抓取完成后,结果将显示在表格中。
    • 用户可以下载包含结果的 CSV 文件,或选择重新运行任务。
  4. 任务管理
    • 用户可以查看排队任务的状态,收藏和查看收藏的任务。
    • 提供任务统计视图,显示已运行任务的统计数据。
  5. 日志查看
    • 在应用日志页面,用户可以查看系统日志,了解抓取任务的详细信息。
  6. AI 集成
    • 支持将抓取结果纳入对话上下文,当前支持 Ollama 和 OpenAI。
未经允许不得转载:首席AI分享圈 » Scraperr:自托管网页数据抓取工具

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文