스크래퍼: 자체 호스팅 웹 데이터 스크래핑 도구

최신 AI 리소스9개월 전에 게시 됨 AI 공유 서클
1.9K 00

일반 소개

스크래퍼는 웹 데이터를 스크래핑할 XPath 요소를 지정할 수 있는 자체 호스팅 웹 데이터 스크래핑 도구입니다. 사용자가 URL과 해당 크롤링 요소를 제출하면 그 결과가 표로 표시되어 엑셀 파일로 다운로드할 수 있으며, 스크래퍼는 크롤링 작업 관리를 위한 사용자 로그인을 지원하고 로그 보기 및 통계 기능을 제공합니다.

Scraperr:自托管网页数据抓取工具

 

기능 목록

  • 웹 크롤링을 위한 URL 제출 및 큐 큐잉
  • XPath로 크롤링 요소 추가 및 관리하기
  • 동일한 도메인 이름으로 모든 페이지 크롤링하기
  • 요청을 전송하기 위해 사용자 지정 JSON 헤더 추가
  • 캡처한 데이터의 결과 표시
  • 결과가 포함된 CSV 파일 다운로드
  • 캡처 작업 다시 실행
  • 대기 중인 작업의 상태 보기
  • 북마크 지정 및 북마크된 작업 보기
  • 사용자 로그인/등록을 통한 작업 정리
  • 애플리케이션 로그 보기
  • 작업 통계 보기
  • 대화 컨텍스트에 크롤링 결과를 포함할 수 있도록 지원하는 AI 통합

 

도움말 사용

설치 프로세스

  1. 복제 창고:
    git clone https://github.com/jaypyles/scraperr.git
    
  2. 환경 변수 및 태그 설정: 환경 변수 및 태그의 docker-compose.yml 파일을 사용하여 환경 변수와 레이블을 설정할 수 있습니다:
    scraperr:
    labels:
    - "traefik.enable=true"
    - "traefik.http.routers.scraperr.rule=Host(`localhost`)"
    - "traefik.http.routers.scraperr.entrypoints=web"
    scraperr_api:
    environment:
    - LOG_LEVEL=INFO
    - MONGODB_URI=mongodb://root:example@webscrape-mongo:27017
    - SECRET_KEY=your_secret_key
    - ALGORITHM=HS256
    - ACCESS_TOKEN_EXPIRE_MINUTES=600
    
  3. 서비스를 시작합니다:
    docker-compose up -d
    

사용 프로세스

  1. 크롤링을 위한 URL 제출::
    • 스크래퍼에 로그인한 후 스크래핑 작업 페이지로 이동합니다.
    • 크롤링할 URL과 해당 XPath 요소를 입력합니다.
    • 작업을 제출하면 시스템이 자동으로 대기열에 추가하고 캡처를 시작합니다.
  2. 크롤링 요소 관리::
    • 크롤링 작업 페이지에서 XPath 요소를 추가, 편집 또는 삭제할 수 있습니다.
    • 동일한 도메인 아래의 모든 페이지 크롤링을 지원합니다.
  3. 크롤링 결과 보기::
    • 캡처가 완료되면 결과가 표에 표시됩니다.
    • 사용자는 결과가 포함된 CSV 파일을 다운로드하거나 작업을 다시 실행하도록 선택할 수 있습니다.
  4. 작업 관리::
    • 사용자는 대기 중인 작업의 상태를 확인하고, 북마크에 추가하고, 북마크에 추가한 작업을 볼 수 있습니다.
    • 실행 중인 작업에 대한 통계를 표시하는 작업 통계 보기를 제공합니다.
  5. 로그 보기::
    • 애플리케이션 로그 페이지에서 사용자는 캡처 작업에 대한 자세한 정보를 확인할 수 있는 시스템 로그를 볼 수 있습니다.
  6. AI 통합::
    • 대화 컨텍스트에 캡처 결과 통합 지원, 현재 다음을 지원합니다. Ollama 및 OpenAI.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...