Scraperr: herramienta autoalojada de raspado de datos web

Introducción general

Scraperr es una herramienta autoalojada de rastreo de datos web que permite especificar elementos XPath para rastrear datos web. Los usuarios envían una URL y los elementos de rastreo correspondientes, y los resultados se muestran en una tabla que puede descargarse como archivo Excel.

Scraperr:自托管网页数据抓取工具

 

Lista de funciones

  • Enviar y poner en cola URLs para rastreo web
  • Añadir y gestionar elementos de rastreo con XPath
  • Rastrear todas las páginas bajo el mismo nombre de dominio
  • Añadir cabeceras JSON personalizadas para enviar solicitudes
  • Visualización de los resultados de los datos capturados
  • Descargar el archivo CSV con los resultados
  • Volver a ejecutar la tarea de captura
  • Ver el estado de las tareas en cola
  • Marcar y ver las tareas marcadas
  • Inicio de sesión/registro de usuarios para organizar las tareas
  • Ver registros de aplicaciones
  • Ver estadísticas de tareas
  • Integración de la IA para apoyar la inclusión de los resultados del rastreo en el contexto de un diálogo

 

Utilizar la ayuda

Proceso de instalación

  1. Almacén de clonación:
    git clone https://github.com/jaypyles/scraperr.git
    
  2. Configuración de variables de entorno y etiquetas: En el docker-compose.yml para establecer variables de entorno y etiquetas, por ejemplo:
    scraperr:
    labels:
    - "traefik.enable=true"
    - "traefik.http.routers.scraperr.rule=Host(`localhost`)"
    - "traefik.http.routers.scraperr.entrypoints=web"
    scraperr_api:
    environment:
    - LOG_LEVEL=INFO
    - MONGODB_URI=mongodb://root:example@webscrape-mongo:27017
    - SECRET_KEY=your_secret_key
    - ALGORITHM=HS256
    - ACCESS_TOKEN_EXPIRE_MINUTES=600
    
  3. Inicie el servicio:
    docker-compose up -d
    

Proceso de utilización

  1. Enviar URL para rastreo::
    • Después de iniciar sesión en Scraperr, vaya a la página Tareas de raspado.
    • Introduzca la URL que desea rastrear y el elemento XPath correspondiente.
    • Tras enviar una tarea, el sistema la pondrá automáticamente en cola y comenzará a capturarla.
  2. Gestión de los elementos de rastreo::
    • En la página de tareas de rastreo, puede añadir, editar o eliminar elementos XPath.
    • Admite el rastreo de todas las páginas de un mismo dominio.
  3. Ver resultados de rastreo::
    • Una vez finalizada la captura, los resultados se mostrarán en una tabla.
    • El usuario puede descargar un archivo CSV con los resultados o volver a ejecutar la tarea.
  4. Gestión de tareas::
    • Los usuarios pueden comprobar el estado de las tareas en cola, marcar y ver las tareas marcadas.
    • Proporciona la vista Estadísticas de tareas, que muestra las estadísticas de las tareas ejecutadas.
  5. Vista de registro::
    • En la página Registros de la aplicación, los usuarios pueden ver el registro del sistema para obtener información detallada sobre la tarea de captura.
  6. Integración de la IA::
    • Apoyo a la incorporación de los resultados de la captura en contextos de diálogo, actualmente apoya Ollama y OpenAI.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...