Scraperr: herramienta autoalojada de raspado de datos web

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

51.3K 00

Introducción general

Scraperr es una herramienta autoalojada de rastreo de datos web que permite especificar elementos XPath para rastrear datos web. Los usuarios envían una URL y los elementos de rastreo correspondientes, y los resultados se muestran en una tabla que puede descargarse como archivo Excel.

Lista de funciones

Enviar y poner en cola URLs para rastreo web
Añadir y gestionar elementos de rastreo con XPath
Rastrear todas las páginas bajo el mismo nombre de dominio
Añadir cabeceras JSON personalizadas para enviar solicitudes
Visualización de los resultados de los datos capturados
Descargar el archivo CSV con los resultados
Volver a ejecutar la tarea de captura
Ver el estado de las tareas en cola
Marcar y ver las tareas marcadas
Inicio de sesión/registro de usuarios para organizar las tareas
Ver registros de aplicaciones
Ver estadísticas de tareas
Integración de la IA para apoyar la inclusión de los resultados del rastreo en el contexto de un diálogo

Utilizar la ayuda

Proceso de instalación

Almacén de clonación:

git clone https://github.com/jaypyles/scraperr.git

Configuración de variables de entorno y etiquetas: En el docker-compose.yml para establecer variables de entorno y etiquetas, por ejemplo:

scraperr:
labels:
- "traefik.enable=true"
- "traefik.http.routers.scraperr.rule=Host(`localhost`)"
- "traefik.http.routers.scraperr.entrypoints=web"
scraperr_api:
environment:
- LOG_LEVEL=INFO
- MONGODB_URI=mongodb://root:example@webscrape-mongo:27017
- SECRET_KEY=your_secret_key
- ALGORITHM=HS256
- ACCESS_TOKEN_EXPIRE_MINUTES=600

Inicie el servicio:
```
docker-compose up -d
```

Proceso de utilización

Enviar URL para rastreo::
- Después de iniciar sesión en Scraperr, vaya a la página Tareas de raspado.
- Introduzca la URL que desea rastrear y el elemento XPath correspondiente.
- Tras enviar una tarea, el sistema la pondrá automáticamente en cola y comenzará a capturarla.
Gestión de los elementos de rastreo::
- En la página de tareas de rastreo, puede añadir, editar o eliminar elementos XPath.
- Admite el rastreo de todas las páginas de un mismo dominio.
Ver resultados de rastreo::
- Una vez finalizada la captura, los resultados se mostrarán en una tabla.
- El usuario puede descargar un archivo CSV con los resultados o volver a ejecutar la tarea.
Gestión de tareas::
- Los usuarios pueden comprobar el estado de las tareas en cola, marcar y ver las tareas marcadas.
- Proporciona la vista Estadísticas de tareas, que muestra las estadísticas de las tareas ejecutadas.
Vista de registro::
- En la página Registros de la aplicación, los usuarios pueden ver el registro del sistema para obtener información detallada sobre la tarea de captura.
Integración de la IA::
- Apoyo a la incorporación de los resultados de la captura en contextos de diálogo, actualmente apoya Ollama y OpenAI.