Scraperr : outil de scraping de données web auto-hébergé

Dernières ressources sur l'IAPosté il y a 10 mois Cercle de partage de l'IA

17.1K 00

Introduction générale

Scraperr est un outil d'exploration de données web auto-hébergé qui vous permet de spécifier des éléments XPath pour explorer des données web. Les utilisateurs soumettent une URL et les éléments d'exploration correspondants, et les résultats sont affichés dans un tableau qui peut être téléchargé sous forme de fichier Excel.Scraperr prend en charge la connexion de l'utilisateur pour gérer les tâches d'exploration, et fournit un affichage des journaux et des statistiques.

Liste des fonctions

Soumettre et mettre en file d'attente des URL pour l'exploration du web
Ajouter et gérer des éléments de crawl avec XPath
Parcourir toutes les pages sous le même nom de domaine
Ajouter des en-têtes JSON personnalisés pour envoyer des requêtes
Affichage des résultats des données saisies
Télécharger le fichier CSV contenant les résultats
Réexécuter la tâche de capture
Visualisation de l'état des tâches en file d'attente
Mise en signet et visualisation des tâches mises en signet
Connexion/enregistrement des utilisateurs pour organiser les tâches
Consulter les journaux d'application
Voir les statistiques des tâches
Intégration de l'IA pour faciliter l'inclusion des résultats du crawl dans le contexte d'un dialogue

Utiliser l'aide

Processus d'installation

Entrepôt de clonage :

git clone https://github.com/jaypyles/scraperr.git

Définition des variables d'environnement et des balises : Dans la section docker-compose.yml pour définir des variables d'environnement et des étiquettes, par exemple :

scraperr:
labels:
- "traefik.enable=true"
- "traefik.http.routers.scraperr.rule=Host(`localhost`)"
- "traefik.http.routers.scraperr.entrypoints=web"
scraperr_api:
environment:
- LOG_LEVEL=INFO
- MONGODB_URI=mongodb://root:example@webscrape-mongo:27017
- SECRET_KEY=your_secret_key
- ALGORITHM=HS256
- ACCESS_TOKEN_EXPIRE_MINUTES=600

Démarrer le service :
```
docker-compose up -d
```

Processus d'utilisation

Soumettre une URL à l'exploration: :
- Après vous être connecté à Scraperr, rendez-vous sur la page des tâches de scraping.
- Saisissez l'URL à explorer et l'élément XPath correspondant.
- Après avoir soumis une tâche, le système la met automatiquement en file d'attente et commence à la capturer.
Gestion des éléments Crawl: :
- Sur la page de la tâche d'exploration, vous pouvez ajouter, modifier ou supprimer des éléments XPath.
- Permet d'explorer toutes les pages d'un même domaine.
Voir les résultats du crawl: :
- Une fois la capture terminée, les résultats seront affichés dans un tableau.
- L'utilisateur peut télécharger un fichier CSV contenant les résultats ou choisir de réexécuter la tâche.
gestion des tâches: :
- Les utilisateurs peuvent vérifier l'état des tâches en attente, mettre en signet et afficher les tâches mises en signet.
- Fournit la vue Statistiques des tâches, qui affiche les statistiques des tâches exécutées.
Vue du journal: :
- Sur la page Journal de l'application, les utilisateurs peuvent afficher le journal du système pour obtenir des informations détaillées sur la tâche de capture.
Intégration de l'IA: :
- Soutien à l'intégration des résultats de la capture dans les contextes de dialogue. Ollama et OpenAI.

Dernières ressources sur l'IA # AI Java Open Source Projecct

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Coze Studio - Plate-forme de développement d'agents d'intelligence artificielle open source de ByteDance

Dernières ressources sur l'IA

Il y a 2 mois

019.6K

Comics Downloader：开源免费漫画下载器，支持PDF、EPUB、CBR、CBZ格式漫画下载

Comics Downloader : logiciel libre de téléchargement de bandes dessinées, supportant les formats PDF, EPUB, CBR, CBZ.

Dernières ressources sur l'IA # AI Java Open Source Projecct

Il y a 9 mois

023.1K

Wondercraft : outil texte-audio axé sur les voix-off, les livres audio multijoueurs et les podcasts.

Dernières ressources sur l'IA # Synthèse vocale AI

Il y a 9 mois

018.4K

DeepSeek-R1 - DeepSeek推出的AI推理模型，性能对齐 OpenAI o1 正式版

DeepSeek-R1 - Modèle d'inférence IA de DeepSeek, performance alignée sur la version OpenAI o1

Dernières ressources sur l'IA

Il y a 4 mois

014.7K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

Scraperr : outil de scraping de données web auto-hébergé

Introduction générale

Liste des fonctions