Crawlee : Construire des robots fiables et des outils d'automatisation des navigateurs avec Node.js

Dernières ressources sur l'IAPosté il y a 9 mois Cercle de partage de l'IA

11.5K 00

Introduction générale

Crawlee est un crawler web open source et une bibliothèque d'automatisation de navigateur développé par Apify , conçu pour l'environnement Node.js. Elle prend en charge JavaScript et TypeScript, et fonctionne avec des outils tels que Puppeteer, Playwright, Cheerio, JSDOM et d'autres pour fournir de puissantes fonctionnalités d'exploration de données et d'automatisation.Crawlee permet aux utilisateurs de construire des crawlers fiables qui extraient les données nécessaires pour AI, LLM, RAG, ou GPTs, et télécharger des fichiers HTML, PDF, JPG, PNG, etc. Conçu pour que les crawlers ressemblent davantage à des opérations humaines, il est capable de contourner les mécanismes anti-crawler modernes, prend en charge la rotation des agents et la gestion des sessions, et convient à toute une série de tâches complexes de crawling sur le web.

Crawlee for Python est ouvert aux utilisateurs précoces !

Liste des fonctions

Interface unique pour l'exploration HTTP et l'exploration sans tête des navigateurs
Files d'attente persistantes pour l'exploration d'URL (breadth-first et depth-first)
Stockage de données et de fichiers enfichable
S'adapte automatiquement aux ressources du système
Rotation des agents et gestion des sessions intégrées
Le cycle de vie peut être personnalisé à l'aide de crochets
Outil CLI pour l'amorçage de projets
Mécanismes configurables de routage, de traitement des erreurs et de réessai
Fournir des fichiers Docker pour le déploiement
Écrit en TypeScript avec support générique
Prise en charge de HTTP2 et génération automatique d'en-têtes de requête de type navigateur
Analyseur HTML rapide intégré (Cheerio et JSDOM)
Prise en charge du crawl de l'API JSON
Rendu JavaScript et prise en charge des captures d'écran
Prise en charge des modes sans tête et avec tête
Génération automatique d'empreintes digitales de type humain
Interface unifiée utilisant Playwright et Puppeteer
Prend en charge Chrome, Firefox, Webkit, etc.

Utiliser l'aide

montage

Crawlee nécessite Node.js 16 ou plus. Vous pouvez rapidement installer et créer un exemple de crawler avec la commande suivante :

npx crawlee create my-crawler
cd my-crawler
npm start

Si vous préférez procéder à une installation manuelle, vous pouvez utiliser la commande suivante :

npm install crawlee playwright

Ensuite, vous pouvez l'importer et l'utiliser dans votre projet :

import { PlaywrightCrawler, Dataset } from 'crawlee';
const crawler = new PlaywrightCrawler({
async requestHandler({ request, page, enqueueLinks, log }) {
const title = await page.title();
log.info(`Title of ${request.loadedUrl} is '${title}'`);
await Dataset.pushData({ title, url: request.loadedUrl });
await enqueueLinks();
},
// headless: false, // Uncomment to see the browser window
});
await crawler.run(['https://crawlee.dev']);

Fonction Opération Déroulement

Création d'un projet de crawlerCrawlee CLI : Créez rapidement un nouveau projet de crawler à l'aide de Crawlee CLI, qui installe toutes les dépendances nécessaires et ajoute des exemples de code.
Configuration du CrawlerDans votre projet, configurez la logique de traitement des requêtes du crawler, l'emplacement de stockage des données, les paramètres du proxy, etc.
Exécution du crawlerCrawlee traite automatiquement la demande, récupère les données et stocke les résultats.
stockage des donnéesCrawlee stocke par défaut les données dans le répertoire de travail actuel, dans le fichier ./storage ce répertoire peut être remplacé par un fichier de configuration.
Fonctionnalité étendueLes résultats de l'analyse sont présentés dans le tableau suivant : ajouter des crochets personnalisés, des mécanismes de gestion des erreurs et des politiques de relance si nécessaire pour assurer la stabilité et la fiabilité du crawler.

Gestion des procurations et des sessions

Crawlee intègre la rotation des proxy et la gestion des sessions pour garantir que le crawler ne sera pas bloqué par le site web cible pendant le processus de crawling. La liste de proxy et les paramètres de session peuvent être définis via un fichier de configuration pour une rotation et une gestion automatiques.

déploiements

Crawlee fournit des fichiers Docker pour faciliter le déploiement des crawlers dans le nuage ou dans d'autres environnements. Les conteneurs Docker peuvent être construits et exécutés avec les commandes suivantes :

docker build -t my-crawler .
docker run my-crawler

Dernières ressources sur l'IA # AI Java Open Source Projecct

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Vortn : Création et gestion d'une base de connaissances interne avec l'IA

Dernières ressources sur l'IA # Recherche de connaissances et cadre RAG

Il y a 8 mois

010.4K

HyperChat : un client de dialogue IA qui utilise l'intelligence MCP pour effectuer des tâches complexes

Dernières ressources sur l'IA # AI Java Open Source Projecct # AI Localised Chat Application # Application de l'organisme intelligent

Il y a 6 mois

012.4K

BuildShip : un outil low-code pour construire rapidement des API back-end d'IA

Dernières ressources sur l'IA # Flux de travail à code bas

il y a 5 mois

012.5K

Civitai : AI Drawing|Communauté de partage de modèles de génération d'images à source ouverte|Civitai Model Download

Dernières ressources sur l'IA # AI Aides à la génération d'images

Il y a 11 mois

012.4K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

Crawlee : Construire des robots fiables et des outils d'automatisation des navigateurs avec Node.js

Introduction générale

Liste des fonctions

Utiliser l'aide

montage

Fonction Opération Déroulement

Gestion des procurations et des sessions

déploiements

FliFlik : client de traitement d'images AI, HD, agrandissement, réduction du bruit et suppression des filigranes en un seul clic

Project IDX : AI IDE for cloud-integrated multi-development environments, Google's free web-based AI code editor (éditeur de code AI gratuit basé sur le web)

Articles connexes

Vortn : Création et gestion d'une base de connaissances interne avec l'IA

HyperChat : un client de dialogue IA qui utilise l'intelligence MCP pour effectuer des tâches complexes

BuildShip : un outil low-code pour construire rapidement des API back-end d'IA

Civitai : AI Drawing|Communauté de partage de modèles de génération d'images à source ouverte|Civitai Model Download

Pas de commentaires

Dernières collections

Derniers articles

Crawlee : Construire des robots fiables et des outils d'automatisation des navigateurs avec Node.js

Introduction générale

Liste des fonctions

Utiliser l'aide

montage

Fonction Opération Déroulement

Gestion des procurations et des sessions

déploiements

FliFlik : client de traitement d'images AI, HD, agrandissement, réduction du bruit et suppression des filigranes en un seul clic

Project IDX : AI IDE for cloud-integrated multi-development environments, Google's free web-based AI code editor (éditeur de code AI gratuit basé sur le web)

Articles connexes

Vortn : Création et gestion d'une base de connaissances interne avec l'IA

HyperChat : un client de dialogue IA qui utilise l'intelligence MCP pour effectuer des tâches complexes

BuildShip : un outil low-code pour construire rapidement des API back-end d'IA

Civitai : AI Drawing|Communauté de partage de modèles de génération d'images à source ouverte|Civitai Model Download

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles