Crawlee: Erstellung zuverlässiger Webcrawler und Browser-Automatisierungs-Tools mit Node.js

Neueste AI-RessourcenGeschrieben vor 9 Monaten AI-Austauschkreis

11.1K 00

Allgemeine Einführung

Crawlee ist eine Open-Source-Bibliothek für Web-Crawler und Browser-Automatisierung, die von Apify entwickelt und für die Node.js-Umgebung konzipiert wurde. Sie unterstützt JavaScript und TypeScript und arbeitet mit Tools wie Puppeteer, Playwright, Cheerio, JSDOM und anderen zusammen, um leistungsstarke Daten-Crawling- und Automatisierungsfunktionen bereitzustellen. Crawlee ermöglicht es Benutzern, zuverlässige Crawler zu erstellen, die die für AI, LLM, RAG oder GPTs benötigten Daten extrahieren und HTML, PDF, JPG, PNG und mehr herunterladen. Crawlee wurde entwickelt, um Crawler eher wie menschliche Operationen aussehen zu lassen. Es ist in der Lage, moderne Anti-Crawler-Mechanismen zu umgehen, unterstützt Agentenrotation und Sitzungsmanagement und eignet sich für eine Vielzahl von komplexen Web-Crawling-Aufgaben.

Crawlee für Python ist offen für Early Adopters!

Funktionsliste

Eine einzige Schnittstelle für HTTP und Headless Browser Crawling
Dauerhafte URL-Crawling-Warteschlangen (breadth-first und depth-first)
Steckbarer Daten- und Dateispeicher
Automatische Skalierung je nach Systemressourcen
Integrierte Agentenrotation und Sitzungsmanagement
Lebenszyklus kann mit Hooks angepasst werden
CLI-Tool für Bootstrapping-Projekte
Konfigurierbares Routing, Fehlerbehandlung und Wiederholungsmechanismen
Bereitstellen von Dockerdateien für die Bereitstellung
Geschrieben in TypeScript mit generischer Unterstützung
HTTP2-Unterstützung und automatische Generierung von Headern für Anfragen im Browser-Stil
Integrierter schneller HTML-Parser (Cheerio und JSDOM)
JSON API Crawl-Unterstützung
JavaScript-Rendering und Screenshot-Unterstützung
Unterstützung von Headless und Headed Mode
Automatische Erzeugung von Fingerabdrücken im menschlichen Stil
Einheitliche Schnittstelle mit Playwright und Puppeteer
Unterstützt Chrome, Firefox, Webkit, etc.

Hilfe verwenden

Montage

Crawlee benötigt Node.js 16 oder höher. Mit dem folgenden Befehl können Sie schnell einen Beispiel-Crawler installieren und erstellen:

npx crawlee create my-crawler
cd my-crawler
npm start

Wenn Sie eine manuelle Installation bevorzugen, können Sie den folgenden Befehl verwenden:

npm install crawlee playwright

Dann importieren Sie es und verwenden es in Ihrem Projekt:

import { PlaywrightCrawler, Dataset } from 'crawlee';
const crawler = new PlaywrightCrawler({
async requestHandler({ request, page, enqueueLinks, log }) {
const title = await page.title();
log.info(`Title of ${request.loadedUrl} is '${title}'`);
await Dataset.pushData({ title, url: request.loadedUrl });
await enqueueLinks();
},
// headless: false, // Uncomment to see the browser window
});
await crawler.run(['https://crawlee.dev']);

Funktion Betriebsablauf

Erstellen eines Crawler-ProjektsSchnelles Erstellen eines neuen Crawler-Projekts mit Hilfe der Crawlee CLI, die alle notwendigen Abhängigkeiten installiert und Beispielcode hinzufügt.
Den Crawler konfigurierenKonfigurieren Sie in Ihrem Projekt die Logik der Crawler-Anfrageverarbeitung, den Speicherort der Daten, die Proxy-Einstellungen usw.
Ausführen des CrawlersStarten Sie den Crawler von der Kommandozeile und Crawlee wird die Anfrage automatisch verarbeiten, die Daten erfassen und die Ergebnisse speichern.
DatenspeicherungCrawlee speichert Daten standardmäßig im aktuellen Arbeitsverzeichnis in der Datei ./storage kann dieses Verzeichnis durch eine Konfigurationsdatei überschrieben werden.
Erweiterte FunktionalitätHinzufügen von benutzerdefinierten Hooks, Fehlerbehandlungsmechanismen und Wiederholungsrichtlinien nach Bedarf, um die Stabilität und Zuverlässigkeit des Crawlers zu gewährleisten.

Proxy- und Sitzungsmanagement

Crawlee integriert Proxy-Rotation und Session-Management, um sicherzustellen, dass der Crawler während des Crawling-Prozesses nicht von der Ziel-Website blockiert wird. Proxy-Liste und Session-Parameter können über eine Konfigurationsdatei für die automatische Rotation und Verwaltung eingestellt werden.

Einsätze

Crawlee bietet Dockerdateien für die einfache Bereitstellung von Crawlern in der Cloud oder anderen Umgebungen. Docker-Container können mit den folgenden Befehlen erstellt und ausgeführt werden:

docker build -t my-crawler .
docker run my-crawler

Neueste AI-Ressourcen # AI Java Open Source Projekt

Artikel Copyright AI-Austauschkreis Alle, bitte nicht ohne Erlaubnis vervielfältigen.

SystoByte: eine Plattform für den Entwurf von Programmiersystemen, die KI-Feedback in Echtzeit zur Verbesserung von Interviewfähigkeiten bietet

Neueste AI-Ressourcen # AI-Bildungswerkzeuge

vor 9 Monaten

011.2K

chichi pui: eine kreative Plattform für den Austausch und die Erstellung von KI-Bildern

Neueste AI-Ressourcen # AI Online-Bilderzeugung

vor 5 Monaten

017.3K

ChatLLM: Intelligentes Chat-Tool, das mehrere KI-Modelle unterstützt

Neueste AI-Ressourcen # AI Integrierte Multi-Modell-Dialogplattform

vor 5 Monaten

013.7K

DiffRhythm: Generieren Sie Songs bis zu 4 Minuten und 45 Sekunden in 10 Sekunden.

Neueste AI-Ressourcen # AI Java Open Source Projekt # AI Musik

vor 6 Monaten

012.2K

Keine Kommentare

Sie müssen eingeloggt sein, um an den Kommentaren teilnehmen zu können!

Jetzt anmelden

Keine Kommentare...

Crawlee: Erstellung zuverlässiger Webcrawler und Browser-Automatisierungs-Tools mit Node.js

Allgemeine Einführung

Funktionsliste

Hilfe verwenden

Montage

Funktion Betriebsablauf

Proxy- und Sitzungsmanagement

Einsätze

FliFlik: KI-Bildverarbeitungs-Client, Bild-HD, Vergrößerung, Rauschunterdrückung und Wasserzeichenentfernung mit einem Klick

Projekt IDX: KI-IDE für Cloud-integrierte Multi-Entwicklungsumgebungen, Googles kostenloser webbasierter KI-Code-Editor

Ähnliche Artikel

SystoByte: eine Plattform für den Entwurf von Programmiersystemen, die KI-Feedback in Echtzeit zur Verbesserung von Interviewfähigkeiten bietet

chichi pui: eine kreative Plattform für den Austausch und die Erstellung von KI-Bildern

ChatLLM: Intelligentes Chat-Tool, das mehrere KI-Modelle unterstützt

DiffRhythm: Generieren Sie Songs bis zu 4 Minuten und 45 Sekunden in 10 Sekunden.

Keine Kommentare

Neueste Kollektionen

Neueste Artikel

Crawlee: Erstellung zuverlässiger Webcrawler und Browser-Automatisierungs-Tools mit Node.js

Allgemeine Einführung

Funktionsliste

Hilfe verwenden

Montage

Funktion Betriebsablauf

Proxy- und Sitzungsmanagement

Einsätze

FliFlik: KI-Bildverarbeitungs-Client, Bild-HD, Vergrößerung, Rauschunterdrückung und Wasserzeichenentfernung mit einem Klick

Projekt IDX: KI-IDE für Cloud-integrierte Multi-Entwicklungsumgebungen, Googles kostenloser webbasierter KI-Code-Editor

Ähnliche Artikel

SystoByte: eine Plattform für den Entwurf von Programmiersystemen, die KI-Feedback in Echtzeit zur Verbesserung von Interviewfähigkeiten bietet

chichi pui: eine kreative Plattform für den Austausch und die Erstellung von KI-Bildern

ChatLLM: Intelligentes Chat-Tool, das mehrere KI-Modelle unterstützt

DiffRhythm: Generieren Sie Songs bis zu 4 Minuten und 45 Sekunden in 10 Sekunden.

Keine Kommentare

Ausgewählte AI-Tools

Neueste Kollektionen

Neueste Artikel