AI Personal Learning
und praktische Anleitung
Sitzsack Marscode1

par_scrape: ein Crawler-Tool für die intelligente Extraktion von Webdaten

Allgemeine Einführung

par_scrape ist ein auf Python basierender Open-Source-Web-Crawler, der vom Entwickler Paul Robello auf GitHub veröffentlicht wurde und Nutzern helfen soll, auf intelligente Weise Daten aus Webseiten zu extrahieren. Er integriert zwei leistungsstarke Browser-Automatisierungstechnologien, Selenium und Playwright, und kombiniert sie mit KI-Verarbeitungsfunktionen, um das Crawlen von Daten von einfachen statischen Seiten bis hin zu komplexen dynamischen Websites zu unterstützen. Egal, ob es um die Extraktion von Preisen, Titeln oder anderen strukturierten Informationen geht, par_scrape erledigt die Aufgabe schnell, indem es Felder angibt und die Ergebnisse als Markdown, JSON oder CSV ausgibt. Projekt für Entwickler, Datenanalysten oder Benutzer, die die Sammlung von Informationen im Web automatisieren wollen, einfach zu installieren und flexible Funktionen, beliebt in der Open-Source-Community.

par_scrape: Intelligentes Crawler-Tool zum Extrahieren von Webdaten-1


 

Funktionsliste

  • Intelligente DatenextraktionAnalyse von Webinhalten mit Hilfe von KI-Modellen wie OpenAI oder Anthropic, um benutzerdefinierte Felder genau zu extrahieren.
  • Duale RaupenunterstützungDie Website unterstützt sowohl Selenium- als auch Playwright-Technologien, die an unterschiedliche Website-Architekturen angepasst werden können.
  • Mehrere AusgabeformateCapture-Ergebnisse können zur einfachen Weiterverarbeitung in Markdown, JSON, CSV oder Excel exportiert werden.
  • Benutzerdefinierte FelderfassungBenutzer können die zu extrahierenden Felder wie Titel, Beschreibung, Preis usw. angeben, um individuelle Bedürfnisse zu erfüllen.
  • parallele ErfassungUnterstützung von Multi-Thread-Crawling zur Verbesserung der Effizienz bei der Erfassung großer Datenmengen.
  • Wartender MechanismusBereitstellung einer Vielzahl von Methoden zum Warten auf das Laden von Seiten (z. B. Pause, Warten auf Selektoren), um den Erfolg des Crawlings von dynamischen Inhalten zu gewährleisten.
  • Auswahl des AI-ModellsUnterstützung für mehrere KI-Anbieter (z. B. OpenAI, Anthropic, XAI) zur flexiblen Anpassung an unterschiedliche Aufgaben.
  • Cache-OptimierungEingebaute Hint-Caching-Funktion, um die Kosten für wiederholte Anfragen zu reduzieren und die Effizienz zu verbessern.

 

Hilfe verwenden

Ablauf der Installation

Um par_scrape zu verwenden, müssen Sie zunächst die folgenden Installationsschritte durchführen, um sicherzustellen, dass Ihre Umgebung gut vorbereitet ist. Im Folgenden finden Sie eine detaillierte Installationsanleitung:

1. die Vorbereitung der Umwelt

  • Python-VersionStellen Sie sicher, dass Python 3.11 oder höher auf Ihrem System installiert ist, indem Sie den Befehl python --version Prüfen.
  • Git-WerkzeugeKlonen von Code von GitHub: Wird verwendet, um Code von GitHub zu klonen; wenn es nicht installiert ist, kann es über die sudo apt install git(Linux) oder die offizielle Website zum Herunterladen und Installieren.
  • UV-WerkzeugeEs wird empfohlen, UV zu verwenden, um die Abhängigkeiten zu verwalten, der Installationsbefehl lautet:
    • Linux/Mac:curl -LsSf https://astral.sh/uv/install.sh | sh
    • Fenster:powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"

2. klonen von Projekten

Klonen Sie das Projekt par_scrape lokal, indem Sie den folgenden Befehl in das Terminal eingeben:

git clone https://github.com/paulrobello/par_scrape.git
cd par_scrape

3. die Installation von Abhängigkeiten

Verwenden Sie UV, um Projektabhängigkeiten zu installieren:

uv .

Oder installieren Sie direkt von PyPI:

uv tool install par_scrape
# oder pipx verwenden
pipx install par_scrape

4. die Installation des Dramaturgen (fakultativ)

Wenn Sie Playwright als Crawler wählen, müssen Sie Ihren Browser zusätzlich installieren und konfigurieren:

uv werkzeug installieren playwright
playwright installieren chromium

5. konfigurieren Sie den API-Schlüssel

par_scrape unterstützt mehrere AI-Anbieter, Sie müssen den entsprechenden Schlüssel in der Umgebungsvariablen konfigurieren. bearbeiten ~/.par_scrape.env fügen Sie Folgendes hinzu (wählen Sie nach Bedarf):

OPENAI_API_KEY=Ihr_openai_key
ANTHROPIC_API_KEY=Ihr_anthropischer_Schlüssel
XAI_API_KEY=Ihr_xai_schlüssel

Oder setzen Sie die Umgebungsvariable, bevor Sie den Befehl ausführen:

export OPENAI_API_KEY=Ihr_openai_Schlüssel

Verwendung

Sobald die Installation abgeschlossen ist, können Sie par_scrape von der Kommandozeile aus starten, hier ist die detaillierte Vorgehensweise:

Grundlegendes Verwendungsbeispiel

Angenommen, Sie möchten den Titel, die Beschreibung und den Preis aus der OpenAI-Preisseite extrahieren:

par_scrape --url "https://openai.com/api/pricing/" -f "Titel" -f "Beschreibung" -f "Preis" --model gpt-4o-mini --display-output md
  • --urlAdresse der Ziel-Webseite: Die Adresse der Ziel-Webseite.
  • -f: Geben Sie das Extraktionsfeld an, das mehrfach verwendet werden kann.
  • ---ModellWählen Sie das AI-Modell (z.B. gpt-4o-mini).
  • --display-outputAusgabeformat (md, json, csv, usw.).

Featured Function Bedienung

  1. Umschalten von Crawler-Tools
    Playwright wird standardmäßig verwendet, wenn Sie Selenium verwenden möchten, können Sie Parameter hinzufügen:

    par_scrape --url "https://example.com" -f "Titel" --scraper selenium
    
  2. parallele Erfassung
    Legen Sie die maximale Anzahl der parallelen Anfragen fest, um die Effizienz zu verbessern:

    par_scrape --url "https://example.com" -f "Daten" --scrape-max-parallel 5
    
  3. Dynamisches Warten auf Seiten
    Für dynamisch geladene Inhalte können Wartetypen und Selektoren festgelegt werden:

    par_scrape --url "https://example.com" -f "Inhalt" --wait-type selector --wait-selector ".dynamic-content"
    

    Unterstützte Wartearten sind keine, undPause, undschlafen, unduntätig, undSelektor im Gesang antworten Text.

  4. Benutzerdefinierter Ausgabepfad
    Speichert die Ergebnisse in dem angegebenen Ordner:

    par_scrape --url "https://example.com" -f "Titel" --output-folder . /meine_Daten
    

Details zum Betriebsablauf

Nehmen Sie zum Beispiel die Seite mit den Crawl-Preisen:

  1. Zielsetzung: Gehen Sie zu https://openai.com/api/pricing/ und bestätigen Sie, dass Sie das "Modell", den "Pricing Input" und den " Preisgestaltung Ausgabe".
  2. Befehl ausführen::
    par_scrape --url "https://openai.com/api/pricing/" -f "Modell" -f "Preisgestaltung Input" -f "Preisgestaltung Output" --model gpt-4o-mini --display-output json
    
  3. Ergebnisse anzeigenNach Ausführung des Befehls zeigt das Terminal die Daten im JSON-Format an oder speichert sie in der Standardausgabedatei.
  4. AnpassungsparameterWenn die Daten unvollständig sind, fügen Sie bitte Folgendes hinzu --Wiederholungen 5(Anzahl der Wiederholungsversuche) oder Einstellungen -Schlafenszeit 5(Wartezeit).

caveat

  • API-SchlüsselVergewissern Sie sich, dass der Schlüssel gültig ist, andernfalls ist die AI-Extraktionsfunktion nicht verfügbar.
  • Einschränkungen der WebsiteEinige Websites können einen Anti-Crawl-Mechanismus haben und es wird empfohlen, die --kopflos(Headless-Modus) oder zum Einstellen der Greiffrequenz.
  • Cache-NutzungWenn Sie dieselbe Seite mehrfach crawlen, können Sie die Option --prompt-cache Geringere Kosten.

Mit den oben beschriebenen Schritten können Benutzer schnell mit par_scrape beginnen und einfach Aufgaben zur Datenextraktion aus Webseiten erledigen.

CDN1
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " par_scrape: ein Crawler-Tool für die intelligente Extraktion von Webdaten

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)