AI Personal Learning
und praktische Anleitung

Crawl4AI: quelloffenes asynchrones Webcrawler-Tool zur Extraktion strukturierter Daten ohne LLM

Allgemeine Einführung

Crawl4AI ist ein quelloffenes asynchrones Webcrawler-Tool, das für Large Language Models (LLMs) und Anwendungen der Künstlichen Intelligenz (KI) entwickelt wurde. Es vereinfacht den Web-Crawling- und Datenextraktionsprozess, unterstützt effizientes Web-Crawling und bietet LLM-freundliche Ausgabeformate wie JSON, bereinigtes HTML und Markdown.Crawl4AI unterstützt das gleichzeitige Crawlen mehrerer URLs, ist komplett kostenlos und quelloffen und eignet sich für eine Vielzahl von Daten-Crawling-Bedürfnissen.

Offizielle Hilfe-Dokumentation


Online-Erfahrung

Bildmaterial

 

Funktionsliste

  • Asynchrone Architektur: effiziente Verarbeitung mehrerer Webseiten, schnelles Crawling von Daten
  • Mehrere Ausgabeformate: Unterstützung von JSON, HTML, Markdown
  • Multi-URL-Crawling: crawlen Sie mehrere Webseiten gleichzeitig
  • Extraktion von Medien-Tags: Extraktion von Bild-, Audio- und Video-Tags
  • Link-Extraktion: Extraktion aller externen und internen Links
  • Metadatenextraktion: Extraktion von Metadaten aus Seiten
  • Benutzerdefinierte Hooks: Unterstützung für Authentifizierung, Anfrage-Header und Seitenänderungen
  • Anpassung von Benutzeragenten: Anpassung von Benutzeragenten
  • Screenshot der Seite: Screenshot der Crawl-Seite
  • Benutzerdefiniertes JavaScript ausführen: Führen Sie mehrere benutzerdefinierte JavaScripts vor dem Crawling aus.
  • Proxy-Unterstützung: Verbesserung der Privatsphäre und des Zugangs
  • Sitzungsmanagement: Handhabung komplexer mehrseitiger Crawling-Szenarien

 

Hilfe verwenden

Ablauf der Installation

Crawl4AI bietet flexible Installationsoptionen für eine Vielzahl von Nutzungsszenarien. Sie können es als Python-Paket installieren oder Docker verwenden.

Installation mit pip

  1. Grundlegende Installation
    pip install crawl4ai
    

    Dadurch wird standardmäßig die asynchrone Version von Crawl4AI installiert, die Playwright für das Webcrawling verwendet.

  2. Manuelle Installation von Playwright (falls erforderlich)
    Dramaturgische Installation
    

    oder

    python -m playwright install chromium
    

Installieren mit Docker

  1. Ziehen eines Docker-Images
    docker pull unclecode/crawl4ai
    
  2. Ausführen von Docker-Containern
    docker run -it unclecode/crawl4ai
    

Richtlinien für die Verwendung

  1. Grundlegende Verwendung
    von crawl4ai importieren AsyncWebCrawler
    
    crawler = AsyncWebCrawler()
    Ergebnisse = crawler.crawl(["https://example.com"])
    drucken(Ergebnisse)
    
  2. Benutzerdefinierte Einstellungen
    von crawl4ai importieren AsyncWebCrawler
    
    crawler = AsyncWebCrawler(
        user_agent="CustomUserAgent",
        headers={"Autorisierung": "Träger Token"},
        custom_js=["console.log('Hallo, Welt!')"]
    )
    Ergebnisse = crawler.crawl(["https://example.com"])
    drucken(Ergebnisse)
    
  3. Extrahieren spezifischer Daten
    von crawl4ai importieren AsyncWebCrawler
    
    crawler = AsyncWebCrawler()
    Ergebnisse = crawler.crawl(["https://example.com"], extract_media=Wahr, extract_links=Wahr)
    drucken(Ergebnisse)
    
  4. Sitzungsmanagement
    von crawl4ai importieren AsyncWebCrawler
    
    crawler = AsyncWebCrawler()
    Sitzung = crawler.create_session()
    session_results = session.crawl([)"https://example.com"])
    drucken(session_results)
    

Crawl4AI bietet eine Vielzahl von Funktionen und flexiblen Konfigurationsoptionen für eine Vielzahl von Web-Crawling- und Data-Crawling-Anforderungen. Detaillierte Installations- und Nutzungsanleitungen erleichtern den Einstieg und ermöglichen es den Nutzern, die leistungsstarken Funktionen des Tools voll auszuschöpfen.

AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Crawl4AI: quelloffenes asynchrones Webcrawler-Tool zur Extraktion strukturierter Daten ohne LLM

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)