AI Personal Learning
und praktische Anleitung

Scraperr: selbstgehostetes Tool zum Scrapen von Webdaten

Allgemeine Einführung

Scraperr ist ein selbstgehostetes Tool zum Scrapen von Webdaten, mit dem Sie XPath-Elemente zum Scrapen von Webdaten angeben können. Benutzer übermitteln eine URL und die entsprechenden Crawling-Elemente, und die Ergebnisse werden in einer Tabelle angezeigt, die als Excel-Datei heruntergeladen werden kann.Scraperr unterstützt Benutzeranmeldung, um Crawling-Aufgaben zu verwalten, und bietet Protokollanzeige und Statistiken.

Scraperr: selbstgehostetes Tool zum Scrapen von Webdaten-1


 

Funktionsliste

  • URLs für Web-Crawling anmelden und in die Warteschlange stellen
  • Hinzufügen und Verwalten von Crawl-Elementen mit XPath
  • Crawlen aller Seiten unter demselben Domainnamen
  • Hinzufügen benutzerdefinierter JSON-Header zum Senden von Anfragen
  • Anzeige der Ergebnisse der erfassten Daten
  • Laden Sie die CSV-Datei mit den Ergebnissen herunter
  • Wiederholen Sie die Erfassungsaufgabe
  • Anzeigen des Status von Aufgaben in der Warteschlange
  • Setzen von Lesezeichen und Anzeigen von mit Lesezeichen versehenen Aufgaben
  • Benutzeranmeldung/-registrierung zur Organisation von Aufgaben
  • Anwendungsprotokolle anzeigen
  • Aufgabenstatistik anzeigen
  • KI-Integration zur Unterstützung der Einbeziehung von Crawl-Ergebnissen im Rahmen eines Dialogs

 

Hilfe verwenden

Ablauf der Installation

  1. Klon-Lagerhaus:
    git clone https://github.com/jaypyles/scraperr.git
    
  2. Setzen von Umgebungsvariablen und Tags: In der docker-compose.yml Datei, um zum Beispiel Umgebungsvariablen und Bezeichnungen zu setzen:
    scraper.
    Bezeichnungen.
    - "traefik.enable=true"
    - traefik.http.routers.scraperr.rule=Host(`localhost`)"
    - "traefik.http.routers.scraperr.entrypoints=web"
    scraperr_api.
    Umgebung.
    - LOG_LEVEL=INFO
    - MONGODB_URI=mongodb://root:example@webscrape-mongo:27017
    - SECRET_KEY=Ihr_geheimer_Schlüssel
    - ALGORITHMUS=HS256
    - access_token_expire_minutes=600
    
  3. Starten Sie den Dienst:
    docker-compose up -d
    

Verwendung Prozess

  1. URL zum Crawlen einreichen::
    • Nachdem Sie sich bei Scraperr angemeldet haben, gehen Sie auf die Seite Scraping-Aufgaben.
    • Geben Sie die zu crawlende URL und das entsprechende XPath-Element ein.
    • Nachdem Sie eine Aufgabe eingereicht haben, stellt das System sie automatisch in die Warteschlange und beginnt, sie zu erfassen.
  2. Verwalten von Crawl-Elementen::
    • Auf der Crawl-Aufgabenseite können Sie XPath-Elemente hinzufügen, bearbeiten oder löschen.
    • Unterstützt das Crawlen aller Seiten unter derselben Domain.
  3. Crawl-Ergebnisse anzeigen::
    • Sobald die Erfassung abgeschlossen ist, werden die Ergebnisse in einer Tabelle angezeigt.
    • Der Benutzer kann eine CSV-Datei mit den Ergebnissen herunterladen oder die Aufgabe erneut ausführen.
  4. Aufgabenverwaltung::
    • Die Benutzer können den Status von Aufgaben in der Warteschlange überprüfen, Lesezeichen setzen und mit Lesezeichen versehene Aufgaben anzeigen.
    • Bietet die Ansicht Aufgabenstatistik, in der Statistiken für ausgeführte Aufgaben angezeigt werden.
  5. Log-Ansicht::
    • Auf der Seite Anwendungsprotokolle können die Benutzer die Systemprotokolle mit detaillierten Informationen über die Erfassungsaufgabe einsehen.
  6. KI-Integration::
    • Unterstützung für die Einbindung von Kriechergebnissen in Dialogkontexte, derzeit unterstützt Ollama und OpenAI.
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Scraperr: selbstgehostetes Tool zum Scrapen von Webdaten

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)