AI Personal Learning
und praktische Anleitung
CyberKnife-Zeichenspiegel

Scraperr: selbstgehostetes Tool zum Scrapen von Webdaten

Allgemeine Einführung

Scraperr ist ein selbstgehostetes Tool zum Scrapen von Webdaten, mit dem Sie XPath-Elemente zum Scrapen von Webdaten angeben können. Benutzer übermitteln eine URL und die entsprechenden Crawling-Elemente, und die Ergebnisse werden in einer Tabelle angezeigt, die als Excel-Datei heruntergeladen werden kann.Scraperr unterstützt Benutzeranmeldung, um Crawling-Aufgaben zu verwalten, und bietet Protokollanzeige und Statistiken.

Scraperr: selbstgehostetes Tool zum Scrapen von Webdaten-1


 

Funktionsliste

  • URLs für Web-Crawling anmelden und in die Warteschlange stellen
  • Hinzufügen und Verwalten von Crawl-Elementen mit XPath
  • Crawlen aller Seiten unter demselben Domainnamen
  • Hinzufügen benutzerdefinierter JSON-Header zum Senden von Anfragen
  • Anzeige der Ergebnisse der erfassten Daten
  • Laden Sie die CSV-Datei mit den Ergebnissen herunter
  • Wiederholen Sie die Erfassungsaufgabe
  • Anzeigen des Status von Aufgaben in der Warteschlange
  • Setzen von Lesezeichen und Anzeigen von mit Lesezeichen versehenen Aufgaben
  • Benutzeranmeldung/-registrierung zur Organisation von Aufgaben
  • Anwendungsprotokolle anzeigen
  • Aufgabenstatistik anzeigen
  • KI-Integration zur Unterstützung der Einbeziehung von Crawl-Ergebnissen im Rahmen eines Dialogs

 

Hilfe verwenden

Einbauverfahren

  1. Klon-Lagerhaus:
    git clone https://github.com/jaypyles/scraperr.git
    
  2. Setzen von Umgebungsvariablen und Tags: In der docker-compose.yml Datei, um zum Beispiel Umgebungsvariablen und Bezeichnungen zu setzen:
    scraperr:
    labels:
    - "traefik.enable=true"
    - "traefik.http.routers.scraperr.rule=Host(`localhost`)"
    - "traefik.http.routers.scraperr.entrypoints=web"
    scraperr_api:
    environment:
    - LOG_LEVEL=INFO
    - MONGODB_URI=mongodb://root:example@webscrape-mongo:27017
    - SECRET_KEY=your_secret_key
    - ALGORITHM=HS256
    - ACCESS_TOKEN_EXPIRE_MINUTES=600
    
  3. Starten Sie den Dienst:
    docker-compose up -d
    

Verwendungsprozess

  1. URL zum Crawlen einreichen::
    • Nachdem Sie sich bei Scraperr angemeldet haben, gehen Sie auf die Seite Scraping-Aufgaben.
    • Geben Sie die zu crawlende URL und das entsprechende XPath-Element ein.
    • Nachdem Sie eine Aufgabe eingereicht haben, stellt das System sie automatisch in die Warteschlange und beginnt, sie zu erfassen.
  2. Verwalten von Crawl-Elementen::
    • Auf der Crawl-Aufgabenseite können Sie XPath-Elemente hinzufügen, bearbeiten oder löschen.
    • Unterstützt das Crawlen aller Seiten unter derselben Domain.
  3. Crawl-Ergebnisse anzeigen::
    • Sobald die Erfassung abgeschlossen ist, werden die Ergebnisse in einer Tabelle angezeigt.
    • Der Benutzer kann eine CSV-Datei mit den Ergebnissen herunterladen oder die Aufgabe erneut ausführen.
  4. Verwaltung der Aufgaben::
    • Die Benutzer können den Status von Aufgaben in der Warteschlange überprüfen, Lesezeichen setzen und mit Lesezeichen versehene Aufgaben anzeigen.
    • Bietet die Ansicht Task-Statistiken, in der Statistiken zu den laufenden Tasks angezeigt werden.
  5. Log-Ansicht::
    • Auf der Seite Anwendungsprotokoll können die Benutzer das Systemprotokoll mit detaillierten Informationen über die Erfassungsaufgabe einsehen.
  6. KI-Integration::
    • Unterstützung für die Einbindung von Erfassungsergebnissen in Dialogkontexte, derzeit unterstützt Ollama und OpenAI.
Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " Scraperr: selbstgehostetes Tool zum Scrapen von Webdaten
de_DEDeutsch