AI Personal Learning
und praktische Anleitung

Scraperr: selbstgehostetes Tool zum Scrapen von Webdaten

Allgemeine Einführung

Scraperr ist ein selbstgehostetes Tool zum Scrapen von Webdaten, mit dem Sie XPath-Elemente zum Scrapen von Webdaten angeben können. Benutzer übermitteln eine URL und die entsprechenden Crawling-Elemente, und die Ergebnisse werden in einer Tabelle angezeigt, die als Excel-Datei heruntergeladen werden kann.Scraperr unterstützt Benutzeranmeldung, um Crawling-Aufgaben zu verwalten, und bietet Protokollanzeige und Statistiken.

Scraperr: selbstgehostetes Tool zum Scrapen von Webdaten-1


 

Funktionsliste

  • URLs für Web-Crawling anmelden und in die Warteschlange stellen
  • Hinzufügen und Verwalten von Crawl-Elementen mit XPath
  • Crawlen aller Seiten unter demselben Domainnamen
  • Hinzufügen benutzerdefinierter JSON-Header zum Senden von Anfragen
  • Anzeige der Ergebnisse der erfassten Daten
  • Laden Sie die CSV-Datei mit den Ergebnissen herunter
  • Wiederholen Sie die Erfassungsaufgabe
  • Anzeigen des Status von Aufgaben in der Warteschlange
  • Setzen von Lesezeichen und Anzeigen von mit Lesezeichen versehenen Aufgaben
  • Benutzeranmeldung/-registrierung zur Organisation von Aufgaben
  • Anwendungsprotokolle anzeigen
  • Aufgabenstatistik anzeigen
  • KI-Integration zur Unterstützung der Einbeziehung von Crawl-Ergebnissen im Rahmen eines Dialogs

 

Hilfe verwenden

Ablauf der Installation

  1. Klon-Lagerhaus:
    git clone https://github.com/jaypyles/scraperr.git
    
  2. Setzen von Umgebungsvariablen und Tags: In der docker-compose.yml Datei, um zum Beispiel Umgebungsvariablen und Bezeichnungen zu setzen:
    scraper.
    Bezeichnungen.
    - "traefik.enable=true"
    - traefik.http.routers.scraperr.rule=Host(`localhost`)"
    - "traefik.http.routers.scraperr.entrypoints=web"
    scraperr_api.
    Umgebung.
    - LOG_LEVEL=INFO
    - MONGODB_URI=mongodb://root:example@webscrape-mongo:27017
    - SECRET_KEY=Ihr_geheimer_Schlüssel
    - ALGORITHMUS=HS256
    - access_token_expire_minutes=600
    
  3. Starten Sie den Dienst:
    docker-compose up -d
    

Verwendung Prozess

  1. URL zum Crawlen einreichen::
    • Nachdem Sie sich bei Scraperr angemeldet haben, gehen Sie auf die Seite Scraping-Aufgaben.
    • Geben Sie die zu crawlende URL und das entsprechende XPath-Element ein.
    • Nachdem Sie eine Aufgabe eingereicht haben, stellt das System sie automatisch in die Warteschlange und beginnt, sie zu erfassen.
  2. Verwalten von Crawl-Elementen::
    • Auf der Crawl-Aufgabenseite können Sie XPath-Elemente hinzufügen, bearbeiten oder löschen.
    • Unterstützt das Crawlen aller Seiten unter derselben Domain.
  3. Crawl-Ergebnisse anzeigen::
    • Sobald die Erfassung abgeschlossen ist, werden die Ergebnisse in einer Tabelle angezeigt.
    • Der Benutzer kann eine CSV-Datei mit den Ergebnissen herunterladen oder die Aufgabe erneut ausführen.
  4. Aufgabenverwaltung::
    • Die Benutzer können den Status von Aufgaben in der Warteschlange überprüfen, Lesezeichen setzen und mit Lesezeichen versehene Aufgaben anzeigen.
    • Bietet die Ansicht Aufgabenstatistik, in der Statistiken für ausgeführte Aufgaben angezeigt werden.
  5. Log-Ansicht::
    • Auf der Seite Anwendungsprotokolle können die Benutzer die Systemprotokolle mit detaillierten Informationen über die Erfassungsaufgabe einsehen.
  6. KI-Integration::
    • Unterstützung für die Einbindung von Kriechergebnissen in Dialogkontexte, derzeit unterstützt Ollama und OpenAI.
AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Scraperr: selbstgehostetes Tool zum Scrapen von Webdaten

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)