Scraperr: selbstgehostetes Tool zum Scrapen von Webdaten

🚀 DeepSeek verzögert? Diese Seite ist kostenlos! Vollblütiger DeepSeek-R1, reibungslos und netzwerkfähig! Unbegrenzte Nutzung!

Allgemeine Einführung

Scraperr ist ein selbstgehostetes Tool zum Scrapen von Webdaten, mit dem Sie XPath-Elemente zum Scrapen von Webdaten angeben können. Benutzer übermitteln eine URL und die entsprechenden Crawling-Elemente, und die Ergebnisse werden in einer Tabelle angezeigt, die als Excel-Datei heruntergeladen werden kann.Scraperr unterstützt Benutzeranmeldung, um Crawling-Aufgaben zu verwalten, und bietet Protokollanzeige und Statistiken.

Funktionsliste

URLs für Web-Crawling anmelden und in die Warteschlange stellen
Hinzufügen und Verwalten von Crawl-Elementen mit XPath
Crawlen aller Seiten unter demselben Domainnamen
Hinzufügen benutzerdefinierter JSON-Header zum Senden von Anfragen
Anzeige der Ergebnisse der erfassten Daten
Laden Sie die CSV-Datei mit den Ergebnissen herunter
Wiederholen Sie die Erfassungsaufgabe
Anzeigen des Status von Aufgaben in der Warteschlange
Setzen von Lesezeichen und Anzeigen von mit Lesezeichen versehenen Aufgaben
Benutzeranmeldung/-registrierung zur Organisation von Aufgaben
Anwendungsprotokolle anzeigen
Aufgabenstatistik anzeigen
KI-Integration zur Unterstützung der Einbeziehung von Crawl-Ergebnissen im Rahmen eines Dialogs

Hilfe verwenden

Ablauf der Installation

Klon-Lagerhaus:

git clone https://github.com/jaypyles/scraperr.git

Setzen von Umgebungsvariablen und Tags: In der docker-compose.yml Datei, um zum Beispiel Umgebungsvariablen und Bezeichnungen zu setzen:

scraper.
Bezeichnungen.
- "traefik.enable=true"
- traefik.http.routers.scraperr.rule=Host(`localhost`)"
- "traefik.http.routers.scraperr.entrypoints=web"
scraperr_api.
Umgebung.
- LOG_LEVEL=INFO
- MONGODB_URI=mongodb://root:example@webscrape-mongo:27017
- SECRET_KEY=Ihr_geheimer_Schlüssel
- ALGORITHMUS=HS256
- access_token_expire_minutes=600

Starten Sie den Dienst:
```
docker-compose up -d
```

Verwendung Prozess

URL zum Crawlen einreichen::
- Nachdem Sie sich bei Scraperr angemeldet haben, gehen Sie auf die Seite Scraping-Aufgaben.
- Geben Sie die zu crawlende URL und das entsprechende XPath-Element ein.
- Nachdem Sie eine Aufgabe eingereicht haben, stellt das System sie automatisch in die Warteschlange und beginnt, sie zu erfassen.
Verwalten von Crawl-Elementen::
- Auf der Crawl-Aufgabenseite können Sie XPath-Elemente hinzufügen, bearbeiten oder löschen.
- Unterstützt das Crawlen aller Seiten unter derselben Domain.
Crawl-Ergebnisse anzeigen::
- Sobald die Erfassung abgeschlossen ist, werden die Ergebnisse in einer Tabelle angezeigt.
- Der Benutzer kann eine CSV-Datei mit den Ergebnissen herunterladen oder die Aufgabe erneut ausführen.
Aufgabenverwaltung::
- Die Benutzer können den Status von Aufgaben in der Warteschlange überprüfen, Lesezeichen setzen und mit Lesezeichen versehene Aufgaben anzeigen.
- Bietet die Ansicht Aufgabenstatistik, in der Statistiken für ausgeführte Aufgaben angezeigt werden.
Log-Ansicht::
- Auf der Seite Anwendungsprotokolle können die Benutzer die Systemprotokolle mit detaillierten Informationen über die Erfassungsaufgabe einsehen.
KI-Integration::
- Unterstützung für die Einbindung von Kriechergebnissen in Dialogkontexte, derzeit unterstützt Ollama und OpenAI.

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns

Scraperr: selbstgehostetes Tool zum Scrapen von Webdaten

Allgemeine Einführung

Funktionsliste

Hilfe verwenden

Ablauf der Installation

Verwendung Prozess

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

FLUX.1 Bildgenerator (unterstützt chinesische Eingaben)

Neuerscheinungen

Beliebte Artikel

Heiße Tags.

Chef-KI-Austauschkreis