AI Personal Learning
und praktische Anleitung
Sitzsack Marscode1

GPT-Crawler: Automatisches Crawlen von Website-Inhalten zur Erzeugung von Wissensdatenbank-Dokumenten

Allgemeine Einführung

GPT-Crawler ist ein Open-Source-Tool, das vom BuilderIO-Team entwickelt und auf GitHub gehostet wird. Es durchsucht Seiteninhalte durch Eingabe einer oder mehrerer Website-URLs und erzeugt strukturierte Wissensdokumente (output.json) zur Erstellung benutzerdefinierter GPT- oder AI-Assistenten. Benutzer können Crawling-Regeln konfigurieren, wie z. B. die Angabe einer Start-URL und eines Inhaltsselektors, und das Tool extrahiert den Text automatisch und organisiert ihn in Dateien. Das Tool ist einfach zu bedienen und unterstützt lokale Ausführungen, Docker-Container-Bereitstellungen und API-Aufrufe, so dass es für Entwickler ideal ist, um schnell eigene KI-Assistenten aus Website-Inhalten zu erstellen. Bisher hat es in der Tech-Community aufgrund seiner Effizienz und seines Open-Source-Charakters an Zugkraft gewonnen.

GPT Crawler: Crawlen von Wissensdateien von Websites zur Erstellung benutzerdefinierter GPTs-1


 

Funktionsliste

  • Durchsucht Website-Inhalte von einer oder mehreren URLs und erzeugt output.json Dokumentation.
  • Unterstützung für benutzerdefinierte Crawling-Regeln, einschließlich Start-URLs, Link-Matching-Muster und CSS-Selektoren.
  • Fähigkeit, dynamische Webseiten zu verarbeiten und client-seitig gerenderte Inhalte mit einem Headless-Browser zu crawlen.
  • Bietet eine API-Schnittstelle zum Starten von Crawling-Aufgaben über POST-Anfragen.
  • Unterstützt die Einstellung der maximalen Anzahl von Seiten (maxPagesToCrawl), Dokumentengröße (maxFileSize) und die Anzahl der Token (maxTokens).
  • Die generierten Dateien können direkt in OpenAI hochgeladen werden, um eigene GPTs oder KI-Assistenten zu erstellen.
  • Unterstützt die Ausführung von Docker-Containern, die sich leicht in verschiedenen Umgebungen einsetzen lassen.
  • Bestimmte Ressourcentypen (z. B. Bilder, Videos usw.) können ausgeschlossen werden, um die Crawling-Effizienz zu optimieren.

 

Hilfe verwenden

Installation und Betrieb (lokaler Modus)

GPT-Crawler basiert auf der Entwicklung von Node.js und muss installiert werden, um zu laufen. Hier sind die detaillierten Schritte:

  1. Überprüfung der Umgebung
    Vergewissern Sie sich, dass auf Ihrem Computer Node.js (Version 16 oder höher) und npm installiert ist. Führen Sie zur Bestätigung den folgenden Befehl aus:
node -v
npm -v

Wenn Sie es nicht haben, können Sie es von der Node.js-Website herunterladen und installieren.

  1. Klonprojekt
    Laden Sie das Projekt lokal herunter, indem Sie den Befehl in das Terminal eingeben:
git clone https://github.com/BuilderIO/gpt-crawler.git
  1. Zugang zum Katalog
    Sobald der Download abgeschlossen ist, wechseln Sie in den Projektordner:
cd gpt-crawler
  1. Installation von Abhängigkeiten
    Führen Sie den folgenden Befehl aus, um die erforderlichen Pakete zu installieren:
npm install
  1. Den Crawler konfigurieren
    zeigen (eine Eintrittskarte) config.ts Datei, ändern Sie die Crawl-Parameter. Zum Beispiel, um das Dokument Builder.io zu crawlen:
export const defaultConfig: Config = {
url: "https://www.builder.io/c/docs/developers",
match: "https://www.builder.io/c/docs/**",
selector: ".docs-builder-container",
maxPagesToCrawl: 50,
outputFileName: "output.json"
};
  • url: Beginnende Crawl-Adresse.
  • matchLink Matching Pattern mit Wildcard-Unterstützung.
  • selectorCSS-Selektor zum Extrahieren von Inhalten.
  • maxPagesToCrawlMaximale Anzahl der zu crawlenden Seiten.
  • outputFileNameName der Ausgabedatei.
  1. Ausführen des Crawlers
    Sobald die Konfiguration abgeschlossen ist, führen Sie den folgenden Befehl aus, um den Crawl zu starten:
npm start

Nach Abschluss.output.json Datei wird im Stammverzeichnis des Projekts erstellt.

Alternative Betriebsarten

Verwendung von Docker-Containern

  1. Stellen Sie sicher, dass Docker installiert ist (heruntergeladen von der Docker-Website).
  2. gehen in containerapp Ordner, Bearbeiten config.ts.
  3. Führen Sie den folgenden Befehl aus, um den Container zu erstellen und zu starten:
docker build -t gpt-crawler .
docker run -v $(pwd)/data:/app/data gpt-crawler
  1. Die Ausgabedatei wird in der Datei data Ordner.

Arbeiten mit der API

  1. Nachdem Sie die Abhängigkeiten installiert haben, starten Sie den API-Dienst:
npm run start:server
  1. Der Dienst läuft standardmäßig auf dem http://localhost:3000.
  2. Senden Sie eine POST-Anfrage an /crawl, Beispiel:
curl -X POST http://localhost:3000/crawl -H "Content-Type: application/json" -d '{"url":"https://example.com","match":"https://example.com/**","selector":"body","maxPagesToCrawl":10,"outputFileName":"output.json"}'
  1. zugänglich /api-docs Sehen Sie sich die API-Dokumentation an (basierend auf Swagger).

Hochladen zu OpenAI

  1. Benutzerdefinierte GPTs erstellen
  • ChatGPT öffnen.
  • Klicken Sie auf Ihren Namen in der unteren linken Ecke und wählen Sie "Meine GPTs".
  • Klicken Sie auf "Ein GPT erstellen" > "Konfigurieren" > "Wissen".
  • hochladen output.json Dokumentation.
  • Wenn die Datei zu groß ist, wird die config.ts aufstellen maxFileSize vielleicht maxTokens Datei teilen.
  1. Benutzerdefinierte Assistenten erstellen
  • Öffnen Sie die OpenAI-Plattform.
  • Klicken Sie auf "+ Erstellen" > "Hochladen".
  • hochladen output.json Dokumentation.

Funktionen

  • Inhalt crawlen
    eindeutig und sicher angeben url im Gesang antworten selector Danach extrahiert das Tool den Seitentext. Zum Beispiel..docs-builder-container Erfassen Sie nur den Inhalt der Region.
  • Dateien generieren
    Das Format der Ausgabedatei ist:
[{"title": "页面标题", "url": "https://example.com/page", "html": "提取的文本"}, ...]
  • Optimierte Leistung
    ausnutzen resourceExclusions Fremde Ressourcen ausschließen (z. B. pngundjpg), was die Dateigröße reduziert.

caveat

  • Um benutzerdefinierte GPTs zu erstellen, ist ein kostenpflichtiges OpenAI-Konto erforderlich.
  • Dynamisches Web-Crawling stützt sich auf Headless-Browser, um die Integrität von Abhängigkeiten zu gewährleisten.
  • Die Konfiguration kann so angepasst werden, dass der Upload aufgeteilt wird, wenn die Datei zu groß ist.

 

Anwendungsszenario

  1. Assistentin für technische Unterstützung
    Durchsuchen Sie Websites mit Produktdokumentationen, um KI-Assistenten zu erstellen, die Benutzern bei der Beantwortung technischer Fragen helfen.
  2. Werkzeuge zur Organisation von Inhalten
    Nutzen Sie Artikel aus Blogs oder Nachrichtenseiten, um eine Wissensdatenbank oder einen Assistenten für Fragen und Antworten zu erstellen.
  3. Assistentin für allgemeine und berufliche Bildung
    Durchsuchen Sie Online-Kursseiten, um Lernassistenten zu erstellen, die kursbezogene Antworten liefern.

 

QA

  1. Ist es möglich, mehrere Websites zu crawlen?
    Dose. Im config.ts Legen Sie einfach mehrere URLs und Übereinstimmungsregeln in der
  2. Was ist, wenn die Datei zum Hochladen zu groß ist?
    aufstellen maxFileSize vielleicht maxTokenswird die Datei in mehrere kleinere Dateien aufgeteilt.
  3. Unterstützen Sie chinesische Websites?
    Unterstützung. Solange der Inhalt der Website von Headless-Browsern geparst werden kann, kann er ordnungsgemäß gecrawlt werden.
Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " GPT-Crawler: Automatisches Crawlen von Website-Inhalten zur Erzeugung von Wissensdatenbank-Dokumenten
de_DEDeutsch