AI Personal Learning
und praktische Anleitung

GPT Crawler: Crawlen von Wissensdatenbank-Dokumenten von Websites zur Erstellung benutzerdefinierter GPTs

Allgemeine Einführung

GPT Crawler ist ein Open-Source-Tool, das es Benutzern ermöglicht, Wissensdateien zu generieren, indem sie den Inhalt einer bestimmten Website crawlen, was wiederum maßgeschneiderte GPT-Modelle erzeugt. Das Projekt wird hauptsächlich zum Crawlen und Organisieren von Webinformationen verwendet, unterstützt die Ausführung über die API und den lokalen Einsatz. Die Nutzer können den Crawler flexibel konfigurieren, um ihn an unterschiedliche Website-Strukturen und -Anforderungen anzupassen und so für den eigenen Gebrauch geeignete Wissensdatenbanken zu erstellen.

GPT Crawler: Crawlen von Wissensdateien von Websites zur Erstellung benutzerdefinierter GPTs-1


 

 

Funktionsliste

  • Crawling von Website-Inhalten zur Erstellung von Wissensdateien
  • Unterstützt API und lokale Bereitstellungsläufe
  • Flexible Konfiguration der Crawler-Parameter
  • Erzeugen von kundenspezifischen GPT-Modellen
  • Unterstützt den Ausschluss von mehreren Dateiformaten

 

 

Hilfe verwenden

Ablauf der Installation

  1. Klon-Lager: Stellen Sie zunächst sicher, dass Sie Node.js >= 16 installiert haben. Führen Sie dann den folgenden Befehl aus, um das Repository zu klonen:
    git klonen. https://github.com/BuilderIO/gpt-crawler
    
  2. Installation von Abhängigkeiten: Wechseln Sie in das Projektverzeichnis und installieren Sie die Abhängigkeiten:
    cd gpt-crawler
    npm-Installation
    
  3. Den Crawler konfigurieren: Öffnen config.ts Datei, bearbeiten Sie die url im Gesang antworten Selektor Eigenschaft an Ihre Bedürfnisse anpassen. Um zum Beispiel Builder.io-Dokumente zu crawlen, können Sie die folgende Konfiguration verwenden:
    exportieren const defaultConfig: Konfigurieren Sie = {
      url: "https://www.builder.io/c/docs/developers",
      Spiel: "https://www.builder.io/c/docs/**",
      Selektor: ".docs-builder-container",
      maxPagesToCrawl: 50,
      outputFileName: "output.json",
    };
    
  4. Ausführen des CrawlersSobald die Konfiguration abgeschlossen ist, führen Sie den folgenden Befehl aus, um den Crawler zu starten:
    npm run start
    

 

Anweisungen für den Gebrauch

  1. Konfigurationsdatei: in config.ts Datei können Sie Parameter wie die Start-URL des Crawlers, das Übereinstimmungsmuster, den Selektor, die maximale Anzahl der zu crawlenden Seiten usw. festlegen. Stellen Sie sicher, dass diese Parameter mit der Struktur der Zielsite übereinstimmen.
  2. Ausführen des Crawlers: Verwendung npm run start startet den Crawler, der den Inhalt der Website durchsucht und auf der Grundlage der Parameter in der Konfigurationsdatei Wissensdateien erzeugt.
  3. GPT-Modell generierenSobald der Crawler abgeschlossen ist, werden die erzeugten Wissensdateien im Projektverzeichnis gespeichert. Sie können diese Dateien in OpenAI oder andere GPT-Dienste hochladen, um eigene GPT-Modelle zu erstellen.
  4. API-VerwendungWenn Sie den Crawler über die API laufen lassen wollen, können Sie die API-Dokumentation im Projekt nutzen, um den API-Dienst zu konfigurieren und zu starten.

 

caveat

  • Ressourcenausschluss: in config.ts Datei, können Sie die resourceExclusions Attribut schließt unerwünschte Dateitypen wie Bilder, Videos usw. aus.
  • Begrenzung der DateigrößeSie können einstellen maxFileSize im Gesang antworten maxTokens Attribut, das die maximale Größe der erzeugten Datei und die maximale Token Menge.
AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " GPT Crawler: Crawlen von Wissensdatenbank-Dokumenten von Websites zur Erstellung benutzerdefinierter GPTs

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)