GPT Crawler: Crawlen von Wissensdatenbankdateien von Websites zur Erstellung benutzerdefinierter GPTs

🚀 DeepSeek verzögert? Diese Seite ist kostenlos! Vollblütiger DeepSeek-R1, reibungslos und netzwerkfähig! Unbegrenzte Nutzung!

Allgemeine Einführung

GPT Crawler ist ein Open-Source-Tool, das es Benutzern ermöglicht, Wissensdateien zu generieren, indem sie den Inhalt einer bestimmten Website crawlen, was wiederum maßgeschneiderte GPT-Modelle erzeugt. Das Projekt wird hauptsächlich zum Crawlen und Organisieren von Webinformationen verwendet, unterstützt die Ausführung über die API und den lokalen Einsatz. Die Nutzer können den Crawler flexibel konfigurieren, um ihn an unterschiedliche Website-Strukturen und -Anforderungen anzupassen und so für den eigenen Gebrauch geeignete Wissensdatenbanken zu erstellen.

Funktionsliste

Crawling von Website-Inhalten zur Erstellung von Wissensdateien
Unterstützt API und lokale Bereitstellungsläufe
Flexible Konfiguration der Crawler-Parameter
Erzeugen von kundenspezifischen GPT-Modellen
Unterstützt den Ausschluss von mehreren Dateiformaten

Hilfe verwenden

Ablauf der Installation

Klon-Lager: Stellen Sie zunächst sicher, dass Sie Node.js >= 16 installiert haben. Führen Sie dann den folgenden Befehl aus, um das Repository zu klonen:
```
git klonen. https://github.com/BuilderIO/gpt-crawler
```
Installation von Abhängigkeiten: Wechseln Sie in das Projektverzeichnis und installieren Sie die Abhängigkeiten:
```
cd gpt-crawler
npm-Installation
```

Den Crawler konfigurieren: Öffnen config.ts Datei, bearbeiten Sie die url im Gesang antworten Selektor Eigenschaft an Ihre Bedürfnisse anpassen. Um zum Beispiel Builder.io-Dokumente zu crawlen, können Sie die folgende Konfiguration verwenden:

exportieren const defaultConfig: Konfigurieren Sie = {
  url: "https://www.builder.io/c/docs/developers",
  Spiel: "https://www.builder.io/c/docs/**",
  Selektor: ".docs-builder-container",
  maxPagesToCrawl: 50,
  outputFileName: "output.json",
};

Ausführen des CrawlersSobald die Konfiguration abgeschlossen ist, führen Sie den folgenden Befehl aus, um den Crawler zu starten:
```
npm run start
```

Anweisungen für den Gebrauch

Konfigurationsdatei: in config.ts Datei können Sie Parameter wie die Start-URL des Crawlers, das Übereinstimmungsmuster, den Selektor, die maximale Anzahl der zu crawlenden Seiten usw. festlegen. Stellen Sie sicher, dass diese Parameter mit der Struktur der Zielsite übereinstimmen.
Ausführen des Crawlers: Verwendung npm run start startet den Crawler, der den Inhalt der Website durchsucht und auf der Grundlage der Parameter in der Konfigurationsdatei Wissensdateien erzeugt.
GPT-Modell generierenSobald der Crawler abgeschlossen ist, werden die erzeugten Wissensdateien im Projektverzeichnis gespeichert. Sie können diese Dateien in OpenAI oder andere GPT-Dienste hochladen, um eigene GPT-Modelle zu erstellen.
API-VerwendungWenn Sie den Crawler über die API laufen lassen wollen, können Sie die API-Dokumentation im Projekt nutzen, um den API-Dienst zu konfigurieren und zu starten.

caveat

Ressourcenausschluss: in config.ts Datei, können Sie die resourceExclusions Attribut schließt unerwünschte Dateitypen wie Bilder, Videos usw. aus.
Begrenzung der DateigrößeSie können einstellen maxFileSize im Gesang antworten maxTokens Attribut, das die maximale Größe der erzeugten Datei und die maximale Token Menge.

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns

GPT Crawler: Crawlen von Wissensdatenbank-Dokumenten von Websites zur Erstellung benutzerdefinierter GPTs

Allgemeine Einführung

Funktionsliste

Hilfe verwenden

Ablauf der Installation

Anweisungen für den Gebrauch

caveat

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

FLUX.1 Bildgenerator (unterstützt chinesische Eingaben)

Neuerscheinungen

Beliebte Artikel

Heiße Tags.

Chef-KI-Austauschkreis