はじめに
GPT Crawlerは、ユーザーが特定のウェブサイトのコンテンツをクロールすることによって知識ファイルを生成し、カスタマイズされたGPTモデルを作成することができるオープンソースツールです。このプロジェクトは、主にウェブ情報のクロールと整理に使用されます。ユーザは、異なるウェブサイトの構造やニーズに適応するようにクローラを柔軟に設定することができます。
機能一覧
- ウェブサイトのコンテンツをクロールしてナレッジファイルを生成
- APIおよびローカルでのデプロイ実行をサポート
- クローラーパラメータの柔軟な設定
- カスタマイズされたGPTモデルの生成
- 複数のファイル形式の除外をサポート
ヘルプの使用
設置プロセス
- クローン倉庫まず、Node.js >= 16がインストールされていることを確認し、以下のコマンドを実行してリポジトリをクローンする:
ギット クローン https://github.com/BuilderIO/gpt-crawler
- 依存関係のインストールプロジェクト・ディレクトリに移動し、依存関係をインストールする:
cd gpt-crawler npmインストール
- クローラーの設定オープン
config.ts
ファイルを編集する。url
歌で応えるセレクタ
プロパティを使用します。例えば、Builder.ioドキュメントをクロールするには、以下の設定を使用できます:輸出 コンスト デフォルト設定: コンフィグ = { url: "https://www.builder.io/c/docs/developers", 一致: "https://www.builder.io/c/docs/**", セレクタ: ".docs-builder-container", 最大クロールページ数: 50, 出力ファイル名: "output.json", };
- クローラーの実行設定が完了したら、以下のコマンドを実行してクローラーを起動する:
npm run start
使用方法
- 設定ファイルで
config.ts
ファイルでは、クローラーの開始URL、マッチパターン、セレクタ、クロールする最大ページ数などのパラメータを設定できる。これらのパラメータが、ターゲット・サイトの構造と一致していることを確認する。 - クローラーの実行使用
npm run start
コマンドはクローラーを起動し、ウェブサイトのコンテンツをクロールし、設定ファイルのパラメータに基づいてナレッジファイルを生成します。 - GPTモデルの生成クローラーが完了すると、生成されたナレッジファイルがプロジェクトディレクトリに保存されます。これらのファイルをOpenAIや他のGPTサービスにアップロードして、カスタムGPTモデルを作成することができます。
- APIの使用API経由でクローラーを実行したい場合は、プロジェクト内のAPIドキュメントを参照して、APIサービスの設定と起動を行ってください。
ほら
- 資源除外で
config.ts
ファイルに渡すことができます。リソース除外
属性は、画像や動画などの不要なファイルタイプを除外します。 - ファイルサイズ制限を設定できます。
最大ファイルサイズ
歌で応える最大トークン
属性は、生成されるファイルの最大サイズと最大 トークン 数量。