AIパーソナル・ラーニング
と実践的なガイダンス

GPTクローラー:ウェブサイトから知識ベース文書をクローリングしてカスタムGPTを作成する

はじめに

GPT Crawlerは、ユーザーが特定のウェブサイトのコンテンツをクロールすることによって知識ファイルを生成し、カスタマイズされたGPTモデルを作成することができるオープンソースツールです。このプロジェクトは、主にウェブ情報のクロールと整理に使用されます。ユーザは、異なるウェブサイトの構造やニーズに適応するようにクローラを柔軟に設定することができます。

GPT Crawler: ウェブサイトから知識ファイルをクロールし、カスタムGPTを作成する-1


 

 

機能一覧

  • ウェブサイトのコンテンツをクロールしてナレッジファイルを生成
  • APIおよびローカルでのデプロイ実行をサポート
  • クローラーパラメータの柔軟な設定
  • カスタマイズされたGPTモデルの生成
  • 複数のファイル形式の除外をサポート

 

 

ヘルプの使用

設置プロセス

  1. クローン倉庫まず、Node.js >= 16がインストールされていることを確認し、以下のコマンドを実行してリポジトリをクローンする:
    ギット クローン https://github.com/BuilderIO/gpt-crawler
    
  2. 依存関係のインストールプロジェクト・ディレクトリに移動し、依存関係をインストールする:
    cd gpt-crawler
    npmインストール
    
  3. クローラーの設定オープン config.ts ファイルを編集する。 url 歌で応える セレクタ プロパティを使用します。例えば、Builder.ioドキュメントをクロールするには、以下の設定を使用できます:
    輸出 コンスト デフォルト設定: コンフィグ = {
      url: "https://www.builder.io/c/docs/developers",
      一致: "https://www.builder.io/c/docs/**",
      セレクタ: ".docs-builder-container",
      最大クロールページ数: 50,
      出力ファイル名: "output.json",
    };
    
  4. クローラーの実行設定が完了したら、以下のコマンドを実行してクローラーを起動する:
    npm run start
    

 

使用方法

  1. 設定ファイルconfig.ts ファイルでは、クローラーの開始URL、マッチパターン、セレクタ、クロールする最大ページ数などのパラメータを設定できる。これらのパラメータが、ターゲット・サイトの構造と一致していることを確認する。
  2. クローラーの実行使用 npm run start コマンドはクローラーを起動し、ウェブサイトのコンテンツをクロールし、設定ファイルのパラメータに基づいてナレッジファイルを生成します。
  3. GPTモデルの生成クローラーが完了すると、生成されたナレッジファイルがプロジェクトディレクトリに保存されます。これらのファイルをOpenAIや他のGPTサービスにアップロードして、カスタムGPTモデルを作成することができます。
  4. APIの使用API経由でクローラーを実行したい場合は、プロジェクト内のAPIドキュメントを参照して、APIサービスの設定と起動を行ってください。

 

ほら

  • 資源除外config.ts ファイルに渡すことができます。 リソース除外 属性は、画像や動画などの不要なファイルタイプを除外します。
  • ファイルサイズ制限を設定できます。 最大ファイルサイズ 歌で応える 最大トークン 属性は、生成されるファイルの最大サイズと最大 トークン 数量。
無断転載を禁じます:チーフAIシェアリングサークル " GPTクローラー:ウェブサイトから知識ベース文書をクローリングしてカスタムGPTを作成する

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語