はじめに
llmstxt-generatorは、大規模言語モデル(LLM)の学習と推論のための高品質なテキストデータセットを準備することに特化した、プロフェッショナルなウェブコンテンツ抽出・統合ツールです。Mendable AIによって開発されたこのツールは、@firecrawl_devによって提供されたウェブクローリング技術と、テキスト処理用のGPT-4-miniを使用しています。このツールは、指定されたウェブサイトのコンテンツを自動的にクロールし、すべてのコンテンツを標準化されたテキストファイルに統合する。このツールは、便利なウェブインタフェースとAPIインタフェースを提供し、ユーザが簡単にトレーニングデータセットを生成できるため、特にウェブサイトからテキストデータを大量に取得する必要があるAI研究者や開発者に適している。
機能一覧
- 対象となるウェブサイトのコンテンツに関連するすべてのページを自動的にクロールします。
- 標準形式(llms.txt)と完全形式(llms-full.txt)の2種類のテキスト出力形式があります。
- ウェブインターフェースによる直感的な操作をサポート
- プログラムによる呼び出しを可能にするRESTful APIインターフェイスの提供
- GitHubリポジトリコンテンツの特別な処理のサポート
- ウェブコンテンツのインテリジェントな抽出と処理が可能
- FirecrawlのカスタムAPIキーをサポートし、クロールの上限を増やす。
- データ取得効率を向上させるウェブ・キャッシング・メカニズムを搭載
- 複数のコンテンツフォーマット変換をサポート(例:Markdown)
ヘルプの使用
1.ウェブ・インターフェースの使用
- 公式ウェブサイトはこちら:https://llmstxt.firecrawl.dev
- 入力ボックスに対象ウェブサイトのURLを入力する。
- Generate "ボタンをクリックしてテキストの生成を開始する。
- 処理が完了するまで待ち、生成されたテキストファイルを取得する。
2.APIの使用
基本的なAPIコール:
https://llmstxt.firecrawl.dev/[your_url_here] を取得する。
- 通常版のテキストを入手:上記URLに直接アクセス
- テキストの完全版を入手するには、URLの最後に"/full "を追加する。
カスタムAPIキーを使用する:
より高いクロール制限が必要な場合は、以下の方法で自分のクロール制限を使うことができる。 Firecrawl APIキー::
get https://llmstxt.firecrawl.dev/[your_url_here]?firecrawl_api_key=your_api_key
3.現地展開のガイドライン
ローカル環境で実行する必要がある場合は、以下の手順に従ってください:
- 環境設定:
確立環境
ファイルを作成し、以下の必要なパラメータを設定する:
FIRECRAWL_API_KEY=あなたのキー
SUPABASE_URL=あなたのスーパベースのURL
SUPABASE_KEY=あなたのスーパベースのキー
OPENAI_API_KEY=あなたのOpenAIキー
- インストールと操作:
npm install
npm run dev
4.使用上の注意
- 処理時間:サイトのクロールとLLMの処理操作を行う必要があるため、数分かかる場合があります。
- 無料版の制限:カスタムAPIキーなしで1サイトにつき10ページまで
- アドバンス版:カスタムFirecrawl APIキーで100ページまで制限可能
- キャッシュ・メカニズム:システムは結果をキャッシュし、3日以内に同じURLに対して繰り返されるリクエストは、直接キャッシュに返されます。
- GitHubリポジトリのサポート:GitHubリポジトリのURLは、リポジトリ関連のコンテンツを抽出するために特別に処理されます。