AIパーソナル・ラーニング
と実践的なガイダンス
サイバーナイフ用ドローイングミラー

SiteMCP:ウェブサイトのコンテンツをクローリングし、MCPサービスに変える

はじめに

SiteMCPはオープンソースのツールで、その主な機能は、ウェブサイト全体のコンテンツをクロールし、MCP(モデル・コンテキスト・プロトコル)サーバーにすることである。 クロード Desktop)を使ってウェブサイトのデータに直接アクセスすることができる。これは開発者のryoppippiによって開発され、GitHubでホストされている。 sitefetchsiteMCPは2025年4月7日にnpmでリリースされ、AIが外部情報にアクセスしやすくすることを目的としている。siteMCPを使えば、ユーザーはウェブサイトのアドレスを入力するだけで、ページを素早くキャッシュし、ローカルサーバーを起動することができる。全プロセスはシンプルかつ効率的で、開発者、技術愛好家、一般ユーザーに適している。

SiteMCP:ウェブサイトをクローリングしてMCPサービスへ-1


 

機能一覧

  • 指定されたウェブサイトの全ページまたは一部を巡回し、ローカルにキャッシュする。
  • クロールされたウェブサイトのデータを エムシーピー サーバーにAIをアクセスさせる。
  • コマンドラインによる同時実行数の設定のサポート(例えば --concurrency)でクロール速度を向上させる。
  • 提供 -m パラメータで、特定のページパス(たとえば /blog/**).
  • アジュバント --content-selector パラメータを使用して、ウェブページの指定された領域のコンテンツを抽出します。
  • デフォルトのキャッシュ ~/.cache/sitemcpキャッシュは他のバージョンと同じようには利用できませんが、キャッシュパスのカスタマイズやキャッシュの無効化はサポートされています。
  • クロードデスクトップなど、MCPプロトコルをサポートするクライアントとのシームレスな統合。

 

ヘルプの使用

SiteMCPはインストールも使い方も簡単なので、すぐに使い始めることができます。以下に、インストール方法、操作方法、機能の使用方法について詳しく説明します。

設置プロセス

SiteMCPはNode.js上で動作し、手動でソースコードをダウンロードすることなく使用できます。以下はその手順です:

  1. Node.jsの環境を確認する
    ターミナルを開き node -vNode.jsを持っていない場合は、Node.jsのウェブサイトからダウンロードしてインストールしてください。Node.jsを持っていない場合は、Node.jsのウェブサイトに行ってダウンロードしてください。
  2. シングルユース(取り付け不要)
    以下のコマンドのいずれかを、クロールしたいサイトに置き換えてターミナルに入力する:
npx sitemcp https://example.com
bunx sitemcp https://example.com
pnpx sitemcp https://example.com

これらのコマンドは自動的にSiteMCPをダウンロードして実行し、クロールが完了するとMCPサーバーを起動します。

  1. グローバルインストール(オプション)
    よく使うのであれば、グローバルにインストールすることもできる:
npm i -g sitemcp
bun i -g sitemcp
pnpm i -g sitemcp

インストール後は sitemcp コマンドを実行する:

sitemcp https://example.com

基本操作

コマンドを実行すると、SiteMCPはウェブサイトのコンテンツをクロールし、デフォルトのパスにキャッシュします。 ~/.cache/sitemcp.端末に同様の表示が出る:

Fetching https://example.com...
Server running at http://localhost:3000

この時点で、MCPサーバーは起動しており、AIアシスタントには http://localhost:3000 データへのアクセス。

注目の機能操作

SiteMCPは、クロールをより柔軟にするためにいくつかのパラメータを提供しています。詳しい使い方は以下の通りです:

  1. クロール速度の向上
    デフォルトの同時実行数は制限されています。 --concurrency パラメータ例
npx sitemcp https://daisyui.com --concurrency 10

これは10ページを同時にクロールし、より高速になる。

  1. 特定のページに一致させる
    支出 -m もしかしたら --match このパラメータはパスを指定し、複数の使用をサポートする。例
npx sitemcp https://vite.dev -m "/blog/**" -m "/guide/**"

これは vite.dev ブログとガイドページのパス・マッチングは マイクロマッチワイルドカードのサポート(例えば ** (すべてのサブパスを示す)。

  1. 特定のコンテンツを抽出する
    支出 --content-selector パラメータはCSSセレクタを指定する。例えば
npx sitemcp https://vite.dev --content-selector ".content"

これはページのみをクロールする class="content" をデフォルトで使用します。 モジラ/読みやすさ 読み取り可能なコンテンツを抽出するが、セレクタを使用することでより正確な情報を抽出できる。

  1. キャッシュパスのカスタマイズまたはキャッシュの無効化
    デフォルトのキャッシュ ~/.cache/sitemcpそれは --cache-dir パスを変更する:
npx sitemcp https://example.com --cache-dir ./my-cache

キャッシュしたくない場合は --no-cache::

npx sitemcp https://example.com --no-cache
  1. クロードデスクトップとの統合
    クロードデスクトップでSiteMCPサーバーを設定するには、以下の手順に従います:
  • 設定ファイル(通常はJSON形式)を見つけて追加する:
    {
    "mcpServers": {
    "daisy-ui": {
    "command": "npx",
    "args": ["sitemcp", "https://daisyui.com", "-m", "/components/**"]
    }
    }
    }
    
  • その後、Claude は "daisy-ui" を通してコンポーネントページのデータにアクセスできます。
  • サイトのページ数が多い場合は、まずデータをキャッシュするコマンドを実行することをお勧めする:
    npx sitemcp https://daisyui.com -m "/components/**"
    

ほら

  • ファーストラン npx 依存関係をダウンロードする際、低速のネットワークでは数秒かかることがある。
  • アンチクロールの仕組みがあるサイトでは、クロールに失敗することがあります。
  • キャッシュファイルのサイズはサイトのサイズに依存し、定期的にクリーニングすることができます。 ~/.cache/sitemcp.

こうすることで、SiteMCPは、特に文書やコンテンツへの迅速なアクセスを必要とするユーザーにとって、あらゆるウェブサイトをAI対応のデータソースに変えることができる。

 

アプリケーションシナリオ

  1. 開発者によるコードのデバッグ
    開発者は技術文書サイト(例:Viteのガイドページ)をクロールし、AIに使用法の質問に答えさせる。
    例えば npx sitemcp https://vite.dev -m "/guide/**"AIはガイドの内容に直接アクセスできるようになる。
  2. ブログコンテンツの照合
    ブロガーは自分のサイトをクロールする(例えば https://myblog.com)、AIに記事を分析させたり、要約を生成させたりする。
    支出 npx sitemcp https://myblog.com -m "/posts/**" 準備はできている。
  3. 新しいフレームワークを学ぶ
    学生はフレームワークの公式ウェブサイト(例:DaisyUIのコンポーネントページ)をキャプチャし、AIを使って機能を説明する。
    うごきだす npx sitemcp https://daisyui.com -m "/components/**"学習はより効率的になる。

 

品質保証

  1. SiteMCPはどのクライアントをサポートしていますか?
    MCPプロトコルをサポートしているクライアントであれば、Claude Desktopなどでも動作します。その他のツールについては、互換性を確認する必要があります。
  2. キャプチャに失敗したら?
    ネットワークをチェックするか -m 範囲を狭める。サイトがクロールを制限している場合は --concurrency 価値がある。
  3. キャッシュの容量は大きいですか?
    小さなサイトは数メガバイト、大きなサイトは数百メガバイトにもなる。 --cache-dir パスをカスタマイズし、定期的に掃除する。
無断転載を禁じます:チーフAIシェアリングサークル " SiteMCP:ウェブサイトのコンテンツをクローリングし、MCPサービスに変える
ja日本語