SiteMCP：ウェブサイトのコンテンツをクローリングし、MCPサービスに変える

57.8K 00

はじめに

SiteMCPはオープンソースのツールで、その主な機能は、ウェブサイト全体のコンテンツをクロールし、MCP（モデル・コンテキスト・プロトコル）サーバーにすることである。クロード Desktop）を使ってウェブサイトのデータに直接アクセスすることができる。これは開発者のryoppippiによって開発され、GitHubでホストされている。 sitefetchsiteMCPは2025年4月7日にnpmでリリースされ、AIが外部情報にアクセスしやすくすることを目的としている。siteMCPを使えば、ユーザーはウェブサイトのアドレスを入力するだけで、ページを素早くキャッシュし、ローカルサーバーを起動することができる。全プロセスはシンプルかつ効率的で、開発者、技術愛好家、一般ユーザーに適している。

機能一覧

指定されたウェブサイトの全ページまたは一部を巡回し、ローカルにキャッシュする。
クロールされたウェブサイトのデータをエムシーピーサーバーにAIをアクセスさせる。
コマンドラインによる同時実行数の設定のサポート（例えば --concurrency)でクロール速度を向上させる。
提供 -m パラメータで、特定のページパス（たとえば /blog/**).
アジュバント --content-selector パラメータを使用して、ウェブページの指定された領域のコンテンツを抽出します。
デフォルトのキャッシュ ~/.cache/sitemcpキャッシュは他のバージョンと同じようには利用できませんが、キャッシュパスのカスタマイズやキャッシュの無効化はサポートされています。
クロードデスクトップなど、MCPプロトコルをサポートするクライアントとのシームレスな統合。

ヘルプの使用

SiteMCPはインストールも使い方も簡単なので、すぐに使い始めることができます。以下に、インストール方法、操作方法、機能の使用方法について詳しく説明します。

設置プロセス

SiteMCPはNode.js上で動作し、手動でソースコードをダウンロードすることなく使用できます。以下はその手順です：

Node.jsの環境を確認する
ターミナルを開き node -vNode.jsを持っていない場合は、Node.jsのウェブサイトからダウンロードしてインストールしてください。Node.jsを持っていない場合は、Node.jsのウェブサイトに行ってダウンロードしてください。
シングルユース（取り付け不要）
以下のコマンドのいずれかを、クロールしたいサイトに置き換えてターミナルに入力する：

npx sitemcp https://example.com
bunx sitemcp https://example.com
pnpx sitemcp https://example.com

これらのコマンドは自動的にSiteMCPをダウンロードして実行し、クロールが完了するとMCPサーバーを起動します。

グローバルインストール（オプション）
よく使うのであれば、グローバルにインストールすることもできる：

npm i -g sitemcp
bun i -g sitemcp
pnpm i -g sitemcp

インストール後は sitemcp コマンドを実行する：

sitemcp https://example.com

基本操作

コマンドを実行すると、SiteMCPはウェブサイトのコンテンツをクロールし、デフォルトのパスにキャッシュします。 ~/.cache/sitemcp.端末に同様の表示が出る：

Fetching https://example.com...
Server running at http://localhost:3000

この時点で、MCPサーバーは起動しており、AIアシスタントには http://localhost:3000 データへのアクセス。

注目の機能操作

SiteMCPは、クロールをより柔軟にするためにいくつかのパラメータを提供しています。詳しい使い方は以下の通りです：

クロール速度の向上
デフォルトの同時実行数は制限されています。 --concurrency パラメータ例

npx sitemcp https://daisyui.com --concurrency 10

これは10ページを同時にクロールし、より高速になる。

特定のページに一致させる
支出 -m もしかしたら --match このパラメータはパスを指定し、複数の使用をサポートする。例

npx sitemcp https://vite.dev -m "/blog/**" -m "/guide/**"

これは vite.dev ブログとガイドページのパス・マッチングはマイクロマッチワイルドカードのサポート（例えば ** (すべてのサブパスを示す）。

特定のコンテンツを抽出する
支出 --content-selector パラメータはCSSセレクタを指定する。例えば

npx sitemcp https://vite.dev --content-selector ".content"

これはページのみをクロールする class="content" をデフォルトで使用します。モジラ/読みやすさ読み取り可能なコンテンツを抽出するが、セレクタを使用することでより正確な情報を抽出できる。

キャッシュパスのカスタマイズまたはキャッシュの無効化
デフォルトのキャッシュ ~/.cache/sitemcpそれは --cache-dir パスを変更する：

npx sitemcp https://example.com --cache-dir ./my-cache

キャッシュしたくない場合は --no-cache::

npx sitemcp https://example.com --no-cache

クロードデスクトップとの統合
クロードデスクトップでSiteMCPサーバーを設定するには、以下の手順に従います：

設定ファイル（通常はJSON形式）を見つけて追加する：

{
"mcpServers": {
"daisy-ui": {
"command": "npx",
"args": ["sitemcp", "https://daisyui.com", "-m", "/components/**"]
}
}
}

その後、Claude は "daisy-ui" を通してコンポーネントページのデータにアクセスできます。
サイトのページ数が多い場合は、まずデータをキャッシュするコマンドを実行することをお勧めする：
```
npx sitemcp https://daisyui.com -m "/components/**"
```

ほら

ファーストラン npx 依存関係をダウンロードする際、低速のネットワークでは数秒かかることがある。
アンチクロールの仕組みがあるサイトでは、クロールに失敗することがあります。
キャッシュファイルのサイズはサイトのサイズに依存し、定期的にクリーニングすることができます。 ~/.cache/sitemcp.

こうすることで、SiteMCPは、特に文書やコンテンツへの迅速なアクセスを必要とするユーザーにとって、あらゆるウェブサイトをAI対応のデータソースに変えることができる。

アプリケーションシナリオ

開発者によるコードのデバッグ
開発者は技術文書サイト（例：Viteのガイドページ）をクロールし、AIに使用法の質問に答えさせる。
例えば npx sitemcp https://vite.dev -m "/guide/**"AIはガイドの内容に直接アクセスできるようになる。
ブログコンテンツの照合
ブロガーは自分のサイトをクロールする（例えば https://myblog.com)、AIに記事を分析させたり、要約を生成させたりする。
支出 npx sitemcp https://myblog.com -m "/posts/**" 準備はできている。
新しいフレームワークを学ぶ
学生はフレームワークの公式ウェブサイト（例：DaisyUIのコンポーネントページ）をキャプチャし、AIを使って機能を説明する。
うごきだす npx sitemcp https://daisyui.com -m "/components/**"学習はより効率的になる。

品質保証

SiteMCPはどのクライアントをサポートしていますか？
MCPプロトコルをサポートしているクライアントであれば、Claude Desktopなどでも動作します。その他のツールについては、互換性を確認する必要があります。
キャプチャに失敗したら？
ネットワークをチェックするか -m 範囲を狭める。サイトがクロールを制限している場合は --concurrency 価値がある。
キャッシュの容量は大きいですか？
小さなサイトは数メガバイト、大きなサイトは数百メガバイトにもなる。 --cache-dir パスをカスタマイズし、定期的に掃除する。