はじめに
SiteMCPはオープンソースのツールで、その主な機能は、ウェブサイト全体のコンテンツをクロールし、MCP(モデル・コンテキスト・プロトコル)サーバーにすることである。 クロード Desktop)を使ってウェブサイトのデータに直接アクセスすることができる。これは開発者のryoppippiによって開発され、GitHubでホストされている。 sitefetch
siteMCPは2025年4月7日にnpmでリリースされ、AIが外部情報にアクセスしやすくすることを目的としている。siteMCPを使えば、ユーザーはウェブサイトのアドレスを入力するだけで、ページを素早くキャッシュし、ローカルサーバーを起動することができる。全プロセスはシンプルかつ効率的で、開発者、技術愛好家、一般ユーザーに適している。
機能一覧
- 指定されたウェブサイトの全ページまたは一部を巡回し、ローカルにキャッシュする。
- クロールされたウェブサイトのデータを エムシーピー サーバーにAIをアクセスさせる。
- コマンドラインによる同時実行数の設定のサポート(例えば
--concurrency
)でクロール速度を向上させる。 - 提供
-m
パラメータで、特定のページパス(たとえば/blog/**
). - アジュバント
--content-selector
パラメータを使用して、ウェブページの指定された領域のコンテンツを抽出します。 - デフォルトのキャッシュ
~/.cache/sitemcp
キャッシュは他のバージョンと同じようには利用できませんが、キャッシュパスのカスタマイズやキャッシュの無効化はサポートされています。 - クロードデスクトップなど、MCPプロトコルをサポートするクライアントとのシームレスな統合。
ヘルプの使用
SiteMCPはインストールも使い方も簡単なので、すぐに使い始めることができます。以下に、インストール方法、操作方法、機能の使用方法について詳しく説明します。
設置プロセス
SiteMCPはNode.js上で動作し、手動でソースコードをダウンロードすることなく使用できます。以下はその手順です:
- Node.jsの環境を確認する
ターミナルを開きnode -v
Node.jsを持っていない場合は、Node.jsのウェブサイトからダウンロードしてインストールしてください。Node.jsを持っていない場合は、Node.jsのウェブサイトに行ってダウンロードしてください。 - シングルユース(取り付け不要)
以下のコマンドのいずれかを、クロールしたいサイトに置き換えてターミナルに入力する:
npx sitemcp https://example.com
bunx sitemcp https://example.com
pnpx sitemcp https://example.com
これらのコマンドは自動的にSiteMCPをダウンロードして実行し、クロールが完了するとMCPサーバーを起動します。
- グローバルインストール(オプション)
よく使うのであれば、グローバルにインストールすることもできる:
npm i -g sitemcp
bun i -g sitemcp
pnpm i -g sitemcp
インストール後は sitemcp
コマンドを実行する:
sitemcp https://example.com
基本操作
コマンドを実行すると、SiteMCPはウェブサイトのコンテンツをクロールし、デフォルトのパスにキャッシュします。 ~/.cache/sitemcp
.端末に同様の表示が出る:
Fetching https://example.com...
Server running at http://localhost:3000
この時点で、MCPサーバーは起動しており、AIアシスタントには http://localhost:3000
データへのアクセス。
注目の機能操作
SiteMCPは、クロールをより柔軟にするためにいくつかのパラメータを提供しています。詳しい使い方は以下の通りです:
- クロール速度の向上
デフォルトの同時実行数は制限されています。--concurrency
パラメータ例
npx sitemcp https://daisyui.com --concurrency 10
これは10ページを同時にクロールし、より高速になる。
- 特定のページに一致させる
支出-m
もしかしたら--match
このパラメータはパスを指定し、複数の使用をサポートする。例
npx sitemcp https://vite.dev -m "/blog/**" -m "/guide/**"
これは vite.dev
ブログとガイドページのパス・マッチングは マイクロマッチワイルドカードのサポート(例えば **
(すべてのサブパスを示す)。
- 特定のコンテンツを抽出する
支出--content-selector
パラメータはCSSセレクタを指定する。例えば
npx sitemcp https://vite.dev --content-selector ".content"
これはページのみをクロールする class="content"
をデフォルトで使用します。 モジラ/読みやすさ 読み取り可能なコンテンツを抽出するが、セレクタを使用することでより正確な情報を抽出できる。
- キャッシュパスのカスタマイズまたはキャッシュの無効化
デフォルトのキャッシュ~/.cache/sitemcp
それは--cache-dir
パスを変更する:
npx sitemcp https://example.com --cache-dir ./my-cache
キャッシュしたくない場合は --no-cache
::
npx sitemcp https://example.com --no-cache
- クロードデスクトップとの統合
クロードデスクトップでSiteMCPサーバーを設定するには、以下の手順に従います:
- 設定ファイル(通常はJSON形式)を見つけて追加する:
{ "mcpServers": { "daisy-ui": { "command": "npx", "args": ["sitemcp", "https://daisyui.com", "-m", "/components/**"] } } }
- その後、Claude は "daisy-ui" を通してコンポーネントページのデータにアクセスできます。
- サイトのページ数が多い場合は、まずデータをキャッシュするコマンドを実行することをお勧めする:
npx sitemcp https://daisyui.com -m "/components/**"
ほら
- ファーストラン
npx
依存関係をダウンロードする際、低速のネットワークでは数秒かかることがある。 - アンチクロールの仕組みがあるサイトでは、クロールに失敗することがあります。
- キャッシュファイルのサイズはサイトのサイズに依存し、定期的にクリーニングすることができます。
~/.cache/sitemcp
.
こうすることで、SiteMCPは、特に文書やコンテンツへの迅速なアクセスを必要とするユーザーにとって、あらゆるウェブサイトをAI対応のデータソースに変えることができる。
アプリケーションシナリオ
- 開発者によるコードのデバッグ
開発者は技術文書サイト(例:Viteのガイドページ)をクロールし、AIに使用法の質問に答えさせる。
例えばnpx sitemcp https://vite.dev -m "/guide/**"
AIはガイドの内容に直接アクセスできるようになる。 - ブログコンテンツの照合
ブロガーは自分のサイトをクロールする(例えばhttps://myblog.com
)、AIに記事を分析させたり、要約を生成させたりする。
支出npx sitemcp https://myblog.com -m "/posts/**"
準備はできている。 - 新しいフレームワークを学ぶ
学生はフレームワークの公式ウェブサイト(例:DaisyUIのコンポーネントページ)をキャプチャし、AIを使って機能を説明する。
うごきだすnpx sitemcp https://daisyui.com -m "/components/**"
学習はより効率的になる。
品質保証
- SiteMCPはどのクライアントをサポートしていますか?
MCPプロトコルをサポートしているクライアントであれば、Claude Desktopなどでも動作します。その他のツールについては、互換性を確認する必要があります。 - キャプチャに失敗したら?
ネットワークをチェックするか-m
範囲を狭める。サイトがクロールを制限している場合は--concurrency
価値がある。 - キャッシュの容量は大きいですか?
小さなサイトは数メガバイト、大きなサイトは数百メガバイトにもなる。--cache-dir
パスをカスタマイズし、定期的に掃除する。