SiteMCP: сбор содержимого сайта и превращение его в услуги MCP
Общее введение
SiteMCP - это инструмент с открытым исходным кодом, основная функция которого заключается в просмотре содержимого всего веб-сайта и превращении его в MCP (Model Context Protocol) сервер, который позволяет AI помощникам (таким как Клод Desktop) для прямого доступа к данным сайта. Он был разработан разработчиком ryoppippi, размещен на GitHub и вдохновлен другим инструментом sitefetch
SiteMCP был выпущен 7 апреля 2025 года на npm и призван упростить доступ AI к внешней информации. siteMCP позволяет пользователям быстро кэшировать страницу и запускать локальный сервер, просто набрав адрес сайта. Весь процесс прост и эффективен, подходит для разработчиков, любителей техники и обычных пользователей.

Список функций
- Обследует все страницы или части веб-сайта и кэширует их локально.
- Преобразуйте данные, полученные с веб-сайтов, в MCP сервер для доступа к ИИ.
- Поддержка установки количества параллелей через командную строку (например.
--concurrency
) для повышения скорости ползания. - предложение
-m
параметр, который соответствует определенному пути к странице (например./blog/**
). - адъювант
--content-selector
параметр для извлечения содержимого указанной области веб-страницы. - Кэширование страниц по умолчанию
~/.cache/sitemcp
Кэш недоступен, как и в других версиях, но есть возможность настроить путь кэша или отключить его. - Бесшовная интеграция с клиентами, поддерживающими протокол MCP, такими как Claude Desktop.
Использование помощи
SiteMCP прост в установке и использовании, поэтому вы сможете быстро приступить к работе. Ниже приводится подробное описание установки, работы и использования функций.
Процесс установки
SiteMCP работает на Node.js и может быть использован без ручной загрузки исходного кода. Вот шаги:
- Проверьте окружение Node.js
Откройте терминал и введитеnode -v
Если у вас нет Node.js, зайдите на сайт Node.js, скачайте и установите его. Если у вас его нет, зайдите на сайт Node.js и скачайте его. - Одноразовое использование (установка не требуется)
Введите в терминале любую из следующих команд, заменив ее на название сайта, который вы хотите просмотреть:
npx sitemcp https://example.com
bunx sitemcp https://example.com
pnpx sitemcp https://example.com
Эти команды автоматически загружают SiteMCP и запускают его, запуская MCP-сервер после завершения загрузки.
- Глобальная установка (опционально)
Если вы часто используете эту программу, вы можете установить ее глобально:
npm i -g sitemcp
bun i -g sitemcp
pnpm i -g sitemcp
После установки можно просто использовать sitemcp
например, для выполнения команды:
sitemcp https://example.com
базовая операция
После выполнения команды SiteMCP просмотрит содержимое сайта и кэширует его по пути по умолчанию ~/.cache/sitemcp
. На терминале появится аналогичное сообщение:
Fetching https://example.com...
Server running at http://localhost:3000
На этом этапе сервер MCP работает, и доступ к AI Assistant можно получить через http://localhost:3000
Доступ к данным.
Функциональное управление
SiteMCP предоставляет некоторые параметры для более гибкой работы с краулингом. Вот подробная информация об их использовании:
- Улучшение скорости ползания
По умолчанию параллелизм ограничен, если на сайте много страниц, можно добавить параметр--concurrency
Параметры. Пример:
npx sitemcp https://daisyui.com --concurrency 10
При этом одновременно будут просматриваться 10 страниц, что гораздо быстрее.
- Сопоставьте определенные страницы
расход или издержки-m
возможно--match
Параметр задает путь и поддерживает несколько вариантов использования. Пример:
npx sitemcp https://vite.dev -m "/blog/**" -m "/guide/**"
Это позволит захватить только vite.dev
страниц блога и путеводителя. Сопоставление путей основано на микроматчПоддержка подстановочных знаков (например. **
(с указанием всех подпутей).
- Извлечение специфического содержимого
расход или издержки--content-selector
Параметр задает селектор CSS. Например:
npx sitemcp https://vite.dev --content-selector ".content"
При этом будет просмотрена только страница class="content"
чтобы избежать лишней информации.SiteMCP по умолчанию использует mozilla/readability Извлекает читабельное содержимое, но может быть более точным с помощью селекторов.
- Настройте пути кэша или отключите кэширование
Кэш по умолчанию~/.cache/sitemcp
Это можно сделать с помощью--cache-dir
Измените путь:
npx sitemcp https://example.com --cache-dir ./my-cache
Если вы не хотите кэшировать, добавьте --no-cache
::
npx sitemcp https://example.com --no-cache
- Интеграция с Claude Desktop
Чтобы настроить сервер SiteMCP в Claude Desktop, выполните следующие действия:
- Найдите файл конфигурации (обычно в формате JSON) и добавьте его:
{ "mcpServers": { "daisy-ui": { "command": "npx", "args": ["sitemcp", "https://daisyui.com", "-m", "/components/**"] } } }
- Сохраните и перезапустите Claude Desktop. После этого Claude сможет получить доступ к данным страницы компонента через "daisy-ui".
- Если на сайте много страниц, рекомендуется сначала выполнить команду для кэширования данных:
npx sitemcp https://daisyui.com -m "/components/**"
предостережение
- первый запуск
npx
Когда он загрузит зависимость, медленная сеть может занять несколько секунд. - Если на сайте установлен механизм защиты от краулинга, краулинг может завершиться неудачей, рекомендуется уменьшить количество параллелей или связаться с веб-мастером.
- Размер кэш-файла зависит от размера сайта и может регулярно очищаться
~/.cache/sitemcp
.
Таким образом, SiteMCP может превратить любой сайт в источник данных, пригодный для искусственного интеллекта, особенно для пользователей, которым нужен быстрый доступ к документам или контенту.
сценарий применения
- Отладка кода разработчиком
Разработчики просматривают сайты с технической документацией (например, страницу руководства Vite) и позволяют искусственному интеллекту отвечать на вопросы по использованию.
Например, запускnpx sitemcp https://vite.dev -m "/guide/**"
ИИ сможет получить прямой доступ к содержимому руководства. - Составление контента для блога
Блоггеры просматривают свои собственные сайты (например.https://myblog.com
), позволяя искусственному интеллекту анализировать статьи или составлять резюме.
расход или издержкиnpx sitemcp https://myblog.com -m "/posts/**"
Вот и все. - Изучение новой системы
Студенты берут официальный сайт фреймворка (например, страницу компонентов DaisyUI) и используют искусственный интеллект для объяснения функциональности.
быть в движенииnpx sitemcp https://daisyui.com -m "/components/**"
Обучение становится более эффективным.
QA
- Какие клиенты поддерживает SiteMCP?
Любой клиент, поддерживающий протокол MCP, будет работать, например Claude Desktop. Другие инструменты необходимо проверить на совместимость. - Что делать, если захват не удался?
Проверьте сеть или используйте-m
Уменьшите масштаб. Если сайт ограничивает ползание, уменьшите--concurrency
Ценность. - Много ли места занимает кэш?
Небольшие сайты занимают несколько мегабайт, большие - сотни мегабайт.--cache-dir
Настройте путь и регулярно очищайте его.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...