SiteMCP: сбор содержимого сайта и превращение его в услуги MCP

Общее введение

SiteMCP - это инструмент с открытым исходным кодом, основная функция которого заключается в просмотре содержимого всего веб-сайта и превращении его в MCP (Model Context Protocol) сервер, который позволяет AI помощникам (таким как Клод Desktop) для прямого доступа к данным сайта. Он был разработан разработчиком ryoppippi, размещен на GitHub и вдохновлен другим инструментом sitefetchSiteMCP был выпущен 7 апреля 2025 года на npm и призван упростить доступ AI к внешней информации. siteMCP позволяет пользователям быстро кэшировать страницу и запускать локальный сервер, просто набрав адрес сайта. Весь процесс прост и эффективен, подходит для разработчиков, любителей техники и обычных пользователей.

SiteMCP:抓取网站内容并转为MCP服务

 

Список функций

  • Обследует все страницы или части веб-сайта и кэширует их локально.
  • Преобразуйте данные, полученные с веб-сайтов, в MCP сервер для доступа к ИИ.
  • Поддержка установки количества параллелей через командную строку (например. --concurrency) для повышения скорости ползания.
  • предложение -m параметр, который соответствует определенному пути к странице (например. /blog/**).
  • адъювант --content-selector параметр для извлечения содержимого указанной области веб-страницы.
  • Кэширование страниц по умолчанию ~/.cache/sitemcpКэш недоступен, как и в других версиях, но есть возможность настроить путь кэша или отключить его.
  • Бесшовная интеграция с клиентами, поддерживающими протокол MCP, такими как Claude Desktop.

 

Использование помощи

SiteMCP прост в установке и использовании, поэтому вы сможете быстро приступить к работе. Ниже приводится подробное описание установки, работы и использования функций.

Процесс установки

SiteMCP работает на Node.js и может быть использован без ручной загрузки исходного кода. Вот шаги:

  1. Проверьте окружение Node.js
    Откройте терминал и введите node -vЕсли у вас нет Node.js, зайдите на сайт Node.js, скачайте и установите его. Если у вас его нет, зайдите на сайт Node.js и скачайте его.
  2. Одноразовое использование (установка не требуется)
    Введите в терминале любую из следующих команд, заменив ее на название сайта, который вы хотите просмотреть:
npx sitemcp https://example.com
bunx sitemcp https://example.com
pnpx sitemcp https://example.com

Эти команды автоматически загружают SiteMCP и запускают его, запуская MCP-сервер после завершения загрузки.

  1. Глобальная установка (опционально)
    Если вы часто используете эту программу, вы можете установить ее глобально:
npm i -g sitemcp
bun i -g sitemcp
pnpm i -g sitemcp

После установки можно просто использовать sitemcp например, для выполнения команды:

sitemcp https://example.com

базовая операция

После выполнения команды SiteMCP просмотрит содержимое сайта и кэширует его по пути по умолчанию ~/.cache/sitemcp. На терминале появится аналогичное сообщение:

Fetching https://example.com...
Server running at http://localhost:3000

На этом этапе сервер MCP работает, и доступ к AI Assistant можно получить через http://localhost:3000 Доступ к данным.

Функциональное управление

SiteMCP предоставляет некоторые параметры для более гибкой работы с краулингом. Вот подробная информация об их использовании:

  1. Улучшение скорости ползания
    По умолчанию параллелизм ограничен, если на сайте много страниц, можно добавить параметр --concurrency Параметры. Пример:
npx sitemcp https://daisyui.com --concurrency 10

При этом одновременно будут просматриваться 10 страниц, что гораздо быстрее.

  1. Сопоставьте определенные страницы
    расход или издержки -m возможно --match Параметр задает путь и поддерживает несколько вариантов использования. Пример:
npx sitemcp https://vite.dev -m "/blog/**" -m "/guide/**"

Это позволит захватить только vite.dev страниц блога и путеводителя. Сопоставление путей основано на микроматчПоддержка подстановочных знаков (например. ** (с указанием всех подпутей).

  1. Извлечение специфического содержимого
    расход или издержки --content-selector Параметр задает селектор CSS. Например:
npx sitemcp https://vite.dev --content-selector ".content"

При этом будет просмотрена только страница class="content" чтобы избежать лишней информации.SiteMCP по умолчанию использует mozilla/readability Извлекает читабельное содержимое, но может быть более точным с помощью селекторов.

  1. Настройте пути кэша или отключите кэширование
    Кэш по умолчанию ~/.cache/sitemcpЭто можно сделать с помощью --cache-dir Измените путь:
npx sitemcp https://example.com --cache-dir ./my-cache

Если вы не хотите кэшировать, добавьте --no-cache::

npx sitemcp https://example.com --no-cache
  1. Интеграция с Claude Desktop
    Чтобы настроить сервер SiteMCP в Claude Desktop, выполните следующие действия:
  • Найдите файл конфигурации (обычно в формате JSON) и добавьте его:
    {
    "mcpServers": {
    "daisy-ui": {
    "command": "npx",
    "args": ["sitemcp", "https://daisyui.com", "-m", "/components/**"]
    }
    }
    }
    
  • Сохраните и перезапустите Claude Desktop. После этого Claude сможет получить доступ к данным страницы компонента через "daisy-ui".
  • Если на сайте много страниц, рекомендуется сначала выполнить команду для кэширования данных:
    npx sitemcp https://daisyui.com -m "/components/**"
    

предостережение

  • первый запуск npx Когда он загрузит зависимость, медленная сеть может занять несколько секунд.
  • Если на сайте установлен механизм защиты от краулинга, краулинг может завершиться неудачей, рекомендуется уменьшить количество параллелей или связаться с веб-мастером.
  • Размер кэш-файла зависит от размера сайта и может регулярно очищаться ~/.cache/sitemcp.

Таким образом, SiteMCP может превратить любой сайт в источник данных, пригодный для искусственного интеллекта, особенно для пользователей, которым нужен быстрый доступ к документам или контенту.

 

сценарий применения

  1. Отладка кода разработчиком
    Разработчики просматривают сайты с технической документацией (например, страницу руководства Vite) и позволяют искусственному интеллекту отвечать на вопросы по использованию.
    Например, запуск npx sitemcp https://vite.dev -m "/guide/**"ИИ сможет получить прямой доступ к содержимому руководства.
  2. Составление контента для блога
    Блоггеры просматривают свои собственные сайты (например. https://myblog.com), позволяя искусственному интеллекту анализировать статьи или составлять резюме.
    расход или издержки npx sitemcp https://myblog.com -m "/posts/**" Вот и все.
  3. Изучение новой системы
    Студенты берут официальный сайт фреймворка (например, страницу компонентов DaisyUI) и используют искусственный интеллект для объяснения функциональности.
    быть в движении npx sitemcp https://daisyui.com -m "/components/**"Обучение становится более эффективным.

 

QA

  1. Какие клиенты поддерживает SiteMCP?
    Любой клиент, поддерживающий протокол MCP, будет работать, например Claude Desktop. Другие инструменты необходимо проверить на совместимость.
  2. Что делать, если захват не удался?
    Проверьте сеть или используйте -m Уменьшите масштаб. Если сайт ограничивает ползание, уменьшите --concurrency Ценность.
  3. Много ли места занимает кэш?
    Небольшие сайты занимают несколько мегабайт, большие - сотни мегабайт. --cache-dir Настройте путь и регулярно очищайте его.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...