SiteMCP: rastrear el contenido de un sitio web y convertirlo en servicios MCP

Introducción general

SiteMCP es una herramienta de código abierto cuya función principal es rastrear todo el contenido de un sitio web y convertirlo en un servidor MCP (Model Context Protocol) que permite a los asistentes de IA (como el Claude Desktop) para acceder directamente a los datos del sitio web. Fue desarrollada por el desarrollador ryoppippi, alojada en GitHub, e inspirada en otra herramienta sitefetchSiteMCP se publicó el 7 de abril de 2025 en npm y su objetivo es facilitar a la IA el acceso a información externa. siteMCP permite a los usuarios almacenar rápidamente en caché una página y lanzar un servidor local con sólo escribir la dirección de un sitio web. Todo el proceso es sencillo y eficiente para desarrolladores, entusiastas de la tecnología y usuarios ocasionales.

SiteMCP:抓取网站内容并转为MCP服务

 

Lista de funciones

  • Rastrea todas las páginas o partes de un sitio web determinado y las almacena en caché local.
  • Convierta los datos rastreados del sitio web en MCP servidor para el acceso a la IA.
  • Posibilidad de establecer el número de concurrencias a través de la línea de comandos (p. ej. --concurrency) para mejorar la velocidad de rastreo.
  • oferta -m que coincide con una ruta de página específica (p. ej. /blog/**).
  • adyuvante --content-selector para extraer el contenido del área especificada de la página web.
  • Almacenamiento en caché por defecto de las páginas en ~/.cache/sitemcpLa caché no está disponible de la misma forma que en las otras versiones, pero es posible personalizar la ruta de la caché o desactivarla.
  • Perfecta integración con clientes compatibles con el protocolo MCP, como Claude Desktop.

 

Utilizar la ayuda

SiteMCP es fácil de instalar y utilizar, por lo que podrá empezar a trabajar rápidamente. A continuación se describe detalladamente cómo instalar, operar y utilizar las funciones.

Proceso de instalación

SiteMCP se ejecuta en Node.js y puede utilizarse sin necesidad de descargar manualmente el código fuente. Aquí están los pasos:

  1. Verificar el entorno Node.js
    Abra un terminal y escriba node -vSi no tienes Node.js, ve al sitio web de Node.js y descárgalo e instálalo. Si no lo tiene, vaya al sitio web de Node.js y descárguelo.
  2. Un solo uso (no requiere instalación)
    Introduzca cualquiera de los siguientes comandos en el terminal, sustituyéndolo por el sitio que desea rastrear:
npx sitemcp https://example.com
bunx sitemcp https://example.com
pnpx sitemcp https://example.com

Estos comandos descargarán automáticamente SiteMCP y lo ejecutarán, iniciando el servidor MCP cuando se complete el rastreo.

  1. Instalación global (opcional)
    Si lo usas mucho, puedes instalarlo globalmente:
npm i -g sitemcp
bun i -g sitemcp
pnpm i -g sitemcp

Tras la instalación, es muy sencillo utilizar la función sitemcp ejecutar, por ejemplo:

sitemcp https://example.com

funcionamiento básico

Tras ejecutar el comando, SiteMCP rastreará el contenido del sitio web y lo almacenará en caché en la ruta predeterminada ~/.cache/sitemcp. El terminal mostrará algo similar:

Fetching https://example.com...
Server running at http://localhost:3000

En este punto, el servidor MCP está en funcionamiento y se puede acceder al asistente AI a través de la aplicación http://localhost:3000 Acceso a los datos.

Función destacada Operación

SiteMCP proporciona algunos parámetros para hacer el rastreo más flexible. Aquí está el uso detallado:

  1. Mejorar la velocidad de rastreo
    La concurrencia por defecto es limitada, si el sitio tiene muchas páginas, puede añadir la opción --concurrency Parámetros. Ejemplo:
npx sitemcp https://daisyui.com --concurrency 10

Esto rastreará 10 páginas al mismo tiempo, lo que es mucho más rápido.

  1. Páginas específicas
    gasto o desembolso -m tal vez --match El parámetro especifica la ruta y admite múltiples usos. Ejemplo:
npx sitemcp https://vite.dev -m "/blog/**" -m "/guide/**"

Esto sólo cogerá vite.dev de las páginas del blog y de la guía. La concordancia de rutas se basa en micromatchLa compatibilidad con comodines (p. ej. ** (indicando todas las subtrayectorias).

  1. Extraer contenidos específicos
    gasto o desembolso --content-selector especifica un selector CSS. Por ejemplo:
npx sitemcp https://vite.dev --content-selector ".content"

Esto sólo rastreará la página class="content" para evitar información superflua.SiteMCP utiliza por defecto el formato mozilla/readability Extrae contenido legible, pero puede ser más preciso con selectores.

  1. Personalizar las rutas de caché o desactivar la caché
    Caché por defecto a ~/.cache/sitemcpPuede utilizar la función --cache-dir Cambia la ruta:
npx sitemcp https://example.com --cache-dir ./my-cache

Si no desea almacenar en caché, añada --no-cache::

npx sitemcp https://example.com --no-cache
  1. Integración con Claude Desktop
    Para configurar el servidor SiteMCP en Claude Desktop, proceda de la siguiente manera:
  • Busque el archivo de configuración (normalmente en formato JSON) y añádalo:
    {
    "mcpServers": {
    "daisy-ui": {
    "command": "npx",
    "args": ["sitemcp", "https://daisyui.com", "-m", "/components/**"]
    }
    }
    }
    
  • Guardar y reiniciar Claude Desktop. después de eso, Claude puede acceder a los datos de la página del componente a través de "daisy-ui".
  • Si el sitio tiene muchas páginas, se recomienda ejecutar primero el comando para almacenar los datos en caché:
    npx sitemcp https://daisyui.com -m "/components/**"
    

advertencia

  • primera carrera npx Cuando se descargará la dependencia, la red lenta puede tardar unos segundos.
  • Si el sitio tiene un mecanismo anti-crawl, el rastreo puede fallar, se recomienda reducir el número de concurrencias o contactar con el webmaster.
  • El tamaño del archivo caché depende del tamaño del sitio y puede limpiarse regularmente ~/.cache/sitemcp.

De este modo, SiteMCP puede convertir cualquier sitio web en una fuente de datos preparada para la IA, especialmente para los usuarios que necesitan acceder rápidamente a documentos o contenidos.

 

escenario de aplicación

  1. Código de depuración para desarrolladores
    Los desarrolladores rastrean sitios de documentación técnica (por ejemplo, la página de guías de Vite) y dejan que la IA responda a las preguntas de uso.
    Por ejemplo, ejecutar npx sitemcp https://vite.dev -m "/guide/**"La IA podrá acceder directamente al contenido de la guía.
  2. Recopilación de contenidos de blogs
    Los blogueros rastrean sus propios sitios (p. ej. https://myblog.com), que permite a la IA analizar artículos o generar resúmenes.
    gasto o desembolso npx sitemcp https://myblog.com -m "/posts/**" Listo para salir.
  3. Aprender el nuevo marco
    Los estudiantes capturan el sitio web oficial del marco (por ejemplo, la página de componentes de DaisyUI) y utilizan AI para explicar la funcionalidad.
    estar en movimiento npx sitemcp https://daisyui.com -m "/components/**"El aprendizaje es más eficaz.

 

CONTROL DE CALIDAD

  1. ¿Qué clientes soporta SiteMCP?
    Funcionará cualquier cliente que admita el protocolo MCP, como Claude Desktop. es necesario comprobar la compatibilidad de otras herramientas.
  2. ¿Y si falla la captura?
    Compruebe la red o utilice la función -m Reduzca el alcance. Si el sitio restringe el rastreo, reduzca el --concurrency Valor.
  3. ¿Ocupa mucho espacio la memoria caché?
    Los sitios pequeños ocupan unos pocos megabytes, los grandes pueden ocupar cientos de megabytes. --cache-dir Personaliza la ruta y límpiala regularmente.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...