SiteMCP: rastrear el contenido de un sitio web y convertirlo en servicios MCP
Últimos recursos sobre IAPublicado hace 4 meses Círculo de intercambio de inteligencia artificial 2.1K 00
Introducción general
SiteMCP es una herramienta de código abierto cuya función principal es rastrear todo el contenido de un sitio web y convertirlo en un servidor MCP (Model Context Protocol) que permite a los asistentes de IA (como el Claude Desktop) para acceder directamente a los datos del sitio web. Fue desarrollada por el desarrollador ryoppippi, alojada en GitHub, e inspirada en otra herramienta sitefetch
SiteMCP se publicó el 7 de abril de 2025 en npm y su objetivo es facilitar a la IA el acceso a información externa. siteMCP permite a los usuarios almacenar rápidamente en caché una página y lanzar un servidor local con sólo escribir la dirección de un sitio web. Todo el proceso es sencillo y eficiente para desarrolladores, entusiastas de la tecnología y usuarios ocasionales.

Lista de funciones
- Rastrea todas las páginas o partes de un sitio web determinado y las almacena en caché local.
- Convierta los datos rastreados del sitio web en MCP servidor para el acceso a la IA.
- Posibilidad de establecer el número de concurrencias a través de la línea de comandos (p. ej.
--concurrency
) para mejorar la velocidad de rastreo. - oferta
-m
que coincide con una ruta de página específica (p. ej./blog/**
). - adyuvante
--content-selector
para extraer el contenido del área especificada de la página web. - Almacenamiento en caché por defecto de las páginas en
~/.cache/sitemcp
La caché no está disponible de la misma forma que en las otras versiones, pero es posible personalizar la ruta de la caché o desactivarla. - Perfecta integración con clientes compatibles con el protocolo MCP, como Claude Desktop.
Utilizar la ayuda
SiteMCP es fácil de instalar y utilizar, por lo que podrá empezar a trabajar rápidamente. A continuación se describe detalladamente cómo instalar, operar y utilizar las funciones.
Proceso de instalación
SiteMCP se ejecuta en Node.js y puede utilizarse sin necesidad de descargar manualmente el código fuente. Aquí están los pasos:
- Verificar el entorno Node.js
Abra un terminal y escribanode -v
Si no tienes Node.js, ve al sitio web de Node.js y descárgalo e instálalo. Si no lo tiene, vaya al sitio web de Node.js y descárguelo. - Un solo uso (no requiere instalación)
Introduzca cualquiera de los siguientes comandos en el terminal, sustituyéndolo por el sitio que desea rastrear:
npx sitemcp https://example.com
bunx sitemcp https://example.com
pnpx sitemcp https://example.com
Estos comandos descargarán automáticamente SiteMCP y lo ejecutarán, iniciando el servidor MCP cuando se complete el rastreo.
- Instalación global (opcional)
Si lo usas mucho, puedes instalarlo globalmente:
npm i -g sitemcp
bun i -g sitemcp
pnpm i -g sitemcp
Tras la instalación, es muy sencillo utilizar la función sitemcp
ejecutar, por ejemplo:
sitemcp https://example.com
funcionamiento básico
Tras ejecutar el comando, SiteMCP rastreará el contenido del sitio web y lo almacenará en caché en la ruta predeterminada ~/.cache/sitemcp
. El terminal mostrará algo similar:
Fetching https://example.com...
Server running at http://localhost:3000
En este punto, el servidor MCP está en funcionamiento y se puede acceder al asistente AI a través de la aplicación http://localhost:3000
Acceso a los datos.
Función destacada Operación
SiteMCP proporciona algunos parámetros para hacer el rastreo más flexible. Aquí está el uso detallado:
- Mejorar la velocidad de rastreo
La concurrencia por defecto es limitada, si el sitio tiene muchas páginas, puede añadir la opción--concurrency
Parámetros. Ejemplo:
npx sitemcp https://daisyui.com --concurrency 10
Esto rastreará 10 páginas al mismo tiempo, lo que es mucho más rápido.
- Páginas específicas
gasto o desembolso-m
tal vez--match
El parámetro especifica la ruta y admite múltiples usos. Ejemplo:
npx sitemcp https://vite.dev -m "/blog/**" -m "/guide/**"
Esto sólo cogerá vite.dev
de las páginas del blog y de la guía. La concordancia de rutas se basa en micromatchLa compatibilidad con comodines (p. ej. **
(indicando todas las subtrayectorias).
- Extraer contenidos específicos
gasto o desembolso--content-selector
especifica un selector CSS. Por ejemplo:
npx sitemcp https://vite.dev --content-selector ".content"
Esto sólo rastreará la página class="content"
para evitar información superflua.SiteMCP utiliza por defecto el formato mozilla/readability Extrae contenido legible, pero puede ser más preciso con selectores.
- Personalizar las rutas de caché o desactivar la caché
Caché por defecto a~/.cache/sitemcp
Puede utilizar la función--cache-dir
Cambia la ruta:
npx sitemcp https://example.com --cache-dir ./my-cache
Si no desea almacenar en caché, añada --no-cache
::
npx sitemcp https://example.com --no-cache
- Integración con Claude Desktop
Para configurar el servidor SiteMCP en Claude Desktop, proceda de la siguiente manera:
- Busque el archivo de configuración (normalmente en formato JSON) y añádalo:
{ "mcpServers": { "daisy-ui": { "command": "npx", "args": ["sitemcp", "https://daisyui.com", "-m", "/components/**"] } } }
- Guardar y reiniciar Claude Desktop. después de eso, Claude puede acceder a los datos de la página del componente a través de "daisy-ui".
- Si el sitio tiene muchas páginas, se recomienda ejecutar primero el comando para almacenar los datos en caché:
npx sitemcp https://daisyui.com -m "/components/**"
advertencia
- primera carrera
npx
Cuando se descargará la dependencia, la red lenta puede tardar unos segundos. - Si el sitio tiene un mecanismo anti-crawl, el rastreo puede fallar, se recomienda reducir el número de concurrencias o contactar con el webmaster.
- El tamaño del archivo caché depende del tamaño del sitio y puede limpiarse regularmente
~/.cache/sitemcp
.
De este modo, SiteMCP puede convertir cualquier sitio web en una fuente de datos preparada para la IA, especialmente para los usuarios que necesitan acceder rápidamente a documentos o contenidos.
escenario de aplicación
- Código de depuración para desarrolladores
Los desarrolladores rastrean sitios de documentación técnica (por ejemplo, la página de guías de Vite) y dejan que la IA responda a las preguntas de uso.
Por ejemplo, ejecutarnpx sitemcp https://vite.dev -m "/guide/**"
La IA podrá acceder directamente al contenido de la guía. - Recopilación de contenidos de blogs
Los blogueros rastrean sus propios sitios (p. ej.https://myblog.com
), que permite a la IA analizar artículos o generar resúmenes.
gasto o desembolsonpx sitemcp https://myblog.com -m "/posts/**"
Listo para salir. - Aprender el nuevo marco
Los estudiantes capturan el sitio web oficial del marco (por ejemplo, la página de componentes de DaisyUI) y utilizan AI para explicar la funcionalidad.
estar en movimientonpx sitemcp https://daisyui.com -m "/components/**"
El aprendizaje es más eficaz.
CONTROL DE CALIDAD
- ¿Qué clientes soporta SiteMCP?
Funcionará cualquier cliente que admita el protocolo MCP, como Claude Desktop. es necesario comprobar la compatibilidad de otras herramientas. - ¿Y si falla la captura?
Compruebe la red o utilice la función-m
Reduzca el alcance. Si el sitio restringe el rastreo, reduzca el--concurrency
Valor. - ¿Ocupa mucho espacio la memoria caché?
Los sitios pequeños ocupan unos pocos megabytes, los grandes pueden ocupar cientos de megabytes.--cache-dir
Personaliza la ruta y límpiala regularmente.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...