SiteMCP : explorer le contenu d'un site web et le transformer en services MCP

Introduction générale

SiteMCP est un outil open source dont la fonction principale est d'explorer le contenu d'un site web entier et de le transformer en un serveur MCP (Model Context Protocol) qui permet aux assistants d'IA tels que Claude Desktop) pour accéder directement aux données d'un site web. Il a été développé par le développeur ryoppippi, hébergé sur GitHub, et inspiré par un autre outil sitefetchSiteMCP a été publié le 7 avril 2025 sur npm et vise à faciliter l'accès de l'IA aux informations externes. siteMCP permet aux utilisateurs de mettre rapidement une page en cache et de lancer un serveur local en tapant simplement l'adresse d'un site web. L'ensemble du processus est simple et efficace pour les développeurs, les passionnés de technologie et les utilisateurs occasionnels.

SiteMCP:抓取网站内容并转为MCP服务

 

Liste des fonctions

  • Parcourt toutes les pages ou parties d'un site web donné et les met en cache localement.
  • Convertir les données des sites web explorés en MCP pour l'accès à l'IA.
  • Prise en charge de la définition du nombre de concurrences via la ligne de commande (par ex. --concurrency) pour améliorer la vitesse d'exploration.
  • offrir -m qui correspond à un chemin de page spécifique (par ex. /blog/**).
  • adjuvant --content-selector pour extraire le contenu de la zone spécifiée de la page web.
  • Mise en cache par défaut des pages vers ~/.cache/sitemcpLe cache n'est pas disponible de la même manière que dans les autres versions, mais il est possible de personnaliser le chemin du cache ou de le désactiver.
  • Intégration transparente avec les clients qui prennent en charge le protocole MCP, tels que Claude Desktop.

 

Utiliser l'aide

SiteMCP est facile à installer et à utiliser, ce qui vous permet de démarrer rapidement. Vous trouverez ci-dessous une description détaillée de l'installation, du fonctionnement et de l'utilisation des fonctions.

Processus d'installation

SiteMCP fonctionne sur Node.js et peut être utilisé sans télécharger manuellement le code source. Voici les étapes à suivre :

  1. Vérifier l'environnement Node.js
    Ouvrez un terminal et tapez node -vSi vous n'avez pas Node.js, allez sur le site web de Node.js et téléchargez et installez-le. Si vous ne l'avez pas, allez sur le site web de Node.js et téléchargez-le.
  2. Utilisation unique (aucune installation n'est nécessaire)
    Saisissez l'une des commandes suivantes dans le terminal, en la remplaçant par le site que vous souhaitez explorer :
npx sitemcp https://example.com
bunx sitemcp https://example.com
pnpx sitemcp https://example.com

Ces commandes téléchargeront automatiquement SiteMCP et l'exécuteront, démarrant le serveur MCP une fois le crawl terminé.

  1. Installation globale (en option)
    Si vous l'utilisez beaucoup, vous pouvez l'installer globalement :
npm i -g sitemcp
bun i -g sitemcp
pnpm i -g sitemcp

Après l'installation, il est facile d'utiliser la fonction sitemcp à exécuter, par exemple :

sitemcp https://example.com

fonctionnement de base

Après l'exécution de la commande, SiteMCP explore le contenu du site web et le met en cache dans le chemin d'accès par défaut. ~/.cache/sitemcp. Le terminal affiche un message similaire :

Fetching https://example.com...
Server running at http://localhost:3000

A ce stade, le serveur MCP est opérationnel et l'assistant AI est accessible via le bouton http://localhost:3000 Accès aux données.

Fonction en vedette Fonctionnement

SiteMCP fournit quelques paramètres pour rendre le crawling plus flexible. En voici l'utilisation détaillée :

  1. Améliorer la vitesse d'exploration
    La concurrence par défaut est limitée, si le site comporte de nombreuses pages, vous pouvez ajouter l'option --concurrency Paramètres. Exemple :
npx sitemcp https://daisyui.com --concurrency 10

Cela permet d'explorer 10 pages en même temps, ce qui est beaucoup plus rapide.

  1. Faire correspondre des pages spécifiques
    dépense ou frais -m peut-être --match Le paramètre spécifie le chemin d'accès et permet plusieurs utilisations. Exemple :
npx sitemcp https://vite.dev -m "/blog/**" -m "/guide/**"

Cela permet de saisir uniquement les vite.dev des pages du blog et du guide. La correspondance des chemins d'accès est basée sur le micromatchLa prise en charge des caractères génériques (par ex. ** (indiquant tous les sous-chemins).

  1. Extraire un contenu spécifique
    dépense ou frais --content-selector spécifie un sélecteur CSS. Par exemple :
npx sitemcp https://vite.dev --content-selector ".content"

Cette méthode permet d'explorer uniquement la page class="content" pour éviter les informations superflues.SiteMCP utilise par défaut le mot de passe mozilla/lisibilité Extrait un contenu lisible, mais peut être plus précis avec des sélecteurs.

  1. Personnaliser les chemins d'accès au cache ou désactiver le cache
    Cache par défaut à ~/.cache/sitemcpVous pouvez utiliser le --cache-dir Modifier le chemin :
npx sitemcp https://example.com --cache-dir ./my-cache

Si vous ne voulez pas de cache, ajoutez --no-cache: :

npx sitemcp https://example.com --no-cache
  1. Intégration avec Claude Desktop
    Pour configurer le serveur SiteMCP dans Claude Desktop, procédez comme suit :
  • Trouvez le fichier de configuration (généralement au format JSON) et ajoutez-le :
    {
    "mcpServers": {
    "daisy-ui": {
    "command": "npx",
    "args": ["sitemcp", "https://daisyui.com", "-m", "/components/**"]
    }
    }
    }
    
  • Sauvegardez et redémarrez Claude Desktop. Après cela, Claude peut accéder aux données de la page du composant via "daisy-ui".
  • Si le site comporte de nombreuses pages, il est recommandé d'exécuter d'abord la commande de mise en cache des données :
    npx sitemcp https://daisyui.com -m "/components/**"
    

mise en garde

  • premier passage npx Le téléchargement des dépendances peut prendre quelques secondes sur les réseaux lents.
  • Si le site dispose d'un mécanisme anti-crawl, le crawl peut échouer, il est recommandé de réduire le nombre de concurrences ou de contacter le webmaster.
  • La taille du fichier cache dépend de la taille du site et peut être nettoyée régulièrement. ~/.cache/sitemcp.

SiteMCP peut ainsi transformer n'importe quel site web en une source de données prête pour l'IA, en particulier pour les utilisateurs qui ont besoin d'un accès rapide à des documents ou à du contenu.

 

scénario d'application

  1. Débogage du code par le développeur
    Les développeurs parcourent les sites de documentation technique (par exemple, la page de guide de Vite) et laissent l'IA répondre aux questions d'utilisation.
    Par exemple, l'exécution de npx sitemcp https://vite.dev -m "/guide/**"L'IA pourra accéder directement au contenu du guide.
  2. Collation du contenu du blog
    Les blogueurs explorent leurs propres sites (par ex. https://myblog.com), permettant à l'IA d'analyser des articles ou de générer des résumés.
    dépense ou frais npx sitemcp https://myblog.com -m "/posts/**" Prêt à partir.
  3. Apprendre le nouveau cadre
    Les élèves capturent le site Web officiel du cadre (par exemple, la page des composants de DaisyUI) et utilisent l'IA pour expliquer la fonctionnalité.
    être en mouvement npx sitemcp https://daisyui.com -m "/components/**"L'apprentissage est plus efficace.

 

QA

  1. Quels sont les clients pris en charge par SiteMCP ?
    Tout client qui prend en charge le protocole MCP fonctionnera, tel que Claude Desktop. D'autres outils doivent être vérifiés pour la compatibilité.
  2. Que se passe-t-il si la capture échoue ?
    Vérifiez le réseau ou utilisez la fonction -m Réduire la portée. Si le site restreint l'exploration, réduisez le champ d'application de la --concurrency Valeur.
  3. Le cache occupe-t-il beaucoup d'espace ?
    Les petits sites ne représentent que quelques mégaoctets, tandis que les grands sites peuvent atteindre des centaines de mégaoctets. --cache-dir Personnalisez le chemin et nettoyez-le régulièrement.
© déclaration de droits d'auteur
AiPPT

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...