AI Personal Learning
und praktische Anleitung
Sitzsack Marscode1

SiteMCP: Crawling von Website-Inhalten und deren Umwandlung in MCP-Dienste

Allgemeine Einführung

SiteMCP ist ein Open-Source-Tool, dessen Kernfunktion darin besteht, den gesamten Inhalt einer Website zu crawlen und ihn in einen MCP-Server (Model Context Protocol) zu verwandeln, der es KI-Assistenten (wie dem Claude Desktop), um direkt auf Website-Daten zuzugreifen. Es wurde vom Entwickler ryoppippi entwickelt, auf GitHub gehostet und von einem anderen Tool inspiriert sitefetchSiteMCP wurde am 7. April 2025 auf npm veröffentlicht und zielt darauf ab, den Zugriff auf externe Informationen für KI zu vereinfachen. siteMCP ermöglicht es Nutzern, eine Seite schnell zwischenzuspeichern und einen lokalen Server zu starten, indem sie einfach die Adresse einer Website eingeben. Der gesamte Prozess ist einfach und effizient und eignet sich für Entwickler, Technikbegeisterte und allgemeine Benutzer.

SiteMCP: Websites crawlen und in MCP-Dienste umwandeln-1


 

Funktionsliste

  • Durchsucht alle Seiten oder Teile einer bestimmten Website und speichert sie lokal.
  • Konvertiert gecrawlte Website-Daten in MCP Server für KI-Zugang.
  • Unterstützung für die Einstellung der Anzahl der Gleichzeitigkeiten über die Befehlszeile (z. B. --concurrency), um die Crawl-Geschwindigkeit zu verbessern.
  • Angebot -m Parameter, der einem bestimmten Seitenpfad entspricht (z. B. /blog/**).
  • etw. unterstützen --content-selector Parameter, um den Inhalt des angegebenen Bereichs der Webseite zu extrahieren.
  • Standardmäßige Zwischenspeicherung von Seiten auf ~/.cache/sitemcpDer Cache ist nicht in der gleichen Weise verfügbar wie in den anderen Versionen, aber es ist möglich, den Cache-Pfad anzupassen oder den Cache zu deaktivieren.
  • Nahtlose Integration mit Clients, die das MCP-Protokoll unterstützen, wie z. B. Claude Desktop.

 

Hilfe verwenden

SiteMCP ist einfach zu installieren und zu benutzen, so dass Sie schnell loslegen können. Im Folgenden finden Sie eine detaillierte Beschreibung der Installation, Bedienung und Nutzung der Funktionen.

Einbauverfahren

SiteMCP läuft auf Node.js und kann ohne manuelles Herunterladen des Quellcodes verwendet werden. Hier sind die Schritte:

  1. Überprüfen Sie die Node.js-Umgebung
    Öffnen Sie ein Terminal und geben Sie node -vWenn Sie Node.js nicht haben, können Sie es von der Node.js-Website herunterladen und installieren. Wenn Sie es nicht haben, besuchen Sie die Node.js-Website und laden Sie es herunter.
  2. Einmaliger Gebrauch (keine Installation erforderlich)
    Geben Sie einen der folgenden Befehle in das Terminal ein und ersetzen Sie ihn durch die Website, die Sie crawlen möchten:
npx sitemcp https://example.com
bunx sitemcp https://example.com
pnpx sitemcp https://example.com

Diese Befehle laden SiteMCP automatisch herunter, führen es aus und starten den MCP-Server, sobald der Crawl abgeschlossen ist.

  1. Globale Installation (optional)
    Wenn Sie es häufig verwenden, können Sie es global installieren:
npm i -g sitemcp
bun i -g sitemcp
pnpm i -g sitemcp

Nach der Installation ist es einfach, die sitemcp Befehl auszuführen, zum Beispiel:

sitemcp https://example.com

grundlegende Bedienung

Nach der Ausführung des Befehls wird SiteMCP den Inhalt der Website crawlen und in den Standardpfad zwischenspeichern ~/.cache/sitemcp. Das Terminal zeigt eine ähnliche Anzeige:

Fetching https://example.com...
Server running at http://localhost:3000

Zu diesem Zeitpunkt ist der MCP-Server hochgefahren und der AI Assistant kann über den http://localhost:3000 Zugang zu Daten.

Featured Function Bedienung

SiteMCP bietet einige Parameter, um das Crawling flexibler zu gestalten. Hier ist die detaillierte Verwendung:

  1. Verbesserung der Crawl-Geschwindigkeit
    Die standardmäßige Gleichzeitigkeit ist begrenzt, wenn die Website viele Seiten hat, können Sie die --concurrency Parameter. Beispiel:
npx sitemcp https://daisyui.com --concurrency 10

Dadurch werden 10 Seiten gleichzeitig gecrawlt, was viel schneller ist.

  1. Bestimmte Seiten abgleichen
    Kosten oder Aufwand -m vielleicht --match Der Parameter gibt den Pfad an und unterstützt mehrere Verwendungen. Beispiel:
npx sitemcp https://vite.dev -m "/blog/**" -m "/guide/**"

Dies erfasst nur vite.dev der Blog- und Ratgeberseiten. Der Pfadabgleich basiert auf dem micromatchDie Unterstützung von Wildcards (z. B. ** (mit Angabe aller Unterpfade).

  1. Spezifische Inhalte extrahieren
    Kosten oder Aufwand --content-selector Parameter gibt einen CSS-Selektor an. Zum Beispiel:
npx sitemcp https://vite.dev --content-selector ".content"

Dadurch wird nur die Seite gecrawlt class="content" um überflüssige Informationen zu vermeiden.SiteMCP verwendet standardmäßig die mozilla/lesbarkeit Extrahiert lesbaren Inhalt, kann aber mit Selektoren präziser sein.

  1. Cache-Pfade anpassen oder Caching deaktivieren
    Standard-Cache auf ~/.cache/sitemcpDies kann geschehen mit --cache-dir Ändern Sie den Pfad:
npx sitemcp https://example.com --cache-dir ./my-cache

Wenn Sie nicht zwischenspeichern möchten, fügen Sie --no-cache::

npx sitemcp https://example.com --no-cache
  1. Integration mit Claude Desktop
    Um den SiteMCP-Server in Claude Desktop zu konfigurieren, gehen Sie wie folgt vor:
  • Suchen Sie die Konfigurationsdatei (normalerweise im JSON-Format) und fügen Sie sie hinzu:
    {
    "mcpServers": {
    "daisy-ui": {
    "command": "npx",
    "args": ["sitemcp", "https://daisyui.com", "-m", "/components/**"]
    }
    }
    }
    
  • Speichern Sie und starten Sie Claude Desktop neu. Danach kann Claude über "daisy-ui" auf die Daten der Komponentenseite zugreifen.
  • Wenn die Website viele Seiten hat, empfiehlt es sich, zuerst den Befehl zum Zwischenspeichern der Daten auszuführen:
    npx sitemcp https://daisyui.com -m "/components/**"
    

caveat

  • erster Lauf npx Das Herunterladen von Abhängigkeiten kann bei langsamen Netzen einige Sekunden dauern.
  • Wenn die Website einen Anti-Crawl-Mechanismus hat, kann der Crawl fehlschlagen. Es wird empfohlen, die Anzahl der Gleichzeitigkeiten zu reduzieren oder den Webmaster zu kontaktieren.
  • Die Größe der Cache-Datei hängt von der Größe der Website ab und kann regelmäßig bereinigt werden ~/.cache/sitemcp.

Auf diese Weise kann SiteMCP jede Website in eine KI-fähige Datenquelle verwandeln, insbesondere für Nutzer, die einen schnellen Zugriff auf Dokumente oder Inhalte benötigen.

 

Anwendungsszenario

  1. Debugging-Code für Entwickler
    Entwickler durchsuchen Websites mit technischer Dokumentation (z. B. die Leitfaden-Seite von Vite) und lassen KI Fragen zur Nutzung beantworten.
    Zum Beispiel, wenn Sie npx sitemcp https://vite.dev -m "/guide/**"Die KI wird direkt auf den Inhalt des Leitfadens zugreifen können.
  2. Zusammenstellung von Blog-Inhalten
    Blogger crawlen ihre eigenen Websites (z. B. https://myblog.com) und lässt KI Artikel analysieren oder Zusammenfassungen erstellen.
    Kosten oder Aufwand npx sitemcp https://myblog.com -m "/posts/**" Es kann losgehen.
  3. Erlernen des neuen Rahmens
    Die Schüler erfassen die offizielle Website des Frameworks (z. B. die Komponentenseite von DaisyUI) und verwenden KI, um die Funktionalität zu erklären.
    in Bewegung sein npx sitemcp https://daisyui.com -m "/components/**"Das Lernen ist effizienter.

 

QA

  1. Welche Clients werden von SiteMCP unterstützt?
    Jeder Client, der das MCP-Protokoll unterstützt, funktioniert, z. B. Claude Desktop.
  2. Was ist, wenn die Erfassung fehlschlägt?
    Überprüfen Sie das Netzwerk, oder verwenden Sie die -m Verringern Sie den Umfang. Wenn die Website das Crawlen einschränkt, verringern Sie den --concurrency Wert.
  3. Nimmt der Cache viel Platz ein?
    Kleine Websites sind einige Megabyte groß, große Websites können Hunderte von Megabyte groß sein. --cache-dir Passen Sie den Pfad an und bereinigen Sie ihn regelmäßig.
Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " SiteMCP: Crawling von Website-Inhalten und deren Umwandlung in MCP-Dienste
de_DEDeutsch