Aprendizagem pessoal com IA
e orientação prática
Beanbag Marscode1

SiteMCP: rastrear o conteúdo do site e transformá-lo em serviços MCP

Introdução geral

O SiteMCP é uma ferramenta de código aberto cuja função principal é rastrear todo o conteúdo de um site e transformá-lo em um servidor MCP (Model Context Protocol) que permite que assistentes de IA (como o Claude Desktop) para acessar diretamente os dados do site. Ele foi desenvolvido pelo desenvolvedor ryoppippi, hospedado no GitHub, e inspirado em outra ferramenta sitefetchO SiteMCP foi lançado em 7 de abril de 2025 no npm e tem como objetivo facilitar o acesso da IA a informações externas. O siteMCP permite que os usuários armazenem rapidamente uma página em cache e iniciem um servidor local simplesmente digitando o endereço de um site. Todo o processo é simples e eficiente, adequado para desenvolvedores, entusiastas de tecnologia e usuários em geral.

SiteMCP: rastreamento de sites e transformação deles em serviços MCP-1


 

Lista de funções

  • Rastreia todas as páginas ou partes de um site específico e as armazena em cache localmente.
  • Converta dados de sites rastreados em MCP servidor para acesso à IA.
  • Suporte para definir o número de simultaneidade por meio da linha de comando (por exemplo --concurrency) para melhorar a velocidade de rastreamento.
  • oferta -m que corresponde a um caminho de página específico (por exemplo /blog/**).
  • apoiar algo --content-selector para extrair o conteúdo da área especificada da página da Web.
  • Cache padrão de páginas para ~/.cache/sitemcpO cache não está disponível da mesma forma que nas outras versões, mas é possível personalizar o caminho do cache ou desativá-lo.
  • Integração perfeita com clientes que suportam o protocolo MCP, como o Claude Desktop.

 

Usando a Ajuda

O SiteMCP é fácil de instalar e usar, portanto, você pode começar a usá-lo rapidamente. A seguir, há uma descrição detalhada de como instalar, operar e usar os recursos.

Processo de instalação

O SiteMCP é executado no Node.js e pode ser usado sem baixar manualmente o código-fonte. Aqui estão as etapas:

  1. Verificar o ambiente do Node.js
    Abra um terminal e digite node -vSe você não tiver o Node.js, acesse o site do Node.js, faça o download e instale-o. Se você não tiver o Node.js, acesse o site do Node.js e faça o download.
  2. Uso único (sem necessidade de instalação)
    Digite qualquer um dos seguintes comandos no terminal, substituindo-o pelo site que você deseja rastrear:
npx sitemcp https://example.com
bunx sitemcp https://example.com
pnpx sitemcp https://example.com

Esses comandos farão o download automático do SiteMCP e o executarão, iniciando o servidor MCP quando o rastreamento for concluído.

  1. Instalação global (opcional)
    Se você o utiliza muito, pode instalá-lo globalmente:
npm i -g sitemcp
bun i -g sitemcp
pnpm i -g sitemcp

Após a instalação, é fácil usar o sitemcp a ser executado, por exemplo:

sitemcp https://example.com

operação básica

Depois de executar o comando, o SiteMCP rastreará o conteúdo do site e o armazenará em cache no caminho padrão ~/.cache/sitemcp. O terminal exibirá uma tela semelhante:

Fetching https://example.com...
Server running at http://localhost:3000

Nesse ponto, o servidor MCP está ativo e o AI Assistant pode ser acessado por meio do http://localhost:3000 Acesso aos dados.

Operação da função em destaque

O SiteMCP fornece alguns parâmetros para tornar o rastreamento mais flexível. Aqui estão os detalhes de uso:

  1. Melhorar a velocidade de rastreamento
    A simultaneidade padrão é limitada; se o site tiver muitas páginas, você poderá adicionar a opção --concurrency Parâmetros. Exemplo:
npx sitemcp https://daisyui.com --concurrency 10

Isso rastreará 10 páginas ao mesmo tempo, o que é muito mais rápido.

  1. Corresponder a páginas específicas
    despesa ou gasto -m talvez --match O parâmetro especifica o caminho e é compatível com vários usos. Exemplo:
npx sitemcp https://vite.dev -m "/blog/**" -m "/guide/**"

Isso só pegará vite.dev das páginas do blog e do guia. A correspondência de caminhos é baseada no micromatchO suporte a curingas (por exemplo ** (indicando todos os subcaminhos).

  1. Extrair conteúdo específico
    despesa ou gasto --content-selector especifica um seletor CSS. Por exemplo:
npx sitemcp https://vite.dev --content-selector ".content"

Isso só rastreará a página class="content" para evitar informações estranhas. O padrão do SiteMCP é usar o mozilla/readability Extrai conteúdo legível, mas pode ser mais preciso com seletores.

  1. Personalizar os caminhos do cache ou desativar o cache
    Cache padrão para ~/.cache/sitemcpVocê pode usar o --cache-dir Altere o caminho:
npx sitemcp https://example.com --cache-dir ./my-cache

Se você não quiser armazenar em cache, adicione --no-cache::

npx sitemcp https://example.com --no-cache
  1. Integração com o Claude Desktop
    Para configurar o servidor SiteMCP no Claude Desktop, proceda da seguinte forma:
  • Localize o arquivo de configuração (geralmente no formato JSON) e adicione-o:
    {
    "mcpServers": {
    "daisy-ui": {
    "command": "npx",
    "args": ["sitemcp", "https://daisyui.com", "-m", "/components/**"]
    }
    }
    }
    
  • Salve e reinicie o Claude Desktop. Depois disso, o Claude poderá acessar os dados da página do componente por meio do "daisy-ui".
  • Se o site tiver muitas páginas, é recomendável executar o comando para armazenar os dados em cache primeiro:
    npx sitemcp https://daisyui.com -m "/components/**"
    

advertência

  • primeira execução npx Quando for fazer o download das dependências, as redes lentas podem levar alguns segundos.
  • Se o site tiver um mecanismo anti rastreamento, o rastreamento poderá falhar; recomenda-se reduzir o número de simultaneidade ou entrar em contato com o webmaster.
  • O tamanho do arquivo de cache depende do tamanho do site e pode ser limpo regularmente ~/.cache/sitemcp.

Ao fazer isso, o SiteMCP pode transformar qualquer site em uma fonte de dados pronta para IA, especialmente para usuários que precisam de acesso rápido a documentos ou conteúdo.

 

cenário do aplicativo

  1. Código de depuração do desenvolvedor
    Os desenvolvedores rastreiam sites de documentação técnica (por exemplo, a página de guia do Vite) e permitem que a IA responda a perguntas de uso.
    Por exemplo, a execução de npx sitemcp https://vite.dev -m "/guide/**"A IA poderá acessar diretamente o conteúdo do guia.
  2. Agrupamento de conteúdo de blog
    Os blogueiros rastreiam seus próprios sites (por exemplo https://myblog.com), permitindo que a IA analise artigos ou gere resumos.
    despesa ou gasto npx sitemcp https://myblog.com -m "/posts/**" Pronto para começar.
  3. Aprendendo a nova estrutura
    Os alunos capturam o site oficial da estrutura (por exemplo, a página de componentes do DaisyUI) e usam a IA para explicar a funcionalidade.
    estar em movimento npx sitemcp https://daisyui.com -m "/components/**"O aprendizado é mais eficiente.

 

QA

  1. Quais clientes são compatíveis com o SiteMCP?
    Qualquer cliente compatível com o protocolo MCP funcionará, como o Claude Desktop. Outras ferramentas precisam ser verificadas quanto à compatibilidade.
  2. E se a captura falhar?
    Verifique a rede ou use a função -m Reduzir o escopo. Se o site restringir o rastreamento, diminua a --concurrency 值。
  3. O cache ocupa muito espaço?
    Sites pequenos têm poucos megabytes, enquanto sites grandes podem ter centenas de megabytes. --cache-dir Personalize o caminho e limpe-o regularmente.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " SiteMCP: rastrear o conteúdo do site e transformá-lo em serviços MCP
pt_BRPortuguês do Brasil