Introdução geral
O SiteMCP é uma ferramenta de código aberto cuja função principal é rastrear todo o conteúdo de um site e transformá-lo em um servidor MCP (Model Context Protocol) que permite que assistentes de IA (como o Claude Desktop) para acessar diretamente os dados do site. Ele foi desenvolvido pelo desenvolvedor ryoppippi, hospedado no GitHub, e inspirado em outra ferramenta sitefetch
O SiteMCP foi lançado em 7 de abril de 2025 no npm e tem como objetivo facilitar o acesso da IA a informações externas. O siteMCP permite que os usuários armazenem rapidamente uma página em cache e iniciem um servidor local simplesmente digitando o endereço de um site. Todo o processo é simples e eficiente, adequado para desenvolvedores, entusiastas de tecnologia e usuários em geral.
Lista de funções
- Rastreia todas as páginas ou partes de um site específico e as armazena em cache localmente.
- Converta dados de sites rastreados em MCP servidor para acesso à IA.
- Suporte para definir o número de simultaneidade por meio da linha de comando (por exemplo
--concurrency
) para melhorar a velocidade de rastreamento. - oferta
-m
que corresponde a um caminho de página específico (por exemplo/blog/**
). - apoiar algo
--content-selector
para extrair o conteúdo da área especificada da página da Web. - Cache padrão de páginas para
~/.cache/sitemcp
O cache não está disponível da mesma forma que nas outras versões, mas é possível personalizar o caminho do cache ou desativá-lo. - Integração perfeita com clientes que suportam o protocolo MCP, como o Claude Desktop.
Usando a Ajuda
O SiteMCP é fácil de instalar e usar, portanto, você pode começar a usá-lo rapidamente. A seguir, há uma descrição detalhada de como instalar, operar e usar os recursos.
Processo de instalação
O SiteMCP é executado no Node.js e pode ser usado sem baixar manualmente o código-fonte. Aqui estão as etapas:
- Verificar o ambiente do Node.js
Abra um terminal e digitenode -v
Se você não tiver o Node.js, acesse o site do Node.js, faça o download e instale-o. Se você não tiver o Node.js, acesse o site do Node.js e faça o download. - Uso único (sem necessidade de instalação)
Digite qualquer um dos seguintes comandos no terminal, substituindo-o pelo site que você deseja rastrear:
npx sitemcp https://example.com
bunx sitemcp https://example.com
pnpx sitemcp https://example.com
Esses comandos farão o download automático do SiteMCP e o executarão, iniciando o servidor MCP quando o rastreamento for concluído.
- Instalação global (opcional)
Se você o utiliza muito, pode instalá-lo globalmente:
npm i -g sitemcp
bun i -g sitemcp
pnpm i -g sitemcp
Após a instalação, é fácil usar o sitemcp
a ser executado, por exemplo:
sitemcp https://example.com
operação básica
Depois de executar o comando, o SiteMCP rastreará o conteúdo do site e o armazenará em cache no caminho padrão ~/.cache/sitemcp
. O terminal exibirá uma tela semelhante:
Fetching https://example.com...
Server running at http://localhost:3000
Nesse ponto, o servidor MCP está ativo e o AI Assistant pode ser acessado por meio do http://localhost:3000
Acesso aos dados.
Operação da função em destaque
O SiteMCP fornece alguns parâmetros para tornar o rastreamento mais flexível. Aqui estão os detalhes de uso:
- Melhorar a velocidade de rastreamento
A simultaneidade padrão é limitada; se o site tiver muitas páginas, você poderá adicionar a opção--concurrency
Parâmetros. Exemplo:
npx sitemcp https://daisyui.com --concurrency 10
Isso rastreará 10 páginas ao mesmo tempo, o que é muito mais rápido.
- Corresponder a páginas específicas
despesa ou gasto-m
talvez--match
O parâmetro especifica o caminho e é compatível com vários usos. Exemplo:
npx sitemcp https://vite.dev -m "/blog/**" -m "/guide/**"
Isso só pegará vite.dev
das páginas do blog e do guia. A correspondência de caminhos é baseada no micromatchO suporte a curingas (por exemplo **
(indicando todos os subcaminhos).
- Extrair conteúdo específico
despesa ou gasto--content-selector
especifica um seletor CSS. Por exemplo:
npx sitemcp https://vite.dev --content-selector ".content"
Isso só rastreará a página class="content"
para evitar informações estranhas. O padrão do SiteMCP é usar o mozilla/readability Extrai conteúdo legível, mas pode ser mais preciso com seletores.
- Personalizar os caminhos do cache ou desativar o cache
Cache padrão para~/.cache/sitemcp
Você pode usar o--cache-dir
Altere o caminho:
npx sitemcp https://example.com --cache-dir ./my-cache
Se você não quiser armazenar em cache, adicione --no-cache
::
npx sitemcp https://example.com --no-cache
- Integração com o Claude Desktop
Para configurar o servidor SiteMCP no Claude Desktop, proceda da seguinte forma:
- Localize o arquivo de configuração (geralmente no formato JSON) e adicione-o:
{ "mcpServers": { "daisy-ui": { "command": "npx", "args": ["sitemcp", "https://daisyui.com", "-m", "/components/**"] } } }
- Salve e reinicie o Claude Desktop. Depois disso, o Claude poderá acessar os dados da página do componente por meio do "daisy-ui".
- Se o site tiver muitas páginas, é recomendável executar o comando para armazenar os dados em cache primeiro:
npx sitemcp https://daisyui.com -m "/components/**"
advertência
- primeira execução
npx
Quando for fazer o download das dependências, as redes lentas podem levar alguns segundos. - Se o site tiver um mecanismo anti rastreamento, o rastreamento poderá falhar; recomenda-se reduzir o número de simultaneidade ou entrar em contato com o webmaster.
- O tamanho do arquivo de cache depende do tamanho do site e pode ser limpo regularmente
~/.cache/sitemcp
.
Ao fazer isso, o SiteMCP pode transformar qualquer site em uma fonte de dados pronta para IA, especialmente para usuários que precisam de acesso rápido a documentos ou conteúdo.
cenário do aplicativo
- Código de depuração do desenvolvedor
Os desenvolvedores rastreiam sites de documentação técnica (por exemplo, a página de guia do Vite) e permitem que a IA responda a perguntas de uso.
Por exemplo, a execução denpx sitemcp https://vite.dev -m "/guide/**"
A IA poderá acessar diretamente o conteúdo do guia. - Agrupamento de conteúdo de blog
Os blogueiros rastreiam seus próprios sites (por exemplohttps://myblog.com
), permitindo que a IA analise artigos ou gere resumos.
despesa ou gastonpx sitemcp https://myblog.com -m "/posts/**"
Pronto para começar. - Aprendendo a nova estrutura
Os alunos capturam o site oficial da estrutura (por exemplo, a página de componentes do DaisyUI) e usam a IA para explicar a funcionalidade.
estar em movimentonpx sitemcp https://daisyui.com -m "/components/**"
O aprendizado é mais eficiente.
QA
- Quais clientes são compatíveis com o SiteMCP?
Qualquer cliente compatível com o protocolo MCP funcionará, como o Claude Desktop. Outras ferramentas precisam ser verificadas quanto à compatibilidade. - E se a captura falhar?
Verifique a rede ou use a função-m
Reduzir o escopo. Se o site restringir o rastreamento, diminua a--concurrency
值。 - O cache ocupa muito espaço?
Sites pequenos têm poucos megabytes, enquanto sites grandes podem ter centenas de megabytes.--cache-dir
Personalize o caminho e limpe-o regularmente.