SiteMCP: 웹사이트 콘텐츠 크롤링 및 MCP 서비스 전환

최신 AI 리소스12개월 전에 게시됨 AI 공유 서클
56.2K 00
堆友AI

일반 소개

SiteMCP는 오픈 소스 도구로, 핵심 기능은 전체 웹사이트의 콘텐츠를 크롤링하여 AI 어시스턴트( Claude 데스크톱)을 사용하여 웹사이트 데이터에 직접 액세스할 수 있습니다. 이 도구는 개발자 ryoppippi가 개발하여 GitHub에서 호스팅하며 다른 도구에서 영감을 받았습니다. sitefetchSiteMCP는 2025년 4월 7일에 npm에서 출시되었으며, 인공지능이 외부 정보에 더 쉽게 액세스할 수 있도록 하는 것을 목표로 합니다. 사이트MCP를 사용하면 웹사이트 주소를 입력하기만 하면 페이지를 빠르게 캐시하고 로컬 서버를 실행할 수 있습니다. 전체 프로세스가 간단하고 효율적이어서 개발자, 기술 애호가 및 일반 사용자에게 적합합니다.

SiteMCP:抓取网站内容并转为MCP服务

 

기능 목록

  • 특정 웹사이트의 모든 페이지 또는 일부를 크롤링하여 로컬에 캐시합니다.
  • 크롤링된 웹사이트 데이터를 MCP 서버에 액세스합니다.
  • 명령줄을 통한 동시 접속자 수 설정 지원(예 --concurrency)를 사용하여 크롤링 속도를 개선합니다.
  • offer -m 매개변수를 사용하여 특정 페이지 경로와 일치하는 매개변수(예 /blog/**).
  • 지원 --content-selector 매개변수를 사용하여 웹 페이지의 지정된 영역의 콘텐츠를 추출할 수 있습니다.
  • 페이지의 기본 캐싱 대상은 다음과 같습니다. ~/.cache/sitemcp캐시는 다른 버전과 같은 방식으로 사용할 수 없지만 캐시 경로를 사용자 지정하거나 캐시를 비활성화할 수 있습니다.
  • Claude Desktop과 같이 MCP 프로토콜을 지원하는 클라이언트와 원활하게 통합됩니다.

 

도움말 사용

SiteMCP는 설치와 사용이 간편하여 빠르게 시작할 수 있습니다. 다음은 기능을 설치, 작동 및 사용하는 방법에 대한 자세한 설명입니다.

설치 프로세스

SiteMCP는 Node.js에서 실행되며 소스 코드를 수동으로 다운로드하지 않고도 사용할 수 있습니다. 단계는 다음과 같습니다:

  1. Node.js 환경 확인
    터미널을 열고 다음을 입력합니다. node -vNode.js가 없는 경우 Node.js 웹사이트로 이동하여 다운로드하여 설치하세요. 없는 경우 Node.js 웹사이트로 이동하여 다운로드하세요.
  2. 1회 사용(설치 필요 없음)
    터미널에 다음 명령어 중 하나를 크롤링하려는 사이트로 바꾸어 입력합니다:
npx sitemcp https://example.com
bunx sitemcp https://example.com
pnpx sitemcp https://example.com

이 명령은 크롤링이 완료되면 자동으로 SiteMCP를 다운로드하고 실행하여 MCP 서버를 시작합니다.

  1. 글로벌 설치(선택 사항)
    많이 사용하는 경우 전 세계에 설치할 수 있습니다:
npm i -g sitemcp
bun i -g sitemcp
pnpm i -g sitemcp

설치가 완료되면 간단하게 sitemcp 명령을 실행합니다:

sitemcp https://example.com

기본 조작

명령을 실행하면 SiteMCP가 웹사이트 콘텐츠를 크롤링하여 기본 경로에 캐시합니다. ~/.cache/sitemcp. 터미널에도 비슷하게 표시됩니다:

Fetching https://example.com...
Server running at http://localhost:3000

이 시점에서 MCP 서버가 가동되고 다음을 통해 AI 어시스턴트에 액세스할 수 있습니다. http://localhost:3000 데이터에 액세스합니다.

주요 기능 작동

SiteMCP는 크롤링을 보다 유연하게 만드는 몇 가지 매개변수를 제공합니다. 자세한 사용법은 다음과 같습니다:

  1. 크롤링 속도 향상
    기본 동시성은 제한되어 있으며, 사이트에 페이지가 많은 경우 사이트에 --concurrency 매개변수. 예시:
npx sitemcp https://daisyui.com --concurrency 10

이렇게 하면 동시에 10페이지를 크롤링하므로 훨씬 빠릅니다.

  1. 특정 페이지 일치
    비용 또는 지출 -m 어쩌면 --match 이 매개변수는 경로를 지정하며 여러 용도를 지원합니다. 예시:
npx sitemcp https://vite.dev -m "/blog/**" -m "/guide/**"

이렇게 하면 vite.dev 블로그 및 가이드 페이지의 경로 매칭은 마이크로매치와일드카드 지원(예 ** (모든 하위 경로 표시).

  1. 특정 콘텐츠 추출
    비용 또는 지출 --content-selector 매개변수는 CSS 선택기를 지정합니다. 예를 들어
npx sitemcp https://vite.dev --content-selector ".content"

이렇게 하면 페이지만 크롤링됩니다. class="content" 를 사용하여 불필요한 정보를 피합니다.SiteMCP는 기본적으로 모질라/가독성 읽을 수 있는 콘텐츠를 추출하지만 선택기를 사용하면 더 정확하게 추출할 수 있습니다.

  1. 캐시 경로 사용자 지정 또는 캐싱 비활성화
    기본 캐시를 ~/.cache/sitemcp다음을 사용하여 수행할 수 있습니다. --cache-dir 경로를 변경합니다:
npx sitemcp https://example.com --cache-dir ./my-cache

캐시를 사용하지 않으려면 다음을 추가하세요. --no-cache::

npx sitemcp https://example.com --no-cache
  1. 클로드 데스크톱과 통합
    Claude Desktop에서 SiteMCP 서버를 구성하려면 다음과 같이 진행하세요:
  • 구성 파일(일반적으로 JSON 형식)을 찾아서 추가합니다:
    {
    "mcpServers": {
    "daisy-ui": {
    "command": "npx",
    "args": ["sitemcp", "https://daisyui.com", "-m", "/components/**"]
    }
    }
    }
    
  • Claude Desktop을 저장하고 다시 시작합니다. 그 후 Claude는 "데이지-ui"를 통해 컴포넌트 페이지 데이터에 액세스할 수 있습니다.
  • 사이트에 페이지가 많은 경우 먼저 데이터를 캐시하는 명령을 실행하는 것이 좋습니다:
    npx sitemcp https://daisyui.com -m "/components/**"
    

주의

  • 첫 번째 실행 npx 종속성을 다운로드할 때 네트워크 속도가 느린 경우 몇 초가 걸릴 수 있습니다.
  • 사이트에 크롤링 방지 메커니즘이 있는 경우 크롤링이 실패할 수 있으므로 동시 접속자 수를 줄이거나 웹마스터에게 문의하는 것이 좋습니다.
  • 캐시 파일의 크기는 사이트 크기에 따라 다르며 정기적으로 정리할 수 있습니다. ~/.cache/sitemcp.

이를 통해 SiteMCP는 특히 문서나 콘텐츠에 빠르게 액세스해야 하는 사용자를 위해 모든 웹사이트를 AI 지원 데이터 소스로 전환할 수 있습니다.

 

애플리케이션 시나리오

  1. 개발자 디버깅 코드
    개발자는 기술 문서 사이트(예: Vite의 가이드 페이지)를 크롤링하여 AI가 사용법에 대한 질문에 답변하도록 합니다.
    예를 들어, 실행 npx sitemcp https://vite.dev -m "/guide/**"AI가 가이드의 콘텐츠에 직접 액세스할 수 있게 됩니다.
  2. 블로그 콘텐츠 데이터 정렬
    블로거는 자신의 사이트를 크롤링합니다(예 https://myblog.com), AI가 기사를 분석하거나 요약을 생성할 수 있도록 합니다.
    비용 또는 지출 npx sitemcp https://myblog.com -m "/posts/**" 준비 완료.
  3. 새 프레임워크 배우기
    학생들은 프레임워크의 공식 웹사이트(예: 데이지UI의 컴포넌트 페이지)를 캡처하고 AI를 사용하여 기능을 설명합니다.
    움직여야 합니다. npx sitemcp https://daisyui.com -m "/components/**"학습이 더 효율적입니다.

 

QA

  1. SiteMCP는 어떤 클라이언트를 지원하나요?
    MCP 프로토콜을 지원하는 클라이언트(예: 클로드 데스크톱)는 모두 작동합니다. 다른 도구는 호환성 여부를 확인해야 합니다.
  2. 캡처가 실패하면 어떻게 하나요?
    네트워크를 확인하거나 -m 범위를 줄입니다. 사이트에서 크롤링을 제한하는 경우 크롤링 범위를 --concurrency 가치.
  3. 캐시가 많은 공간을 차지하나요?
    소규모 사이트는 몇 메가바이트, 대규모 사이트는 수백 메가바이트에 달할 수 있습니다. --cache-dir 경로를 사용자 지정하고 정기적으로 정리하세요.
© 저작권 정책

관련 게시물

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...