SiteMCP: 웹사이트 콘텐츠 크롤링 및 MCP 서비스 전환

최신 AI 리소스4 개월 전에 게시 됨 AI 공유 서클
1.5K 00

일반 소개

SiteMCP는 오픈 소스 도구로, 핵심 기능은 전체 웹사이트의 콘텐츠를 크롤링하여 AI 어시스턴트( Claude 데스크톱)을 사용하여 웹사이트 데이터에 직접 액세스할 수 있습니다. 이 도구는 개발자 ryoppippi가 개발하여 GitHub에서 호스팅하며 다른 도구에서 영감을 받았습니다. sitefetchSiteMCP는 2025년 4월 7일에 npm에서 출시되었으며, 인공지능이 외부 정보에 더 쉽게 액세스할 수 있도록 하는 것을 목표로 합니다. 사이트MCP를 사용하면 웹사이트 주소를 입력하기만 하면 페이지를 빠르게 캐시하고 로컬 서버를 실행할 수 있습니다. 전체 프로세스가 간단하고 효율적이어서 개발자, 기술 애호가 및 일반 사용자에게 적합합니다.

SiteMCP:抓取网站内容并转为MCP服务

 

기능 목록

  • 특정 웹사이트의 모든 페이지 또는 일부를 크롤링하여 로컬에 캐시합니다.
  • 크롤링된 웹사이트 데이터를 MCP 서버에 액세스합니다.
  • 명령줄을 통한 동시 접속자 수 설정 지원(예 --concurrency)를 사용하여 크롤링 속도를 개선합니다.
  • offer -m 매개변수를 사용하여 특정 페이지 경로와 일치하는 매개변수(예 /blog/**).
  • 지원 --content-selector 매개변수를 사용하여 웹 페이지의 지정된 영역의 콘텐츠를 추출할 수 있습니다.
  • 페이지의 기본 캐싱 대상은 다음과 같습니다. ~/.cache/sitemcp캐시는 다른 버전과 같은 방식으로 사용할 수 없지만 캐시 경로를 사용자 지정하거나 캐시를 비활성화할 수 있습니다.
  • Claude Desktop과 같이 MCP 프로토콜을 지원하는 클라이언트와 원활하게 통합됩니다.

 

도움말 사용

SiteMCP는 설치와 사용이 간편하여 빠르게 시작할 수 있습니다. 다음은 기능을 설치, 작동 및 사용하는 방법에 대한 자세한 설명입니다.

설치 프로세스

SiteMCP는 Node.js에서 실행되며 소스 코드를 수동으로 다운로드하지 않고도 사용할 수 있습니다. 단계는 다음과 같습니다:

  1. Node.js 환경 확인
    터미널을 열고 다음을 입력합니다. node -vNode.js가 없는 경우 Node.js 웹사이트로 이동하여 다운로드하여 설치하세요. 없는 경우 Node.js 웹사이트로 이동하여 다운로드하세요.
  2. 1회 사용(설치 필요 없음)
    터미널에 다음 명령어 중 하나를 크롤링하려는 사이트로 바꾸어 입력합니다:
npx sitemcp https://example.com
bunx sitemcp https://example.com
pnpx sitemcp https://example.com

이 명령은 크롤링이 완료되면 자동으로 SiteMCP를 다운로드하고 실행하여 MCP 서버를 시작합니다.

  1. 글로벌 설치(선택 사항)
    많이 사용하는 경우 전 세계에 설치할 수 있습니다:
npm i -g sitemcp
bun i -g sitemcp
pnpm i -g sitemcp

설치가 완료되면 간단하게 sitemcp 명령을 실행합니다:

sitemcp https://example.com

기본 조작

명령을 실행하면 SiteMCP가 웹사이트 콘텐츠를 크롤링하여 기본 경로에 캐시합니다. ~/.cache/sitemcp. 터미널에도 비슷하게 표시됩니다:

Fetching https://example.com...
Server running at http://localhost:3000

이 시점에서 MCP 서버가 가동되고 다음을 통해 AI 어시스턴트에 액세스할 수 있습니다. http://localhost:3000 데이터에 액세스합니다.

주요 기능 작동

SiteMCP는 크롤링을 보다 유연하게 만드는 몇 가지 매개변수를 제공합니다. 자세한 사용법은 다음과 같습니다:

  1. 크롤링 속도 향상
    기본 동시성은 제한되어 있으며, 사이트에 페이지가 많은 경우 사이트에 --concurrency 매개변수. 예시:
npx sitemcp https://daisyui.com --concurrency 10

이렇게 하면 동시에 10페이지를 크롤링하므로 훨씬 빠릅니다.

  1. 특정 페이지 일치
    비용 또는 지출 -m 어쩌면 --match 이 매개변수는 경로를 지정하며 여러 용도를 지원합니다. 예시:
npx sitemcp https://vite.dev -m "/blog/**" -m "/guide/**"

이렇게 하면 vite.dev 블로그 및 가이드 페이지의 경로 매칭은 마이크로매치와일드카드 지원(예 ** (모든 하위 경로 표시).

  1. 특정 콘텐츠 추출
    비용 또는 지출 --content-selector 매개변수는 CSS 선택기를 지정합니다. 예를 들어
npx sitemcp https://vite.dev --content-selector ".content"

이렇게 하면 페이지만 크롤링됩니다. class="content" 를 사용하여 불필요한 정보를 피합니다.SiteMCP는 기본적으로 모질라/가독성 읽을 수 있는 콘텐츠를 추출하지만 선택기를 사용하면 더 정확하게 추출할 수 있습니다.

  1. 캐시 경로 사용자 지정 또는 캐싱 비활성화
    기본 캐시를 ~/.cache/sitemcp다음을 사용하여 수행할 수 있습니다. --cache-dir 경로를 변경합니다:
npx sitemcp https://example.com --cache-dir ./my-cache

캐시를 사용하지 않으려면 다음을 추가하세요. --no-cache::

npx sitemcp https://example.com --no-cache
  1. 클로드 데스크톱과 통합
    Claude Desktop에서 SiteMCP 서버를 구성하려면 다음과 같이 진행하세요:
  • 구성 파일(일반적으로 JSON 형식)을 찾아서 추가합니다:
    {
    "mcpServers": {
    "daisy-ui": {
    "command": "npx",
    "args": ["sitemcp", "https://daisyui.com", "-m", "/components/**"]
    }
    }
    }
    
  • Claude Desktop을 저장하고 다시 시작합니다. 그 후 Claude는 "데이지-ui"를 통해 컴포넌트 페이지 데이터에 액세스할 수 있습니다.
  • 사이트에 페이지가 많은 경우 먼저 데이터를 캐시하는 명령을 실행하는 것이 좋습니다:
    npx sitemcp https://daisyui.com -m "/components/**"
    

주의

  • 첫 번째 실행 npx 종속성을 다운로드할 때 네트워크 속도가 느린 경우 몇 초가 걸릴 수 있습니다.
  • 사이트에 크롤링 방지 메커니즘이 있는 경우 크롤링이 실패할 수 있으므로 동시 접속자 수를 줄이거나 웹마스터에게 문의하는 것이 좋습니다.
  • 캐시 파일의 크기는 사이트 크기에 따라 다르며 정기적으로 정리할 수 있습니다. ~/.cache/sitemcp.

이를 통해 SiteMCP는 특히 문서나 콘텐츠에 빠르게 액세스해야 하는 사용자를 위해 모든 웹사이트를 AI 지원 데이터 소스로 전환할 수 있습니다.

 

애플리케이션 시나리오

  1. 개발자 디버깅 코드
    개발자는 기술 문서 사이트(예: Vite의 가이드 페이지)를 크롤링하여 AI가 사용법에 대한 질문에 답변하도록 합니다.
    예를 들어, 실행 npx sitemcp https://vite.dev -m "/guide/**"AI가 가이드의 콘텐츠에 직접 액세스할 수 있게 됩니다.
  2. 블로그 콘텐츠 데이터 정렬
    블로거는 자신의 사이트를 크롤링합니다(예 https://myblog.com), AI가 기사를 분석하거나 요약을 생성할 수 있도록 합니다.
    비용 또는 지출 npx sitemcp https://myblog.com -m "/posts/**" 준비 완료.
  3. 새 프레임워크 배우기
    학생들은 프레임워크의 공식 웹사이트(예: 데이지UI의 컴포넌트 페이지)를 캡처하고 AI를 사용하여 기능을 설명합니다.
    움직여야 합니다. npx sitemcp https://daisyui.com -m "/components/**"학습이 더 효율적입니다.

 

QA

  1. SiteMCP는 어떤 클라이언트를 지원하나요?
    MCP 프로토콜을 지원하는 클라이언트(예: 클로드 데스크톱)는 모두 작동합니다. 다른 도구는 호환성 여부를 확인해야 합니다.
  2. 캡처가 실패하면 어떻게 하나요?
    네트워크를 확인하거나 -m 범위를 줄입니다. 사이트에서 크롤링을 제한하는 경우 크롤링 범위를 --concurrency 가치.
  3. 캐시가 많은 공간을 차지하나요?
    소규모 사이트는 몇 메가바이트, 대규모 사이트는 수백 메가바이트에 달할 수 있습니다. --cache-dir 경로를 사용자 지정하고 정기적으로 정리하세요.
© 저작권 정책
AiPPT

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...