파이어크롤 MCP 서버: 파이어크롤 기반 웹 크롤러 MCP 서비스

최신 AI 리소스5개월 전 업데이트 AI 공유 서클
2.2K 00

일반 소개

파이어크롤 MCP 서버는 MendableAI에서 개발한 오픈 소스 도구로, 다음과 같이 기반으로 합니다. 모델 컨텍스트 프로토콜 (MCP) 프로토콜 구현과 Firecrawl API가 통합되어 강력한 웹 크롤링 및 데이터 추출 기능을 제공합니다. Cursor, Claude 및 기타 LLM 클라이언트와 같은 AI 모델용으로 설계된 이 솔루션은 단일 페이지 크롤링부터 배치 크롤링, 검색 및 구조화된 데이터 추출에 이르기까지 광범위한 작업을 지원합니다. 동적 웹 페이지의 JavaScript 렌더링, 심층 크롤링, 콘텐츠 필터링 등 어떤 작업이든 Firecrawl MCP 서버는 효율적으로 처리합니다. 이 도구는 개발자, 연구원, 데이터 엔지니어를 위한 자동 재시도, 속도 제한, 로깅 시스템을 통해 클라우드 및 자체 호스팅 배포를 모두 지원합니다. 2025년 3월 현재, 이 프로젝트는 GitHub에서 지속적으로 업데이트되고 있으며 커뮤니티에서 널리 인정받고 있습니다.

Firecrawl MCP Server:基于 Firecrawl 的网页爬虫 MCP 服务

 

기능 목록

  • 싱글 페이지 그랩: 지정된 URL에서 마크다운 또는 구조화된 데이터를 추출합니다.
  • 벌크 크롤러병렬 작업 지원 및 내장된 속도 제한 기능으로 여러 URL을 효율적으로 처리합니다.
  • 웹 검색검색어를 기반으로 검색 결과에서 콘텐츠를 추출합니다.
  • 딥 크롤링URL 검색 및 멀티레이어 웹 크롤링을 지원합니다.
  • 데이터 추출LLM을 사용하여 웹 페이지에서 구조화된 정보를 추출합니다.
  • 자바스크립트 렌더링: 동적 웹 페이지의 전체 콘텐츠를 캡처합니다.
  • 지능형 필터링태그 포함/제외를 통한 콘텐츠 필터링.
  • 상태 모니터링일괄 작업 진행률 및 크레딧 사용량 쿼리를 제공합니다.
  • 로그 시스템운영 상태, 성능 및 오류 메시지를 기록합니다.
  • 모바일/데스크톱 지원다양한 디바이스 뷰포트에 맞게 조정.

 

도움말 사용

설치 프로세스

파이어크롤 MCP 서버는 다양한 사용 시나리오에 맞는 다양한 설치 방법을 제공합니다. 자세한 단계는 다음과 같습니다:

방법 1: npx로 빠른 실행

  1. 파이어크롤 API 키를 받습니다(파이어크롤 웹사이트에 등록하여 키를 받습니다).
  2. 터미널을 열고 환경 변수를 설정합니다:
    export FIRECRAWL_API_KEY="fc-YOUR_API_KEY"

상호 호환성 "fc-YOUR_API_KEY" 를 입력하세요.
3. 주문을 실행합니다:

npx -y firecrawl-mcp
  1. 시작에 성공하면 터미널에 다음과 같이 표시됩니다. [INFO] FireCrawl MCP Server initialized successfully.

모드 2: 수동 설치

  1. 글로벌 설치:
    npm install -g firecrawl-mcp
    
  2. 위와 같이 환경 변수를 설정합니다.
  3. 실행 중입니다:
    firecrawl-mcp
    

접근 방식 3: 자체 호스팅 배포

  1. GitHub 리포지토리를 복제합니다:
    git clone https://github.com/mendableai/firecrawl-mcp-server.git
    cd firecrawl-mcp-server
    
  2. 종속성을 설치합니다:
    npm install
    
  3. 프로젝트 빌드:
    npm run build
    
  4. 환경 변수를 설정하고 실행합니다:
    node dist/src/index.js
    

방법 4: 커서에서 실행

  1. 보안 커서 버전 0.45.6 이상.
  2. 커서 설정 > 기능 > MCP 서버를 엽니다.
  3. "+ 새 MCP 서버 추가"를 클릭하고 입력합니다:
    • 이름. firecrawl-mcp
    • 유형. command
    • 명령. env FIRECRAWL_API_KEY=your-api-key npx -y firecrawl-mcp
    • 문제를 겪고 있는 Windows 사용자는 시도해 보세요:cmd /c "set FIRECRAWL_API_KEY=your-api-key && npx -y firecrawl-mcp"
  4. Composer 에이전트가 자동으로 호출하는 MCP 서버 목록을 저장하고 새로 고칩니다.

방법 5: 윈드서핑 달리기

  1. 컴파일러 ./codeium/windsurf/model_config.json::
    {
    "mcpServers": {
    "mcp-server-firecrawl": {
    "command": "npx",
    "args": ["-y", "firecrawl-mcp"],
    "env": {
    "FIRECRAWL_API_KEY": "YOUR_API_KEY_HERE"
    }
    }
    }
    }
    
  2. 윈드서핑을 저장하고 실행합니다.

환경 변수 구성

필수 구성

  • FIRECRAWL_API_KEY클라우드 서비스를 사용할 때 설정해야 하는 클라우드 API 키입니다.

선택적 구성

  • FIRECRAWL_API_URL다음과 같은 자체 호스팅 인스턴스를 위한 API 엔드포인트 https://firecrawl.your-domain.com.
  • 구성을 다시 시도합니다:
    • FIRECRAWL_RETRY_MAX_ATTEMPTS최대 재시도 횟수, 기본값 3.
    • FIRECRAWL_RETRY_INITIAL_DELAY첫 번째 재시도 지연(밀리초), 기본값은 1000입니다.
    • FIRECRAWL_RETRY_MAX_DELAY최대 지연 시간(밀리초), 기본값 10000.
    • FIRECRAWL_RETRY_BACKOFF_FACTOR폴백 계수, 기본값은 2입니다.
  • 신용 모니터링:
    • FIRECRAWL_CREDIT_WARNING_THRESHOLD경고 임계값, 기본값은 1000입니다.
    • FIRECRAWL_CREDIT_CRITICAL_THRESHOLD비상 임계값, 기본값 100.

구성 예시

클라우드 사용량:

export FIRECRAWL_API_KEY="your-api-key"
export FIRECRAWL_RETRY_MAX_ATTEMPTS=5
export FIRECRAWL_RETRY_INITIAL_DELAY=2000
export FIRECRAWL_CREDIT_WARNING_THRESHOLD=2000

주요 기능

기능 1: 단일 페이지 스크랩(파이어크롤링 스크랩)

  • 절차::
    1. 서버를 시작한 후 POST 요청을 보냅니다:
      curl -X POST http://localhost:端口/firecrawl_scrape \
      -H "Content-Type: application/json" \
      -d '{"url": "https://example.com", "formats": ["markdown"], "onlyMainContent": true, "timeout": 30000}'
      
    2. 주요 콘텐츠를 마크다운 형식으로 반환합니다.
  • 매개변수 설명::
    • onlyMainContent주요 요소만 추출됩니다.
    • includeTags/excludeTags포함하거나 제외할 HTML 태그를 지정합니다.
  • 애플리케이션 시나리오기사 또는 페이지의 핵심 정보를 빠르게 추출합니다.

함수 2: 배치 크롤링(firecrawl_batch_scrape)

  • 절차::
    1. 대량 요청을 보냅니다:
      curl -X POST http://localhost:端口/firecrawl_batch_scrape \
      -H "Content-Type: application/json" \
      -d '{"urls": ["https://example1.com", "https://example2.com"], "options": {"formats": ["markdown"]}}'
      
    2. 작업 ID를 가져옵니다(예 batch_1.
    3. 상태를 확인합니다:
      curl -X POST http://localhost:端口/firecrawl_check_batch_status \
      -H "Content-Type: application/json" \
      -d '{"id": "batch_1"}'
      
  • 특성화대규모 데이터 수집을 위한 속도 제한 및 병렬 처리 기능이 내장되어 있습니다.

기능 3: 웹 검색(파이어크롤링 검색)

  • 절차::
    1. 검색 요청을 보냅니다:
      curl -X POST http://localhost:端口/firecrawl_search \
      -H "Content-Type: application/json" \
      -d '{"query": "AI tools", "limit": 5, "scrapeOptions": {"formats": ["markdown"]}}'
      
    2. 검색 결과의 마크다운 콘텐츠를 반환합니다.
  • 사용쿼리와 관련된 웹 페이지 데이터에 실시간으로 액세스합니다.

기능 4: 딥 크롤링(파이어크롤링)

  • 절차::
    1. 크롤링 요청을 시작합니다:
      curl -X POST http://localhost:端口/firecrawl_crawl \
      -H "Content-Type: application/json" \
      -d '{"url": "https://example.com", "maxDepth": 2, "limit": 100}'
      
    2. 크롤링 결과를 반환합니다.
  • 매개변수::maxDepth 크롤링 깊이를 제어합니다.limit 페이지 수를 제한합니다.

기능 5: 데이터 추출(firecrawl_extract)

  • 절차::
    1. 추출 요청을 보냅니다:
      curl -X POST http://localhost:端口/firecrawl_extract \
      -H "Content-Type: application/json" \
      -d '{"urls": ["https://example.com"], "prompt": "Extract product name and price", "schema": {"type": "object", "properties": {"name": {"type": "string"}, "price": {"type": "number"}}}}'
      
    2. 구조화된 데이터를 반환합니다.
  • 특성화LLM 추출 지원, 출력 형식을 보장하는 사용자 지정 스키마.

팁 및 유용한 정보

  • 로그 보기런타임에 터미널 로그를 주시합니다(예 [INFO] Starting scrape)를 사용하여 디버그합니다.
  • 오류 처리만나면 [ERROR] Rate limit exceeded를 클릭하고 재시도 매개변수를 조정하거나 기다립니다.
  • LLM과 통합커서 또는 Claude 크롤링 요구 사항을 직접 입력하면 도구가 자동으로 호출됩니다.

위의 작업을 통해 사용자는 다양한 웹 데이터 요구 사항을 충족하기 위해 Firecrawl MCP 서버를 쉽게 배포하고 사용할 수 있습니다.

© 저작권 정책
AiPPT

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...