파이어크롤 MCP 서버: 파이어크롤 기반 웹 크롤러 MCP 서비스

최신 AI 리소스6개월 전 업데이트 AI 공유 서클
20.4K 00
堆友AI

일반 소개

파이어크롤 MCP 서버는 MendableAI에서 개발한 오픈 소스 도구로, 다음과 같이 기반으로 합니다. 모델 컨텍스트 프로토콜 (MCP) 프로토콜 구현과 Firecrawl API가 통합되어 강력한 웹 크롤링 및 데이터 추출 기능을 제공합니다. Cursor, Claude 및 기타 LLM 클라이언트와 같은 AI 모델용으로 설계된 이 솔루션은 단일 페이지 크롤링부터 배치 크롤링, 검색 및 구조화된 데이터 추출에 이르기까지 광범위한 작업을 지원합니다. 동적 웹 페이지의 JavaScript 렌더링, 심층 크롤링, 콘텐츠 필터링 등 어떤 작업이든 Firecrawl MCP 서버는 효율적으로 처리합니다. 이 도구는 개발자, 연구원, 데이터 엔지니어를 위한 자동 재시도, 속도 제한, 로깅 시스템을 통해 클라우드 및 자체 호스팅 배포를 모두 지원합니다. 2025년 3월 현재, 이 프로젝트는 GitHub에서 지속적으로 업데이트되고 있으며 커뮤니티에서 널리 인정받고 있습니다.

Firecrawl MCP Server:基于 Firecrawl 的网页爬虫 MCP 服务

 

기능 목록

  • 싱글 페이지 그랩: 지정된 URL에서 마크다운 또는 구조화된 데이터를 추출합니다.
  • 벌크 크롤러병렬 작업 지원 및 내장된 속도 제한 기능으로 여러 URL을 효율적으로 처리합니다.
  • 웹 검색검색어를 기반으로 검색 결과에서 콘텐츠를 추출합니다.
  • 딥 크롤링URL 검색 및 멀티레이어 웹 크롤링을 지원합니다.
  • 데이터 추출LLM을 사용하여 웹 페이지에서 구조화된 정보를 추출합니다.
  • 자바스크립트 렌더링: 동적 웹 페이지의 전체 콘텐츠를 캡처합니다.
  • 지능형 필터링태그 포함/제외를 통한 콘텐츠 필터링.
  • 상태 모니터링일괄 작업 진행률 및 크레딧 사용량 쿼리를 제공합니다.
  • 로그 시스템운영 상태, 성능 및 오류 메시지를 기록합니다.
  • 모바일/데스크톱 지원다양한 디바이스 뷰포트에 맞게 조정.

 

도움말 사용

설치 프로세스

파이어크롤 MCP 서버는 다양한 사용 시나리오에 맞는 다양한 설치 방법을 제공합니다. 자세한 단계는 다음과 같습니다:

방법 1: npx로 빠른 실행

  1. 파이어크롤 API 키를 받습니다(파이어크롤 웹사이트에 등록하여 키를 받습니다).
  2. 터미널을 열고 환경 변수를 설정합니다:
    export FIRECRAWL_API_KEY="fc-YOUR_API_KEY"

상호 호환성 "fc-YOUR_API_KEY" 를 입력하세요.
3. 주문을 실행합니다:

npx -y firecrawl-mcp
  1. 시작에 성공하면 터미널에 다음과 같이 표시됩니다. [INFO] FireCrawl MCP Server initialized successfully.

모드 2: 수동 설치

  1. 글로벌 설치:
    npm install -g firecrawl-mcp
    
  2. 위와 같이 환경 변수를 설정합니다.
  3. 실행 중입니다:
    firecrawl-mcp
    

접근 방식 3: 자체 호스팅 배포

  1. GitHub 리포지토리를 복제합니다:
    git clone https://github.com/mendableai/firecrawl-mcp-server.git
    cd firecrawl-mcp-server
    
  2. 종속성을 설치합니다:
    npm install
    
  3. 프로젝트 빌드:
    npm run build
    
  4. 환경 변수를 설정하고 실행합니다:
    node dist/src/index.js
    

방법 4: 커서에서 실행

  1. 보안 커서 버전 0.45.6 이상.
  2. 커서 설정 > 기능 > MCP 서버를 엽니다.
  3. "+ 새 MCP 서버 추가"를 클릭하고 입력합니다:
    • 이름. firecrawl-mcp
    • 유형. command
    • 명령. env FIRECRAWL_API_KEY=your-api-key npx -y firecrawl-mcp
    • 문제를 겪고 있는 Windows 사용자는 시도해 보세요:cmd /c "set FIRECRAWL_API_KEY=your-api-key && npx -y firecrawl-mcp"
  4. Composer 에이전트가 자동으로 호출하는 MCP 서버 목록을 저장하고 새로 고칩니다.

방법 5: 윈드서핑 달리기

  1. 컴파일러 ./codeium/windsurf/model_config.json::
    {
    "mcpServers": {
    "mcp-server-firecrawl": {
    "command": "npx",
    "args": ["-y", "firecrawl-mcp"],
    "env": {
    "FIRECRAWL_API_KEY": "YOUR_API_KEY_HERE"
    }
    }
    }
    }
    
  2. 윈드서핑을 저장하고 실행합니다.

환경 변수 구성

필수 구성

  • FIRECRAWL_API_KEY클라우드 서비스를 사용할 때 설정해야 하는 클라우드 API 키입니다.

선택적 구성

  • FIRECRAWL_API_URL다음과 같은 자체 호스팅 인스턴스를 위한 API 엔드포인트 https://firecrawl.your-domain.com.
  • 구성을 다시 시도합니다:
    • FIRECRAWL_RETRY_MAX_ATTEMPTS최대 재시도 횟수, 기본값 3.
    • FIRECRAWL_RETRY_INITIAL_DELAY첫 번째 재시도 지연(밀리초), 기본값은 1000입니다.
    • FIRECRAWL_RETRY_MAX_DELAY최대 지연 시간(밀리초), 기본값 10000.
    • FIRECRAWL_RETRY_BACKOFF_FACTOR폴백 계수, 기본값은 2입니다.
  • 신용 모니터링:
    • FIRECRAWL_CREDIT_WARNING_THRESHOLD경고 임계값, 기본값은 1000입니다.
    • FIRECRAWL_CREDIT_CRITICAL_THRESHOLD비상 임계값, 기본값 100.

구성 예시

클라우드 사용량:

export FIRECRAWL_API_KEY="your-api-key"
export FIRECRAWL_RETRY_MAX_ATTEMPTS=5
export FIRECRAWL_RETRY_INITIAL_DELAY=2000
export FIRECRAWL_CREDIT_WARNING_THRESHOLD=2000

주요 기능

기능 1: 단일 페이지 스크랩(파이어크롤링 스크랩)

  • 절차::
    1. 서버를 시작한 후 POST 요청을 보냅니다:
      curl -X POST http://localhost:端口/firecrawl_scrape \
      -H "Content-Type: application/json" \
      -d '{"url": "https://example.com", "formats": ["markdown"], "onlyMainContent": true, "timeout": 30000}'
      
    2. 주요 콘텐츠를 마크다운 형식으로 반환합니다.
  • 매개변수 설명::
    • onlyMainContent주요 요소만 추출됩니다.
    • includeTags/excludeTags포함하거나 제외할 HTML 태그를 지정합니다.
  • 애플리케이션 시나리오기사 또는 페이지의 핵심 정보를 빠르게 추출합니다.

함수 2: 배치 크롤링(firecrawl_batch_scrape)

  • 절차::
    1. 대량 요청을 보냅니다:
      curl -X POST http://localhost:端口/firecrawl_batch_scrape \
      -H "Content-Type: application/json" \
      -d '{"urls": ["https://example1.com", "https://example2.com"], "options": {"formats": ["markdown"]}}'
      
    2. 작업 ID를 가져옵니다(예 batch_1.
    3. 상태를 확인합니다:
      curl -X POST http://localhost:端口/firecrawl_check_batch_status \
      -H "Content-Type: application/json" \
      -d '{"id": "batch_1"}'
      
  • 특성화대규모 데이터 수집을 위한 속도 제한 및 병렬 처리 기능이 내장되어 있습니다.

기능 3: 웹 검색(파이어크롤링 검색)

  • 절차::
    1. 검색 요청을 보냅니다:
      curl -X POST http://localhost:端口/firecrawl_search \
      -H "Content-Type: application/json" \
      -d '{"query": "AI tools", "limit": 5, "scrapeOptions": {"formats": ["markdown"]}}'
      
    2. 검색 결과의 마크다운 콘텐츠를 반환합니다.
  • 사용쿼리와 관련된 웹 페이지 데이터에 실시간으로 액세스합니다.

기능 4: 딥 크롤링(파이어크롤링)

  • 절차::
    1. 크롤링 요청을 시작합니다:
      curl -X POST http://localhost:端口/firecrawl_crawl \
      -H "Content-Type: application/json" \
      -d '{"url": "https://example.com", "maxDepth": 2, "limit": 100}'
      
    2. 크롤링 결과를 반환합니다.
  • 매개변수::maxDepth 크롤링 깊이를 제어합니다.limit 페이지 수를 제한합니다.

기능 5: 데이터 추출(firecrawl_extract)

  • 절차::
    1. 추출 요청을 보냅니다:
      curl -X POST http://localhost:端口/firecrawl_extract \
      -H "Content-Type: application/json" \
      -d '{"urls": ["https://example.com"], "prompt": "Extract product name and price", "schema": {"type": "object", "properties": {"name": {"type": "string"}, "price": {"type": "number"}}}}'
      
    2. 구조화된 데이터를 반환합니다.
  • 특성화LLM 추출 지원, 출력 형식을 보장하는 사용자 지정 스키마.

팁 및 유용한 정보

  • 로그 보기런타임에 터미널 로그를 주시합니다(예 [INFO] Starting scrape)를 사용하여 디버그합니다.
  • 오류 처리만나면 [ERROR] Rate limit exceeded를 클릭하고 재시도 매개변수를 조정하거나 기다립니다.
  • LLM과 통합커서 또는 Claude 크롤링 요구 사항을 직접 입력하면 도구가 자동으로 호출됩니다.

위의 작업을 통해 사용자는 다양한 웹 데이터 요구 사항을 충족하기 위해 Firecrawl MCP 서버를 쉽게 배포하고 사용할 수 있습니다.

© 저작권 정책

관련 게시물

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...