Firecrawl MCP Server: MCP-служба веб-краулера на основе Firecrawl

Общее введение

Firecrawl MCP Сервер - это инструмент с открытым исходным кодом, разработанный компанией MendableAI и основанный на Модель Контекстный протокол (MCP), интегрированная с Firecrawl API, обеспечивает мощный веб-ползание и извлечение данных. Разработанный для моделей искусственного интеллекта, таких как Cursor, Claude и других LLM-клиентов, он поддерживает широкий спектр операций - от переползания одной страницы до пакетного переползания, поиска и извлечения структурированных данных. Будь то JavaScript-рендеринг динамических веб-страниц, глубокий поиск и фильтрация контента, Firecrawl MCP Server эффективно справится с этой задачей. Инструмент поддерживает как облачные, так и самостоятельные развертывания с автоматическими повторными попытками, ограничением скорости и системами протоколирования для разработчиков, исследователей и инженеров по обработке данных. По состоянию на март 2025 года проект постоянно обновляется на GitHub и широко признан сообществом.

Firecrawl MCP Server:基于 Firecrawl 的网页爬虫 MCP 服务

 

Список функций

  • Одностраничный захват: Извлекает Markdown или структурированные данные из указанного URL.
  • гусеничный транспортер: Эффективная обработка множества URL-адресов с поддержкой параллельной работы и встроенным ограничением скорости.
  • Веб-поиск: Извлекает содержимое из результатов поиска на основе запроса.
  • глубокое ползание: Поддерживает обнаружение URL-адресов и многоуровневый просмотр веб-страниц.
  • извлечение данных: Извлечение структурированной информации из веб-страниц с помощью LLM.
  • Рендеринг на JavaScript: Захват полного содержимого динамической веб-страницы.
  • Интеллектуальная фильтрация: Фильтрация содержимого с помощью включения/исключения тегов.
  • Мониторинг состояния: Предоставляет запросы на выполнение пакетных заданий и использование кредитов.
  • система регистрации: Запись рабочего состояния, производительности и сообщений об ошибках.
  • Поддержка мобильных и настольных компьютеров: Адаптация к различным видовым экранам устройств.

 

Использование помощи

Процесс установки

Firecrawl MCP Server предлагает различные методы установки для разных сценариев использования. Ниже приведены подробные шаги:

Способ 1: Быстрый запуск с помощью npx

  1. Получите ключ API Firecrawl (зарегистрируйтесь на сайте Firecrawl, чтобы получить его).
  2. Откройте терминал и установите переменные окружения:
    export FIRECRAWL_API_KEY="fc-YOUR_API_KEY"

взаимозаменяемость "fc-YOUR_API_KEY" для вашего фактического ключа.
3. Выполните заказ:

npx -y firecrawl-mcp
  1. После успешного запуска терминал отображает [INFO] FireCrawl MCP Server initialized successfully.

Режим 2: Ручная установка

  1. Глобальная установка:
    npm install -g firecrawl-mcp
    
  2. Установите переменные окружения (как указано выше).
  3. Бег:
    firecrawl-mcp
    

Подход 3: самостоятельное развертывание

  1. Клонируйте репозиторий GitHub:
    git clone https://github.com/mendableai/firecrawl-mcp-server.git
    cd firecrawl-mcp-server
    
  2. Установите зависимость:
    npm install
    
  3. Постройте проект:
    npm run build
    
  4. Установите переменные окружения и запустите его:
    node dist/src/index.js
    

Способ 4: Запуск на курсоре

  1. безопасный Курсор Версия 0.45.6 или выше.
  2. Откройте Настройки курсора > Функции > Серверы MCP.
  3. Нажмите "+ Добавить новый MCP-сервер" и введите:
    • Имя. firecrawl-mcp
    • Тип. command
    • Командуйте. env FIRECRAWL_API_KEY=your-api-key npx -y firecrawl-mcp
    • Пользователи Windows, столкнувшиеся с проблемами, могут попробовать:cmd /c "set FIRECRAWL_API_KEY=your-api-key && npx -y firecrawl-mcp"
  4. Сохраните и обновите список MCP-серверов, к которым автоматически обращается Composer Agent.

Способ 5: Бег на виндсерфе

  1. компилятор ./codeium/windsurf/model_config.json::
    {
    "mcpServers": {
    "mcp-server-firecrawl": {
    "command": "npx",
    "args": ["-y", "firecrawl-mcp"],
    "env": {
    "FIRECRAWL_API_KEY": "YOUR_API_KEY_HERE"
    }
    }
    }
    }
    
  2. Сохраните и запустите Windsurf.

Настройка переменных среды

Необходимая конфигурация

  • FIRECRAWL_API_KEYКлюч Cloud API, который необходимо установить при использовании облачных сервисов.

Дополнительные конфигурации

  • FIRECRAWL_API_URL: конечные точки API для самостоятельно размещаемых экземпляров, таких как https://firecrawl.your-domain.com.
  • Повторите настройку:
    • FIRECRAWL_RETRY_MAX_ATTEMPTS: Максимальное количество повторных попыток, по умолчанию 3.
    • FIRECRAWL_RETRY_INITIAL_DELAY: Задержка первой повторной попытки (миллисекунды), по умолчанию 1000.
    • FIRECRAWL_RETRY_MAX_DELAY: Максимальная задержка в миллисекундах, по умолчанию 10000.
    • FIRECRAWL_RETRY_BACKOFF_FACTOR: Коэффициент отката, по умолчанию 2.
  • Кредитный мониторинг:
    • FIRECRAWL_CREDIT_WARNING_THRESHOLD: Порог предупреждения, по умолчанию 1000.
    • FIRECRAWL_CREDIT_CRITICAL_THRESHOLD: Порог аварийной ситуации, по умолчанию 100.

Пример конфигурации

Использование облаков:

export FIRECRAWL_API_KEY="your-api-key"
export FIRECRAWL_RETRY_MAX_ATTEMPTS=5
export FIRECRAWL_RETRY_INITIAL_DELAY=2000
export FIRECRAWL_CREDIT_WARNING_THRESHOLD=2000

Основные функции

Функция 1: Скрейп одной страницы (firecrawl_scrape)

  • процедура::
    1. После запуска сервера отправьте POST-запрос:
      curl -X POST http://localhost:端口/firecrawl_scrape \
      -H "Content-Type: application/json" \
      -d '{"url": "https://example.com", "formats": ["markdown"], "onlyMainContent": true, "timeout": 30000}'
      
    2. Возвращает основное содержимое в формате Markdown.
  • Описание параметров::
    • onlyMainContent: Извлекаются только основные элементы.
    • includeTags/excludeTags: Укажите HTML-теги для включения или исключения.
  • сценарий применения: Быстрое извлечение основной информации из статьи или страницы.

Функция 2: Пакетное скрежетание (firecrawl_batch_scrape)

  • процедура::
    1. Отправляет массовый запрос:
      curl -X POST http://localhost:端口/firecrawl_batch_scrape \
      -H "Content-Type: application/json" \
      -d '{"urls": ["https://example1.com", "https://example2.com"], "options": {"formats": ["markdown"]}}'
      
    2. Получите идентификатор операции, например. batch_1.
    3. Проверьте состояние:
      curl -X POST http://localhost:端口/firecrawl_check_batch_status \
      -H "Content-Type: application/json" \
      -d '{"id": "batch_1"}'
      
  • характеристикаВстроенное ограничение скорости и параллельная обработка для сбора больших объемов данных.

Функция 3: Веб-поиск (firecrawl_search)

  • процедура::
    1. Отправьте запрос на поиск:
      curl -X POST http://localhost:端口/firecrawl_search \
      -H "Content-Type: application/json" \
      -d '{"query": "AI tools", "limit": 5, "scrapeOptions": {"formats": ["markdown"]}}'
      
    2. Возвращает содержимое результатов поиска в формате Markdown.
  • использовать: Доступ к данным веб-страниц, соответствующим запросу, в режиме реального времени.

Функция 4: Глубокое ползание (firecrawl_crawl)

  • процедура::
    1. Инициируйте запрос на ползание:
      curl -X POST http://localhost:端口/firecrawl_crawl \
      -H "Content-Type: application/json" \
      -d '{"url": "https://example.com", "maxDepth": 2, "limit": 100}'
      
    2. Возвращает результаты поиска.
  • параметры::maxDepth контролируя глубину ползания.limit Ограничьте количество страниц.

Функция 5: Извлечение данных (firecrawl_extract)

  • процедура::
    1. Отправляет запрос на извлечение:
      curl -X POST http://localhost:端口/firecrawl_extract \
      -H "Content-Type: application/json" \
      -d '{"urls": ["https://example.com"], "prompt": "Extract product name and price", "schema": {"type": "object", "properties": {"name": {"type": "string"}, "price": {"type": "number"}}}}'
      
    2. Возвращает структурированные данные.
  • характеристика: Поддержка извлечения LLM, пользовательская схема для обеспечения выходного формата.

Советы и рекомендации

  • Просмотр журнала: Следите за журналами терминала во время выполнения (например. [INFO] Starting scrape) для отладки.
  • обработка ошибок: Если вы встретите [ERROR] Rate limit exceededНастройте параметры повтора или подождите.
  • Интеграция с LLM: В курсоре или Клод Инструмент вызывается автоматически при вводе требований к выполнению операций непосредственно в

Благодаря вышеописанным операциям пользователи могут легко развернуть и использовать Firecrawl MCP Server для удовлетворения разнообразных потребностей в веб-данных.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...