GPT-Crawler: автоматический просмотр содержимого веб-сайта для создания документов базы знаний

Общее введение

GPT-Crawler - это инструмент с открытым исходным кодом, разработанный командой BuilderIO и размещенный на GitHub. Он просматривает содержимое страниц, вводя один или несколько URL-адресов веб-сайтов, генерируя структурированные документы знаний (output.json) для создания пользовательских GPT или AI-помощников. Пользователи могут настроить правила поиска, например, указать начальный URL-адрес и селектор контента, а инструмент автоматически извлекает текст и организует его в файлы. Инструмент прост в использовании и поддерживает локальные запуски, развертывание контейнеров Docker и вызовы API, что делает его идеальным для разработчиков, которые могут быстро создать собственных ИИ-помощников на основе контента веб-сайтов. Пока что он набирает обороты в технологическом сообществе, пользуясь популярностью благодаря своей эффективности и открытому исходному коду.

GPT-Crawler:自动爬取网站内容生成知识库文件

 

Список функций

  • Изучает содержимое веб-сайта по одному или нескольким URL-адресам, генерируя output.json Документация.
  • Поддержка пользовательских правил наполнения, включая начальные URL, шаблоны сопоставления ссылок и селекторы CSS.
  • Способность работать с динамическими веб-страницами и просматривать содержимое на стороне клиента с помощью безголового браузера.
  • Предоставляет API-интерфейс для запуска задач краулинга с помощью POST-запросов.
  • Поддерживает установку максимального количества страниц (maxPagesToCrawl), размер документа (maxFileSize) и количество жетонов (maxTokens).
  • Сгенерированные файлы могут быть загружены непосредственно в OpenAI для создания пользовательских GPT или ИИ-ассистентов.
  • Поддерживает работу с контейнерами Docker, что упрощает развертывание в различных средах.
  • Конкретные типы ресурсов (например, изображения, видео и т. д.) могут быть исключены для оптимизации эффективности поиска.

 

Использование помощи

Установка и эксплуатация (локальный режим)

GPT-Crawler разработан на базе Node.js, и для его запуска требуется установка. Ниже приведены подробные шаги:

  1. Проверка окружения
    Убедитесь, что на вашем компьютере установлены Node.js (версия 16 или выше) и npm. Для подтверждения выполните следующую команду:
node -v
npm -v

Если у вас его нет, загрузите и установите его с сайта Node.js.

  1. проект клонирования
    Загрузите проект локально, введя команду в терминале:
git clone https://github.com/BuilderIO/gpt-crawler.git
  1. Доступ к каталогу
    После завершения загрузки перейдите в папку с проектом:
cd gpt-crawler
  1. Установка зависимостей
    Выполните следующую команду, чтобы установить необходимые пакеты:
npm install
  1. Настройка кроулера
    показать (билет) config.ts файла, измените параметры переползания. Например, чтобы просмотреть документ Builder.io:
export const defaultConfig: Config = {
url: "https://www.builder.io/c/docs/developers",
match: "https://www.builder.io/c/docs/**",
selector: ".docs-builder-container",
maxPagesToCrawl: 50,
outputFileName: "output.json"
};
  • url: Начальный адрес ползунка.
  • match: Шаблон сопоставления ссылок с поддержкой подстановочных знаков.
  • selector: CSS-селектор для извлечения содержимого.
  • maxPagesToCrawl: Максимальное количество страниц для просмотра.
  • outputFileName: Имя выходного файла.
  1. Запуск краулера
    После завершения настройки выполните следующую команду, чтобы запустить ползание:
npm start

По завершении.output.json файл создается в корневом каталоге проекта.

Альтернативные режимы работы

Использование контейнеров Docker

  1. Убедитесь, что Docker установлен (загружен с сайта Docker).
  2. входить containerapp Папка, Редактировать config.ts.
  3. Выполните следующую команду, чтобы собрать и запустить контейнер:
docker build -t gpt-crawler .
docker run -v $(pwd)/data:/app/data gpt-crawler
  1. Выходной файл создается в data папка.

Работа с API

  1. После установки зависимостей запустите службу API:
npm run start:server
  1. По умолчанию служба запускается на http://localhost:3000.
  2. Отправьте POST-запрос на /crawl, пример:
curl -X POST http://localhost:3000/crawl -H "Content-Type: application/json" -d '{"url":"https://example.com","match":"https://example.com/**","selector":"body","maxPagesToCrawl":10,"outputFileName":"output.json"}'
  1. доступный /api-docs Просмотрите документацию по API (основанную на Swagger).

Загрузка в OpenAI

  1. Создание пользовательского GPT
  • Открытый чатGPT.
  • Нажмите на свое имя в левом нижнем углу и выберите "Мои GPT".
  • Нажмите "Создать GPT" > "Настроить" > "Знания".
  • загрузить output.json Документация.
  • Если файл слишком велик, то config.ts устанавливать maxFileSize возможно maxTokens Раздельный файл.
  1. Создание пользовательских помощников
  • Откройте платформу OpenAI.
  • Нажмите "+ Создать" > "Загрузить".
  • загрузить output.json Документация.

Функции

  • Просмотр содержимого
    четко и определенно указывать url ответить пением selector После этого инструмент извлекает текст страницы. Например..docs-builder-container Захватите только содержимое региона.
  • Создание файлов
    Формат выходного файла:
[{"title": "页面标题", "url": "https://example.com/page", "html": "提取的文本"}, ...]
  • Оптимизированная производительность
    пользоваться resourceExclusions Исключите посторонние ресурсы (например. png, иjpg), уменьшая размер файла.

предостережение

  • Для создания пользовательских GPT требуется платный аккаунт OpenAI.
  • Динамический веб-ползание полагается на безголовые браузеры для обеспечения целостности зависимостей.
  • Конфигурация может быть настроена на разделение загрузки, если файл слишком велик.

 

сценарий применения

  1. Ассистент технической поддержки
    Просматривайте веб-сайты с документацией по продуктам, чтобы генерировать помощников с искусственным интеллектом, которые помогают пользователям отвечать на технические вопросы.
  2. Инструменты для организации контента
    Берите статьи из блогов или новостных сайтов, чтобы создать базу знаний или помощника по вопросам и ответам.
  3. Помощник по образованию и обучению
    Просматривайте страницы онлайн-курсов, чтобы генерировать учебные помощники, предоставляющие ответы на вопросы, связанные с курсом.

 

QA

  1. Можно ли просматривать несколько веб-сайтов?
    Можно. В config.ts Просто задайте несколько URL-адресов и правила соответствия в
  2. Что делать, если файл слишком велик для загрузки?
    устанавливать maxFileSize возможно maxTokensРазбивает файл на несколько файлов меньшего размера.
  3. Поддерживаете ли вы китайские сайты?
    Поддержка. Если содержимое сайта может быть разобрано безголовыми браузерами, оно может быть просмотрено правильно.
© заявление об авторских правах

Похожие статьи

AI Drive:总结PDF文件内容、与文件对话,支持上传无限量文件夹(付费)

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...