AI个人学习
和实操指南

GPT Crawler:从网站抓取知识库文件,创建定制GPTs

综合介绍

GPT Crawler 是一个开源工具,允许用户通过抓取特定网站内容来生成知识文件,进而创建定制的 GPT 模型。该项目主要用于抓取和整理网页信息,支持通过 API 和本地部署运行。用户可以灵活配置爬虫,以适应不同的网站结构和需求,从而生成适合自己使用的知识库文件。

GPT Crawler:从网站抓取知识文件,创建定制GPTs-1


 

 

功能列表

  • 爬取网站内容生成知识文件
  • 支持 API 和本地部署运行
  • 灵活配置爬虫参数
  • 生成定制的 GPT 模型
  • 支持多种文件格式的排除

 

 

使用帮助

安装流程

  1. 克隆仓库:首先,确保你已经安装了 Node.js >= 16。然后运行以下命令克隆仓库:
    git clone https://github.com/BuilderIO/gpt-crawler
    
  2. 安装依赖:进入项目目录并安装依赖:
    cd gpt-crawler
    npm install
    
  3. 配置爬虫:打开 config.ts 文件,编辑 urlselector 属性以匹配你的需求。例如,要爬取 Builder.io 文档,可以使用以下配置:
    export const defaultConfig: Config = {
      url: "https://www.builder.io/c/docs/developers",
      match: "https://www.builder.io/c/docs/**",
      selector: ".docs-builder-container",
      maxPagesToCrawl: 50,
      outputFileName: "output.json",
    };
    
  4. 运行爬虫:配置完成后,运行以下命令启动爬虫:
    npm run start
    

 

使用说明

  1. 配置文件:在 config.ts 文件中,你可以设置爬虫的起始 URL、匹配模式、选择器、最大爬取页面数等参数。确保这些参数与目标网站的结构相匹配。
  2. 运行爬虫:使用 npm run start 命令启动爬虫,爬虫会根据配置文件中的参数抓取网站内容并生成知识文件。
  3. 生成 GPT 模型:爬虫完成后,生成的知识文件会保存在项目目录中。你可以将这些文件上传到 OpenAI 或其他 GPT 服务,创建定制的 GPT 模型。
  4. API 使用:如果你希望通过 API 运行爬虫,可以参考项目中的 API 文档,配置并启动 API 服务。

 

注意事项

  • 资源排除:在 config.ts 文件中,你可以通过 resourceExclusions 属性排除不需要的文件类型,如图片、视频等。
  • 文件大小限制:你可以设置 maxFileSizemaxTokens 属性,限制生成文件的最大大小和最大 token 数量。
未经允许不得转载:首席AI分享圈 » GPT Crawler:从网站抓取知识库文件,创建定制GPTs

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文