综合介绍
GPT Crawler 是一个开源工具,允许用户通过抓取特定网站内容来生成知识文件,进而创建定制的 GPT 模型。该项目主要用于抓取和整理网页信息,支持通过 API 和本地部署运行。用户可以灵活配置爬虫,以适应不同的网站结构和需求,从而生成适合自己使用的知识库文件。
功能列表
- 爬取网站内容生成知识文件
- 支持 API 和本地部署运行
- 灵活配置爬虫参数
- 生成定制的 GPT 模型
- 支持多种文件格式的排除
使用帮助
安装流程
- 克隆仓库:首先,确保你已经安装了 Node.js >= 16。然后运行以下命令克隆仓库:
git clone https://github.com/BuilderIO/gpt-crawler
- 安装依赖:进入项目目录并安装依赖:
cd gpt-crawler npm install
- 配置爬虫:打开
config.ts
文件,编辑url
和selector
属性以匹配你的需求。例如,要爬取 Builder.io 文档,可以使用以下配置:export const defaultConfig: Config = { url: "https://www.builder.io/c/docs/developers", match: "https://www.builder.io/c/docs/**", selector: ".docs-builder-container", maxPagesToCrawl: 50, outputFileName: "output.json", };
- 运行爬虫:配置完成后,运行以下命令启动爬虫:
npm run start
使用说明
- 配置文件:在
config.ts
文件中,你可以设置爬虫的起始 URL、匹配模式、选择器、最大爬取页面数等参数。确保这些参数与目标网站的结构相匹配。 - 运行爬虫:使用
npm run start
命令启动爬虫,爬虫会根据配置文件中的参数抓取网站内容并生成知识文件。 - 生成 GPT 模型:爬虫完成后,生成的知识文件会保存在项目目录中。你可以将这些文件上传到 OpenAI 或其他 GPT 服务,创建定制的 GPT 模型。
- API 使用:如果你希望通过 API 运行爬虫,可以参考项目中的 API 文档,配置并启动 API 服务。
注意事项
- 资源排除:在
config.ts
文件中,你可以通过resourceExclusions
属性排除不需要的文件类型,如图片、视频等。 - 文件大小限制:你可以设置
maxFileSize
和maxTokens
属性,限制生成文件的最大大小和最大 token 数量。