综合介绍
llmstxt-generator 是一个专业的网站内容提取和整合工具,专门为大语言模型(LLM)的训练和推理准备高质量文本数据集。该工具由 Mendable AI 开发,采用 @firecrawl_dev 提供的网页爬虫技术和 GPT-4-mini 进行文本处理。它能够自动爬取指定网站的内容,并将所有内容整合成标准化的文本文件。该工具提供了便捷的 Web 界面和 API 接口,让用户可以轻松地生成训练数据集,特别适合需要从网站批量获取文本数据的 AI 研究人员和开发者使用。
功能列表
- 自动爬取目标网站的所有相关页面内容
- 提供标准版(llms.txt)和完整版(llms-full.txt)两种文本输出格式
- 支持通过 Web 界面直观操作
- 提供 RESTful API 接口实现程序化调用
- 支持 GitHub 仓库内容的特殊处理
- 具备网页内容智能提取和处理能力
- 支持自定义 Firecrawl API key 以提升抓取限制
- 包含网页缓存机制,提高数据获取效率
- 支持多种内容格式转换(如 Markdown)
使用帮助
1. Web 界面使用方法
- 访问官方网站:https://llmstxt.firecrawl.dev
- 在输入框中输入目标网站的 URL
- 点击"Generate"按钮开始生成文本
- 等待处理完成后获取生成的文本文件
2. API 使用方法
基础 API 调用:
GET https://llmstxt.firecrawl.dev/[YOUR_URL_HERE]
- 获取标准版文本:直接访问上述 URL
- 获取完整版文本:在 URL 末尾添加 "/full"
使用自定义 API Key:
如果需要更高的抓取限制,可以通过以下方式使用自己的 Firecrawl API key:
GET https://llmstxt.firecrawl.dev/[YOUR_URL_HERE]?FIRECRAWL_API_KEY=YOUR_API_KEY
3. 本地部署指南
如果需要在本地环境运行,请按照以下步骤操作:
- 环境配置:
创建.env
文件并配置以下必要参数:
FIRECRAWL_API_KEY=你的key
SUPABASE_URL=你的supabase URL
SUPABASE_KEY=你的supabase key
OPENAI_API_KEY=你的OpenAI key
- 安装和运行:
npm install
npm run dev
4. 使用注意事项
- 处理时间:由于需要进行网站爬取和 LLM 处理操作,可能需要几分钟时间
- 免费版限制:未使用自定义 API key 时,每个网站最多抓取 10 个页面
- 高级版本:使用自定义 Firecrawl API key 可提升至 100 页面限制
- 缓存机制:系统会缓存处理结果,相同 URL 在 3 天内重复请求将直接返回缓存内容
- GitHub 仓库支持:对于 GitHub 仓库 URL,系统会特殊处理以提取仓库相关内容