AI个人学习
和实操指南

llms.txt Generator:快速抓取网站内容并,生成LLM训练文本数据集

综合介绍

llmstxt-generator 是一个专业的网站内容提取和整合工具,专门为大语言模型(LLM)的训练和推理准备高质量文本数据集。该工具由 Mendable AI 开发,采用 @firecrawl_dev 提供的网页爬虫技术和 GPT-4-mini 进行文本处理。它能够自动爬取指定网站的内容,并将所有内容整合成标准化的文本文件。该工具提供了便捷的 Web 界面和 API 接口,让用户可以轻松地生成训练数据集,特别适合需要从网站批量获取文本数据的 AI 研究人员和开发者使用。

llms.txt Generator:快速抓取网站内容并,生成LLM训练文本数据集-1


 

功能列表

  • 自动爬取目标网站的所有相关页面内容
  • 提供标准版(llms.txt)和完整版(llms-full.txt)两种文本输出格式
  • 支持通过 Web 界面直观操作
  • 提供 RESTful API 接口实现程序化调用
  • 支持 GitHub 仓库内容的特殊处理
  • 具备网页内容智能提取和处理能力
  • 支持自定义 Firecrawl API key 以提升抓取限制
  • 包含网页缓存机制,提高数据获取效率
  • 支持多种内容格式转换(如 Markdown)

 

使用帮助

1. Web 界面使用方法

  1. 访问官方网站:https://llmstxt.firecrawl.dev
  2. 在输入框中输入目标网站的 URL
  3. 点击"Generate"按钮开始生成文本
  4. 等待处理完成后获取生成的文本文件

2. API 使用方法

基础 API 调用:

GET https://llmstxt.firecrawl.dev/[YOUR_URL_HERE]
  • 获取标准版文本:直接访问上述 URL
  • 获取完整版文本:在 URL 末尾添加 "/full"

使用自定义 API Key:

如果需要更高的抓取限制,可以通过以下方式使用自己的 Firecrawl API key

GET https://llmstxt.firecrawl.dev/[YOUR_URL_HERE]?FIRECRAWL_API_KEY=YOUR_API_KEY

3. 本地部署指南

如果需要在本地环境运行,请按照以下步骤操作:

  1. 环境配置:
    创建 .env 文件并配置以下必要参数:
FIRECRAWL_API_KEY=你的key
SUPABASE_URL=你的supabase URL
SUPABASE_KEY=你的supabase key
OPENAI_API_KEY=你的OpenAI key
  1. 安装和运行:
npm install
npm run dev

4. 使用注意事项

  • 处理时间:由于需要进行网站爬取和 LLM 处理操作,可能需要几分钟时间
  • 免费版限制:未使用自定义 API key 时,每个网站最多抓取 10 个页面
  • 高级版本:使用自定义 Firecrawl API key 可提升至 100 页面限制
  • 缓存机制:系统会缓存处理结果,相同 URL 在 3 天内重复请求将直接返回缓存内容
  • GitHub 仓库支持:对于 GitHub 仓库 URL,系统会特殊处理以提取仓库相关内容
未经允许不得转载:首席AI分享圈 » llms.txt Generator:快速抓取网站内容并,生成LLM训练文本数据集

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文