Generador llms.txt: Capture rápidamente el contenido del sitio web y genere conjuntos de datos de texto de formación LLM.

Introducción general

llmstxt-generator es una herramienta profesional de extracción e integración de contenidos web especializada en la preparación de conjuntos de datos de texto de alta calidad para el entrenamiento y la inferencia de Large Language Models (LLM). Desarrollada por Mendable AI, la herramienta utiliza tecnología de rastreo web proporcionada por @firecrawl_dev y GPT-4-mini para el procesamiento de texto. Rastrea automáticamente el contenido de un sitio web determinado y consolida todo el contenido en un archivo de texto normalizado. La herramienta ofrece una cómoda interfaz web y una interfaz API que permite a los usuarios generar fácilmente conjuntos de datos de entrenamiento, especialmente adecuados para investigadores y desarrolladores de IA que necesiten obtener datos de texto de sitios web en masa.

llms.txt Generator:快速抓取网站内容并,生成LLM训练文本数据集

 

Lista de funciones

  • Rastrea automáticamente todas las páginas relevantes del contenido del sitio web de destino
  • Proporciona dos formatos de salida de texto: estándar (llms.txt) y completo (llms-full.txt).
  • Funcionamiento intuitivo a través de la interfaz web
  • Proporcionar una interfaz API RESTful para permitir llamadas programáticas
  • Soporte para el manejo especial del contenido de repositorios GitHub
  • Capacidad de extracción y tratamiento inteligente de contenidos web
  • Compatibilidad con claves API de Firecrawl personalizadas para aumentar los límites de rastreo
  • Incluye un mecanismo de caché web para mejorar la eficacia de la captura de datos
  • Soporte para múltiples conversiones de formato de contenido (por ejemplo, Markdown)

 

Utilizar la ayuda

1. Uso de la interfaz web

  1. Visite el sitio web oficial: https://llmstxt.firecrawl.dev
  2. Introduzca la URL del sitio web de destino en el cuadro de entrada
  3. Haga clic en el botón "Generar" para empezar a generar texto.
  4. Espere a que finalice el procesamiento para obtener el archivo de texto generado

2. Uso de la API

Llamadas básicas a la API:

GET https://llmstxt.firecrawl.dev/[YOUR_URL_HERE]
  • Obtenga la versión estándar del texto: vaya directamente a la URL anterior
  • Para obtener la versión completa del texto: añada "/full" al final de la URL.

Utilice una clave API personalizada:

Si necesita un límite de arrastre mayor, puede utilizar el suyo propio mediante Clave API de Firecrawl::

GET https://llmstxt.firecrawl.dev/[YOUR_URL_HERE]?FIRECRAWL_API_KEY=YOUR_API_KEY

3. Directrices para el despliegue local

Si necesita ejecutarlo en un entorno local, siga los pasos que se indican a continuación:

  1. Configuración del entorno:
    establecer .env y configure los siguientes parámetros necesarios:
FIRECRAWL_API_KEY=你的key
SUPABASE_URL=你的supabase URL
SUPABASE_KEY=你的supabase key
OPENAI_API_KEY=你的OpenAI key
  1. Instalación y funcionamiento:
npm install
npm run dev

4. Precauciones de uso

  • Tiempo de procesamiento: puede tardar unos minutos debido a la necesidad de realizar operaciones de rastreo del sitio y de procesamiento LLM.
  • Limitación de la versión gratuita: hasta 10 páginas por sitio sin clave API personalizada
  • Versión avanzada: Límite de hasta 100 páginas con clave API Firecrawl personalizada
  • Mecanismo de caché: el sistema guardará en caché los resultados, las solicitudes repetidas de la misma URL en un plazo de 3 días se devolverán directamente a la caché.
  • Compatibilidad con repositorios de GitHub: las URL de repositorios de GitHub se procesan especialmente para extraer el contenido relacionado con los repositorios.
© declaración de copyright
AiPPT

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...