Generador llms.txt: Capture rápidamente el contenido del sitio web y genere conjuntos de datos de texto de formación LLM.
Últimos recursos sobre IAPublicado hace 7 meses Círculo de intercambio de inteligencia artificial 2K 00
Introducción general
llmstxt-generator es una herramienta profesional de extracción e integración de contenidos web especializada en la preparación de conjuntos de datos de texto de alta calidad para el entrenamiento y la inferencia de Large Language Models (LLM). Desarrollada por Mendable AI, la herramienta utiliza tecnología de rastreo web proporcionada por @firecrawl_dev y GPT-4-mini para el procesamiento de texto. Rastrea automáticamente el contenido de un sitio web determinado y consolida todo el contenido en un archivo de texto normalizado. La herramienta ofrece una cómoda interfaz web y una interfaz API que permite a los usuarios generar fácilmente conjuntos de datos de entrenamiento, especialmente adecuados para investigadores y desarrolladores de IA que necesiten obtener datos de texto de sitios web en masa.

Lista de funciones
- Rastrea automáticamente todas las páginas relevantes del contenido del sitio web de destino
- Proporciona dos formatos de salida de texto: estándar (llms.txt) y completo (llms-full.txt).
- Funcionamiento intuitivo a través de la interfaz web
- Proporcionar una interfaz API RESTful para permitir llamadas programáticas
- Soporte para el manejo especial del contenido de repositorios GitHub
- Capacidad de extracción y tratamiento inteligente de contenidos web
- Compatibilidad con claves API de Firecrawl personalizadas para aumentar los límites de rastreo
- Incluye un mecanismo de caché web para mejorar la eficacia de la captura de datos
- Soporte para múltiples conversiones de formato de contenido (por ejemplo, Markdown)
Utilizar la ayuda
1. Uso de la interfaz web
- Visite el sitio web oficial: https://llmstxt.firecrawl.dev
- Introduzca la URL del sitio web de destino en el cuadro de entrada
- Haga clic en el botón "Generar" para empezar a generar texto.
- Espere a que finalice el procesamiento para obtener el archivo de texto generado
2. Uso de la API
Llamadas básicas a la API:
GET https://llmstxt.firecrawl.dev/[YOUR_URL_HERE]
- Obtenga la versión estándar del texto: vaya directamente a la URL anterior
- Para obtener la versión completa del texto: añada "/full" al final de la URL.
Utilice una clave API personalizada:
Si necesita un límite de arrastre mayor, puede utilizar el suyo propio mediante Clave API de Firecrawl::
GET https://llmstxt.firecrawl.dev/[YOUR_URL_HERE]?FIRECRAWL_API_KEY=YOUR_API_KEY
3. Directrices para el despliegue local
Si necesita ejecutarlo en un entorno local, siga los pasos que se indican a continuación:
- Configuración del entorno:
establecer.env
y configure los siguientes parámetros necesarios:
FIRECRAWL_API_KEY=你的key
SUPABASE_URL=你的supabase URL
SUPABASE_KEY=你的supabase key
OPENAI_API_KEY=你的OpenAI key
- Instalación y funcionamiento:
npm install
npm run dev
4. Precauciones de uso
- Tiempo de procesamiento: puede tardar unos minutos debido a la necesidad de realizar operaciones de rastreo del sitio y de procesamiento LLM.
- Limitación de la versión gratuita: hasta 10 páginas por sitio sin clave API personalizada
- Versión avanzada: Límite de hasta 100 páginas con clave API Firecrawl personalizada
- Mecanismo de caché: el sistema guardará en caché los resultados, las solicitudes repetidas de la misma URL en un plazo de 3 días se devolverán directamente a la caché.
- Compatibilidad con repositorios de GitHub: las URL de repositorios de GitHub se procesan especialmente para extraer el contenido relacionado con los repositorios.
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Artículos relacionados
Sin comentarios...