Générateur llms.txt : capturez rapidement le contenu d'un site web et générez des ensembles de données textuelles de formation LLM.
Introduction générale
llmstxt-generator est un outil professionnel d'extraction et d'intégration de contenu web spécialisé dans la préparation d'ensembles de données textuelles de haute qualité pour l'entraînement et l'inférence de grands modèles de langage (LLM). Développé par Mendable AI, l'outil utilise la technologie d'exploration du web fournie par @firecrawl_dev et GPT-4-mini pour le traitement du texte. Il explore automatiquement le contenu d'un site web donné et consolide tout le contenu dans un fichier texte standardisé. L'outil fournit une interface web et une interface API pratiques, permettant aux utilisateurs de générer facilement des ensembles de données de formation, particulièrement adaptées aux chercheurs et développeurs en IA qui ont besoin d'obtenir des données textuelles à partir de sites web en vrac.

Liste des fonctions
- Parcourir automatiquement toutes les pages pertinentes du contenu du site web ciblé
- Fournit deux formats de sortie texte : standard (llms.txt) et complet (llms-full.txt).
- Fonctionnement intuitif via l'interface web
- Fournir une interface API RESTful pour permettre des appels programmatiques
- Prise en charge du traitement spécial du contenu du dépôt GitHub
- Capacité d'extraction et de traitement intelligents du contenu web
- Prise en charge des clés API Firecrawl personnalisées pour augmenter les limites d'exploration
- Comprend un mécanisme de mise en cache sur le web pour améliorer l'efficacité de la saisie des données
- Prise en charge de la conversion de plusieurs formats de contenu (par exemple, Markdown)
Utiliser l'aide
1. utilisation de l'interface web
- Visitez le site officiel : https://llmstxt.firecrawl.dev
- Saisissez l'URL du site web cible dans le champ de saisie.
- Cliquez sur le bouton "Générer" pour commencer à générer le texte.
- Attendre la fin du traitement pour obtenir le fichier texte généré
2. utilisation de l'API
Appels de base à l'API :
GET https://llmstxt.firecrawl.dev/[YOUR_URL_HERE]
- Obtenir la version standard du texte : aller directement à l'URL ci-dessus
- Pour obtenir la version complète du texte : ajoutez "/full" à la fin de l'URL.
Utiliser une clé API personnalisée :
Si vous avez besoin d'une limite de rampement plus élevée, vous pouvez utiliser la vôtre en Clé API Firecrawl: :
GET https://llmstxt.firecrawl.dev/[YOUR_URL_HERE]?FIRECRAWL_API_KEY=YOUR_API_KEY
3) Lignes directrices pour le déploiement local
Si vous devez l'exécuter dans un environnement local, veuillez suivre les étapes ci-dessous :
- Configuration de l'environnement :
établir.env
et configurer les paramètres nécessaires suivants :
FIRECRAWL_API_KEY=你的key
SUPABASE_URL=你的supabase URL
SUPABASE_KEY=你的supabase key
OPENAI_API_KEY=你的OpenAI key
- Installation et fonctionnement :
npm install
npm run dev
4. précautions d'emploi
- Temps de traitement : peut prendre quelques minutes en raison de la nécessité d'effectuer des opérations d'exploration de sites et de traitement LLM.
- Limitation de la version gratuite : jusqu'à 10 pages par site sans clé API personnalisée
- Version avancée : limite de 100 pages avec clé Firecrawl API personnalisée
- Mécanisme de mise en cache : le système met les résultats en cache, les demandes répétées pour la même URL dans les 3 jours seront renvoyées directement dans la cache.
- Prise en charge des dépôts GitHub : les URL des dépôts GitHub sont spécialement traitées pour extraire le contenu lié aux dépôts.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...