Introdução geral
O llmstxt-generator é uma ferramenta profissional de extração e integração de conteúdo da Web especializada na preparação de conjuntos de dados de texto de alta qualidade para treinamento e inferência de modelos de idiomas grandes (LLM). Desenvolvida pela Mendable AI, a ferramenta usa a tecnologia de rastreamento da Web fornecida por @firecrawl_dev e GPT-4-mini para processamento de texto. Ela rastreia automaticamente o conteúdo de um determinado site e consolida todo o conteúdo em um arquivo de texto padronizado. A ferramenta oferece uma interface da Web e uma interface API convenientes, permitindo que os usuários gerem facilmente conjuntos de dados de treinamento, especialmente adequados para pesquisadores e desenvolvedores de IA que precisam obter dados de texto de sites em massa.
Lista de funções
- Rastrear automaticamente todas as páginas relevantes do conteúdo do site de destino
- Fornece dois formatos de saída de texto: padrão (llms.txt) e completo (llms-full.txt).
- Oferece suporte à operação intuitiva por meio da interface da Web
- Fornecer interface de API RESTful para permitir chamadas programáticas
- Suporte para tratamento especial do conteúdo do repositório do GitHub
- Capacidade de extração e processamento inteligentes de conteúdo da Web
- Suporte para chaves personalizadas da API do Firecrawl para aumentar os limites de rastreamento
- Inclui um mecanismo de cache da Web para melhorar a eficiência da captura de dados
- Suporte para conversões de vários formatos de conteúdo (por exemplo, Markdown)
Usando a Ajuda
1. uso da interface da Web
- Visite o site oficial: https://llmstxt.firecrawl.dev
- Digite o URL do site de destino na caixa de entrada
- Clique no botão "Generate" (Gerar) para começar a gerar o texto.
- Aguarde a conclusão do processamento para obter o arquivo de texto gerado
2. uso da API
Chamadas básicas de API:
OBTENHA https://llmstxt.firecrawl.dev/[YOUR_URL_HERE]
- Obtenha a versão padrão do texto: vá diretamente para o URL acima
- Para obter a versão completa do texto: adicione "/full" ao final do URL.
Use uma chave de API personalizada:
Se precisar de um limite de rastreamento maior, você pode usar o seu próprio limite Chave da API do Firecrawl::
GET https://llmstxt.firecrawl.dev/[YOUR_URL_HERE]?FIRECRAWL_API_KEY=YOUR_API_KEY
3. diretrizes para implantação local
Se precisar executá-lo em um ambiente local, siga as etapas abaixo:
- Configuração do ambiente:
estabelecer.env
e configure os seguintes parâmetros necessários:
FIRECRAWL_API_KEY=sua chave
SUPABASE_URL=sua URL do banco de dados de suporte
SUPABASE_KEY=sua chave do supabase
OPENAI_API_KEY=sua chave OpenAI
- Instalação e operação:
npm install
npm run dev
4. precauções de uso
- Tempo de processamento: pode levar alguns minutos devido à necessidade de realizar operações de rastreamento do site e de processamento do LLM
- Limitação da versão gratuita: até 10 páginas por site sem chave de API personalizada
- Versão avançada: limite de até 100 páginas com chave de API Firecrawl personalizada
- Mecanismo de armazenamento em cache: o sistema armazenará os resultados em cache; solicitações repetidas para o mesmo URL dentro de 3 dias serão retornadas diretamente para o cache.
- Suporte ao repositório do GitHub: as URLs do repositório do GitHub são processadas especialmente para extrair o conteúdo relacionado ao repositório.