Aprendizagem pessoal com IA
e orientação prática

Gerador de llms.txt: capture rapidamente o conteúdo do site e gere conjuntos de dados de texto de treinamento LLM.

Introdução geral

O llmstxt-generator é uma ferramenta profissional de extração e integração de conteúdo da Web especializada na preparação de conjuntos de dados de texto de alta qualidade para treinamento e inferência de modelos de idiomas grandes (LLM). Desenvolvida pela Mendable AI, a ferramenta usa a tecnologia de rastreamento da Web fornecida por @firecrawl_dev e GPT-4-mini para processamento de texto. Ela rastreia automaticamente o conteúdo de um determinado site e consolida todo o conteúdo em um arquivo de texto padronizado. A ferramenta oferece uma interface da Web e uma interface API convenientes, permitindo que os usuários gerem facilmente conjuntos de dados de treinamento, especialmente adequados para pesquisadores e desenvolvedores de IA que precisam obter dados de texto de sites em massa.

Gerador de llms.txt: rastreie rapidamente o conteúdo do site e gere um conjunto de dados de texto de treinamento LLM-1


 

Lista de funções

  • Rastrear automaticamente todas as páginas relevantes do conteúdo do site de destino
  • Fornece dois formatos de saída de texto: padrão (llms.txt) e completo (llms-full.txt).
  • Oferece suporte à operação intuitiva por meio da interface da Web
  • Fornecer interface de API RESTful para permitir chamadas programáticas
  • Suporte para tratamento especial do conteúdo do repositório do GitHub
  • Capacidade de extração e processamento inteligentes de conteúdo da Web
  • Suporte para chaves personalizadas da API do Firecrawl para aumentar os limites de rastreamento
  • Inclui um mecanismo de cache da Web para melhorar a eficiência da captura de dados
  • Suporte para conversões de vários formatos de conteúdo (por exemplo, Markdown)

 

Usando a Ajuda

1. uso da interface da Web

  1. Visite o site oficial: https://llmstxt.firecrawl.dev
  2. Digite o URL do site de destino na caixa de entrada
  3. Clique no botão "Generate" (Gerar) para começar a gerar o texto.
  4. Aguarde a conclusão do processamento para obter o arquivo de texto gerado

2. uso da API

Chamadas básicas de API:

OBTENHA https://llmstxt.firecrawl.dev/[YOUR_URL_HERE]
  • Obtenha a versão padrão do texto: vá diretamente para o URL acima
  • Para obter a versão completa do texto: adicione "/full" ao final do URL.

Use uma chave de API personalizada:

Se precisar de um limite de rastreamento maior, você pode usar o seu próprio limite Chave da API do Firecrawl::

GET https://llmstxt.firecrawl.dev/[YOUR_URL_HERE]?FIRECRAWL_API_KEY=YOUR_API_KEY

3. diretrizes para implantação local

Se precisar executá-lo em um ambiente local, siga as etapas abaixo:

  1. Configuração do ambiente:
    estabelecer .env e configure os seguintes parâmetros necessários:
FIRECRAWL_API_KEY=sua chave
SUPABASE_URL=sua URL do banco de dados de suporte
SUPABASE_KEY=sua chave do supabase
OPENAI_API_KEY=sua chave OpenAI
  1. Instalação e operação:
npm install
npm run dev

4. precauções de uso

  • Tempo de processamento: pode levar alguns minutos devido à necessidade de realizar operações de rastreamento do site e de processamento do LLM
  • Limitação da versão gratuita: até 10 páginas por site sem chave de API personalizada
  • Versão avançada: limite de até 100 páginas com chave de API Firecrawl personalizada
  • Mecanismo de armazenamento em cache: o sistema armazenará os resultados em cache; solicitações repetidas para o mesmo URL dentro de 3 dias serão retornadas diretamente para o cache.
  • Suporte ao repositório do GitHub: as URLs do repositório do GitHub são processadas especialmente para extrair o conteúdo relacionado ao repositório.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Gerador de llms.txt: capture rapidamente o conteúdo do site e gere conjuntos de dados de texto de treinamento LLM.

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil