Aprendizagem pessoal com IA
e orientação prática

GPT Crawler: rastreamento de documentos da base de conhecimento de sites para criar GPTs personalizados

Introdução geral

O GPT Crawler é uma ferramenta de código aberto que permite aos usuários gerar arquivos de conhecimento por meio do rastreamento do conteúdo de um site específico, o que, por sua vez, cria modelos GPT personalizados. O projeto é usado principalmente para rastrear e organizar informações da Web, com suporte para execução por meio da API e implantação local. Os usuários podem configurar o rastreador de forma flexível para se adaptar a diferentes estruturas e necessidades de sites, de modo a gerar documentos de base de conhecimento adequados para seu próprio uso.

GPT Crawler: rastreamento de arquivos de conhecimento de sites para criar GPTs-1 personalizados


 

 

Lista de funções

  • Rastreamento do conteúdo do site para gerar arquivos de conhecimento
  • Suporta API e execuções de implementação local
  • Configuração flexível dos parâmetros do rastreador
  • Gerar modelos GPT personalizados
  • Suporta a exclusão de vários formatos de arquivo

 

 

Usando a Ajuda

Processo de instalação

  1. armazém de clonesPrimeiro, verifique se você tem o Node.js >= 16 instalado. Em seguida, execute o seguinte comando para clonar o repositório:
    git clone https://github.com/BuilderIO/gpt-crawler
    
  2. Instalação de dependênciasInstalação das dependências: Vá para o diretório do projeto e instale as dependências:
    cd gpt-crawler
    instalação do npm
    
  3. Configuração do rastreador: Aberto config.ts edite o arquivo url responder cantando seletor para atender às suas necessidades. Por exemplo, para rastrear documentos do Builder.io, você pode usar a seguinte configuração:
    exportação const defaultConfig: Configuração = {
      url: "https://www.builder.io/c/docs/developers",
      partida: "https://www.builder.io/c/docs/**",
      seletor: ".docs-builder-container",
      maxPagesToCrawl: 50,
      outputFileName: "output.json",
    };
    
  4. Executando o rastreadorConfiguração: Quando a configuração estiver concluída, execute o seguinte comando para iniciar o rastreador:
    npm run start
    

 

Instruções de uso

  1. arquivo de configuração: em config.ts você pode definir parâmetros como o URL inicial do rastreador, o padrão de correspondência, o seletor, o número máximo de páginas a serem rastreadas e assim por diante. Certifique-se de que esses parâmetros correspondam à estrutura do site de destino.
  2. Executando o rastreador: Uso npm run start inicia o rastreador, que rastreia o conteúdo do site e gera arquivos de conhecimento com base nos parâmetros do arquivo de configuração.
  3. Gerar modelo GPTQuando o rastreador estiver concluído, os arquivos de conhecimento gerados serão salvos no diretório do projeto. Você pode carregar esses arquivos no OpenAI ou em outros serviços de GPT para criar modelos de GPT personalizados.
  4. Uso da APISe você quiser executar o rastreador por meio da API, poderá consultar a documentação da API no projeto para configurar e iniciar o serviço da API.

 

advertência

  • exclusão de recursos: em config.ts você pode passar o arquivo resourceExclusions exclui tipos de arquivos indesejados, como imagens, vídeos, etc.
  • Limite de tamanho de arquivo: Você pode definir maxFileSize responder cantando maxTokens que limita o tamanho máximo do arquivo gerado e o tamanho máximo do arquivo de token Quantidade.
Aprendizagem fácil com IA

O guia do leigo para começar a usar a IA

Ajuda você a aprender a utilizar as ferramentas de IA com baixo custo e a partir de uma base zero.A IA, assim como o software de escritório, é uma habilidade essencial para todos. Dominar a IA lhe dará uma vantagem em sua busca de emprego e metade do esforço em seu trabalho e estudos futuros.

Ver detalhes>
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " GPT Crawler: rastreamento de documentos da base de conhecimento de sites para criar GPTs personalizados

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil