Aprendizagem pessoal com IA
e orientação prática

Scraperr: ferramenta de raspagem de dados da Web auto-hospedada

Introdução geral

O Scraperr é uma ferramenta de coleta de dados da Web auto-hospedada que permite especificar elementos XPath para coletar dados da Web. Os usuários enviam um URL e os elementos de rastreamento correspondentes, e os resultados são exibidos em uma tabela que pode ser baixada como um arquivo do Excel. O Scraperr oferece suporte ao login do usuário para gerenciar tarefas de rastreamento e fornece visualização de registros e estatísticas.

Scraperr: ferramenta de coleta de dados da Web auto-hospedada-1


 

Lista de funções

  • Enviar e enfileirar URLs para rastreamento na Web
  • Adição e gerenciamento de elementos de rastreamento com XPath
  • Rastrear todas as páginas com o mesmo nome de domínio
  • Adicionar cabeçalhos JSON personalizados para enviar solicitações
  • Exibição dos resultados dos dados capturados
  • Faça o download do arquivo CSV que contém os resultados
  • Executar novamente a tarefa de captura
  • Exibir o status das tarefas em fila
  • Marcação e visualização de tarefas marcadas
  • Login/registro de usuário para organizar tarefas
  • Exibir registros de aplicativos
  • Exibir estatísticas da tarefa
  • Integração de IA para apoiar a inclusão de resultados de rastreamento no contexto de um diálogo

 

Usando a Ajuda

Processo de instalação

  1. Armazém de Clonagem:
    git clone https://github.com/jaypyles/scraperr.git
    
  2. Configuração de variáveis de ambiente e tags: Na seção docker-compose.yml para definir variáveis de ambiente e rótulos, por exemplo:
    raspador.
    rótulos.
    - "traefik.enable=true"
    - "traefik.http.routers.scraperr.rule=Host(`localhost`)"
    - "traefik.http.routers.scraperr.entrypoints=web"
    scraperr_api.
    environment.
    - LOG_LEVEL=INFO
    - MONGODB_URI=mongodb://root:example@webscrape-mongo:27017
    - SECRET_KEY=sua_chave_secreta
    - ALGORITHM=HS256
    - access_token_expire_minutes=600
    
  3. Inicie o serviço:
    docker-compose up -d
    

Processo de uso

  1. Enviar URL para rastreamento::
    • Depois de fazer login no Scraperr, vá para a página Scraping Tasks (Tarefas de raspagem).
    • Digite o URL a ser rastreado e o elemento XPath correspondente.
    • Após o envio de uma tarefa, o sistema a colocará automaticamente na fila e começará a capturá-la.
  2. Gerenciamento de elementos de rastreamento::
    • Na página da tarefa de rastreamento, você pode adicionar, editar ou excluir elementos XPath.
    • Oferece suporte ao rastreamento de todas as páginas no mesmo domínio.
  3. Exibir resultados do rastreamento::
    • Quando a captura for concluída, os resultados serão exibidos em uma tabela.
    • O usuário pode fazer o download de um arquivo CSV contendo os resultados ou optar por executar a tarefa novamente.
  4. Gerenciamento de tarefas::
    • Os usuários podem verificar o status das tarefas em fila, marcar e visualizar as tarefas marcadas.
    • Fornece a visualização Estatísticas da tarefa, que exibe estatísticas sobre as tarefas em execução.
  5. Visualização do registro::
    • Na página Log do aplicativo, os usuários podem visualizar o log do sistema para obter informações detalhadas sobre a tarefa de captura.
  6. Integração de IA::
    • Suporte para a incorporação dos resultados da captura em contextos de diálogo, atualmente suporta Ollama e OpenAI.
Aprendizagem fácil com IA

O guia do leigo para começar a usar a IA

Ajuda você a aprender a utilizar as ferramentas de IA com baixo custo e a partir de uma base zero.A IA, assim como o software de escritório, é uma habilidade essencial para todos. Dominar a IA lhe dará uma vantagem em sua busca de emprego e metade do esforço em seu trabalho e estudos futuros.

Ver detalhes>
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Scraperr: ferramenta de raspagem de dados da Web auto-hospedada

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil