Introdução geral
O Scraperr é uma ferramenta de coleta de dados da Web auto-hospedada que permite especificar elementos XPath para coletar dados da Web. Os usuários enviam um URL e os elementos de rastreamento correspondentes, e os resultados são exibidos em uma tabela que pode ser baixada como um arquivo do Excel. O Scraperr oferece suporte ao login do usuário para gerenciar tarefas de rastreamento e fornece visualização de registros e estatísticas.
Lista de funções
- Enviar e enfileirar URLs para rastreamento na Web
- Adição e gerenciamento de elementos de rastreamento com XPath
- Rastrear todas as páginas com o mesmo nome de domínio
- Adicionar cabeçalhos JSON personalizados para enviar solicitações
- Exibição dos resultados dos dados capturados
- Faça o download do arquivo CSV que contém os resultados
- Executar novamente a tarefa de captura
- Exibir o status das tarefas em fila
- Marcação e visualização de tarefas marcadas
- Login/registro de usuário para organizar tarefas
- Exibir registros de aplicativos
- Exibir estatísticas da tarefa
- Integração de IA para apoiar a inclusão de resultados de rastreamento no contexto de um diálogo
Usando a Ajuda
Processo de instalação
- Armazém de Clonagem:
git clone https://github.com/jaypyles/scraperr.git
- Configuração de variáveis de ambiente e tags: Na seção
docker-compose.yml
para definir variáveis de ambiente e rótulos, por exemplo:raspador. rótulos. - "traefik.enable=true" - "traefik.http.routers.scraperr.rule=Host(`localhost`)" - "traefik.http.routers.scraperr.entrypoints=web" scraperr_api. environment. - LOG_LEVEL=INFO - MONGODB_URI=mongodb://root:example@webscrape-mongo:27017 - SECRET_KEY=sua_chave_secreta - ALGORITHM=HS256 - access_token_expire_minutes=600
- Inicie o serviço:
docker-compose up -d
Processo de uso
- Enviar URL para rastreamento::
- Depois de fazer login no Scraperr, vá para a página Scraping Tasks (Tarefas de raspagem).
- Digite o URL a ser rastreado e o elemento XPath correspondente.
- Após o envio de uma tarefa, o sistema a colocará automaticamente na fila e começará a capturá-la.
- Gerenciamento de elementos de rastreamento::
- Na página da tarefa de rastreamento, você pode adicionar, editar ou excluir elementos XPath.
- Oferece suporte ao rastreamento de todas as páginas no mesmo domínio.
- Exibir resultados do rastreamento::
- Quando a captura for concluída, os resultados serão exibidos em uma tabela.
- O usuário pode fazer o download de um arquivo CSV contendo os resultados ou optar por executar a tarefa novamente.
- Gerenciamento de tarefas::
- Os usuários podem verificar o status das tarefas em fila, marcar e visualizar as tarefas marcadas.
- Fornece a visualização Estatísticas da tarefa, que exibe estatísticas sobre as tarefas em execução.
- Visualização do registro::
- Na página Log do aplicativo, os usuários podem visualizar o log do sistema para obter informações detalhadas sobre a tarefa de captura.
- Integração de IA::
- Suporte para a incorporação dos resultados da captura em contextos de diálogo, atualmente suporta Ollama e OpenAI.