Você está enfrentando algum desses problemas?"Copiar e colar dados manualmente consome muito tempo e é ineficiente"..;"Quero coletar dados de páginas da Web em massa, mas não sei como escrever código.".;"Tentei outras ferramentas de rastreamento, mas elas são muito complicadas e caras para aprender"..;"Estou preocupado que o rastreador seja banido do site e não sei como lidar com isso.".
Não se preocupe! Hoje vou ensinar a você como usar Automa Esse artefato torna o rastreamento de dados fácil e eficiente!
1. Automa: seu assistente de coleta de dados sem código
O Automa é um poderoso plug-in de automação para o Chrome. Ele ajuda você a"Automatize a navegação na Web, a coleta de dados em lote, a exportação de dados para vários formatos e a configuração de tarefas programadas..
E o mais importante:"Não há necessidade de escrever nenhum código, basta fazer isso por meio da interface visual!"
2. do iniciante ao mestre: três etapas para o rastreamento de dados
Etapa 1: Instalação e configuração básica
Procure por "Automa" na loja do Chrome e instale-o. Clique no ícone do Automa no canto superior direito do navegador e crie um novo fluxo de trabalho.
Etapa 2: Projetar o fluxo de trabalho
Tome como exemplo o rastreamento de dados de produtos de comércio eletrônico."Etapas essenciais"Incluído:"Definir a página inicial, adicionar um bloco de looping para lidar com a paginação, extrair informações do produto e, finalmente, exportar dados"..
Etapa 3: Executar e otimizar
Para garantir a estabilidade e a eficiência da coleta de dados"Você precisa definir um tempo de atraso razoável para esperar que a página termine de carregar".. Ao mesmo tempo, é importante"Adicione um mecanismo de tratamento de erros para evitar interrupções não intencionais.".
3. caso prático: coleta de dados de pós-quente de batata-doce pequena
Nota conceitual básica do Automa
Antes de entrarmos nos detalhes, vamos examinar alguns conceitos básicos da Automa:
- Fluxo de trabalho: um contêiner para o fluxo geral de tarefas.
- Bloco: cada módulo funcional específico
- Seletor: uma ferramenta para posicionar elementos em uma página da Web.
- Variável: armazena dados temporários.
- Trigger: a condição que inicia um fluxo de trabalho.
- Tabela: um formulário para coleta e organização de dados.
Estudos de caso
Vamos dar uma olhada em como usar a Automa para coletar dados de hot notes usando a coleta de dados de Hot Notes da Little Sweet Potato como exemplo. Em sua essência, ela imita o processo de coleta manual e, em seguida, usa a Automa para automatizá-la.
Primeiro, vamos ver como usar a Automa para coletar dados do Little Red Book. Todo o processo é dividido nas seguintes etapas.
Criar fluxos de trabalho e configurar acionadores
Crie um fluxo de trabalho chamado "Xiaohongshu Data Collection". No Trigger, adicione um parâmetro chamado "key_word", que é usado para inserir a palavra-chave a ser pesquisada. O valor padrão desse parâmetro é definido como "independent developer" (desenvolvedor independente).
Abra a página de destino e pesquise
Use o bloco New Tab (Nova guia) para abrir a página inicial do Little Red Book (https://www.xiaohongshu.com/explore). Em seguida, use o bloco Forms para posicionar a caixa de pesquisa.
Como selecionar elementos
- Localize o seguinte ícone na barra lateral do painel para acessar a página de seleção de elementos
- Selecione o elemento na página de captura e clique no botão de cópia no canto superior direito
- Cole os elementos selecionados na etapa anterior no Css Selcetor da Automa
Coleta de dados cíclicos
Itere pela lista de notas usando o bloco Loop Elements. Precisamos obter o seletor da lista de notas:
- Na página da lista de notas, clique com o botão direito do mouse em qualquer uma das capas de notas
- Obtenha o seletor ".note-item .cover" com a ferramenta Automa Selector Getting Tool
Abra a postagem e obtenha os detalhes
No loop, precisamos clicar em cada nota para ir para a página de detalhes. Os seguintes pontos precisam ser observados aqui.
- "Aguarde o carregamento da página".Use o bloco Wait Element para garantir que a página seja carregada completamente.
- "Clique na capa da nota".Usando o bloco Click Element, clique em cada capa de nota.
- "Aguarde o carregamento da página de detalhes"Use o bloco Wait Element para garantir que a página de detalhes seja totalmente carregada.
Método de aquisição do seletor de dados coletados em cada loop:
- Nome do KOL: clique com o botão direito do mouse no nome do autor > verifique > copie o seletor "a.name"
- Título da nota: seletor "div#detail-title"
- Conteúdo da nota: seletor "#detail-desc > .note-text > span"
- Dados interativos.
- Gosta: ".left > .like-wrapper > .count"
- Contagem de coleções: "#note-page-collect-board-guide > .count"
- Número de comentários: ".chat-wrapper > .count"
Exportar dados
Por fim, use o bloco Exportar dados para exportar os dados coletados no formato CSV.
dica
- Se o seletor não for preciso, tente usar o XPath
- Adicione um atraso apropriado para aguardar o carregamento da página
- Verifique regularmente se há falhas no seletor
- Recomenda-se que não sejam coletados mais de 20 dados de cada vez
- Controle a frequência da coleta, não faça coletas frequentes
Todo o fluxo de trabalho pode concluir de forma estável a tarefa de coleta de dados por meio de um controle de atraso razoável e do posicionamento do seletor. Ao mesmo tempo, por meio da configuração parametrizada, é conveniente ajustar as palavras-chave de coleta de acordo com as diferentes necessidades.
4. perguntas e soluções frequentes
Explicação do seletor dinâmico
Muitas vezes precisamos usar seletores dinâmicos ao coletar vários elementos semelhantes. Vamos aprender isso por meio de um exemplo prático.
Veja este seletor como exemplo.
!!! .note-item:nth-child({{loopData.loopId.$index+1}}) .cover
Esse seletor parece complicado, portanto, vamos detalhá-lo passo a passo.
!!
O prefixo é a sintaxe especial da Automa para usar seletores JavaScript em vez de seletores CSS, o que nos permite usar métodos de seleção mais flexíveis.
.item de nota
Selecione o elemento com a classe "note-item", que geralmente é o contêiner de cada publicação na lista.
:nth-child()
é um seletor de subelemento CSS, usado para selecionar subelementos em um local específico, com números ou expressões dentro dos colchetes.
{{loopData.loopId.$index+1}}
acertou em cheio{{}}
é a sintaxe variável da Automa, eloopData.loopId.$index
é o índice atual no loop (a partir de 0), e+1
Isso se deve ao fato de que:nth-child
Comece a contar a partir de 1.
.cobertura
Selecione o elemento de destino final, nesse caso, a imagem de capa da postagem.
Configure o bloco de loop da seguinte forma.
{
seletor: "!!! .note-item:nth-child({{loopData.loopId.$index+1}}) .cover",
timeout: 5000
}
Por que ele é escrito dessa forma? Porque ele permite o posicionamento dinâmico: o
- 1º ciclo.
.note-item:nth-child(1) .cover
- 2º ciclo.
.note-item:nth-child(2) .cover
- 3º ciclo.
.note-item:nth-child(3) .cover
- e assim por diante ...
Isso evita o problema de seletores fixos: o
/* Forma incorreta de escrever */
.note-item .cover // selecionará todos os elementos de capa
/* Sintaxe correta */
!!! .note-item:nth-child({{loopData.loopId.$index+1}}) .cover // seleciona exatamente o elemento do loop atual
Se não tiver certeza de que o seletor está correto, você pode testá-lo no console do navegador em.
// Supondo que este seja o terceiro loop
document.querySelector('.note-item:nth-child(3) .cover')
Você também pode usar o recurso de registro da Automa: o
{
type: "log",
mensagem: "Seletor atual: .note-item:nth-child({{loopData.loopId.$index+1}}) .cover"
}
Por meio dessa abordagem de seletor dinâmico, podemos localizar com precisão o elemento de destino em cada loop, evitar a seleção do elemento errado e melhorar a estabilidade e a precisão do fluxo de trabalho. A escrita do seletor é uma das partes mais críticas da coleta de dados; o uso razoável de seletores dinâmicos pode tornar seu fluxo de trabalho mais robusto e confiável.