Aprendizagem pessoal com IA
e orientação prática

O rastreamento de dados é difícil? O plug-in Automa ajuda você facilmente!

Você está enfrentando algum desses problemas?"Copiar e colar dados manualmente consome muito tempo e é ineficiente"..;"Quero coletar dados de páginas da Web em massa, mas não sei como escrever código.".;"Tentei outras ferramentas de rastreamento, mas elas são muito complicadas e caras para aprender"..;"Estou preocupado que o rastreador seja banido do site e não sei como lidar com isso.".

Não se preocupe! Hoje vou ensinar a você como usar Automa Esse artefato torna o rastreamento de dados fácil e eficiente!


 

1. Automa: seu assistente de coleta de dados sem código

Visão geral da interface do plug-in Automa

O Automa é um poderoso plug-in de automação para o Chrome. Ele ajuda você a"Automatize a navegação na Web, a coleta de dados em lote, a exportação de dados para vários formatos e a configuração de tarefas programadas..

E o mais importante:"Não há necessidade de escrever nenhum código, basta fazer isso por meio da interface visual!"

 

2. do iniciante ao mestre: três etapas para o rastreamento de dados

Etapa 1: Instalação e configuração básica

Procure por "Automa" na loja do Chrome e instale-o. Clique no ícone do Automa no canto superior direito do navegador e crie um novo fluxo de trabalho.

Tela de instalação da Chrome Store

Localização do plugin Automa

Tela de criação de fluxo de trabalho

 

Etapa 2: Projetar o fluxo de trabalho

Tome como exemplo o rastreamento de dados de produtos de comércio eletrônico."Etapas essenciais"Incluído:"Definir a página inicial, adicionar um bloco de looping para lidar com a paginação, extrair informações do produto e, finalmente, exportar dados"..

Etapa 3: Executar e otimizar

Para garantir a estabilidade e a eficiência da coleta de dados"Você precisa definir um tempo de atraso razoável para esperar que a página termine de carregar".. Ao mesmo tempo, é importante"Adicione um mecanismo de tratamento de erros para evitar interrupções não intencionais.".

 

3. caso prático: coleta de dados de pós-quente de batata-doce pequena

Nota conceitual básica do Automa

Antes de entrarmos nos detalhes, vamos examinar alguns conceitos básicos da Automa:

  1. Fluxo de trabalho: um contêiner para o fluxo geral de tarefas.
  2. Bloco: cada módulo funcional específico
  3. Seletor: uma ferramenta para posicionar elementos em uma página da Web.
  4. Variável: armazena dados temporários.
  5. Trigger: a condição que inicia um fluxo de trabalho.
  6. Tabela: um formulário para coleta e organização de dados.

Visão geral dos fundamentos da automação do fluxo de trabalho

 

Estudos de caso

Vamos dar uma olhada em como usar a Automa para coletar dados de hot notes usando a coleta de dados de Hot Notes da Little Sweet Potato como exemplo. Em sua essência, ela imita o processo de coleta manual e, em seguida, usa a Automa para automatizá-la.

Processo de coleta de dados do Little Red Book

Primeiro, vamos ver como usar a Automa para coletar dados do Little Red Book. Todo o processo é dividido nas seguintes etapas.

Criar fluxos de trabalho e configurar acionadores

Crie um fluxo de trabalho chamado "Xiaohongshu Data Collection". No Trigger, adicione um parâmetro chamado "key_word", que é usado para inserir a palavra-chave a ser pesquisada. O valor padrão desse parâmetro é definido como "independent developer" (desenvolvedor independente).

Configuração do acionador

Abra a página de destino e pesquise

Use o bloco New Tab (Nova guia) para abrir a página inicial do Little Red Book (https://www.xiaohongshu.com/explore). Em seguida, use o bloco Forms para posicionar a caixa de pesquisa.

Como selecionar elementos

  1. Localize o seguinte ícone na barra lateral do painel para acessar a página de seleção de elementos

    Obter seletor

  2. Selecione o elemento na página de captura e clique no botão de cópia no canto superior direito

    Seletor de cópia

  3. Cole os elementos selecionados na etapa anterior no Css Selcetor da Automa

    Seletor de colagem

Coleta de dados cíclicos

Itere pela lista de notas usando o bloco Loop Elements. Precisamos obter o seletor da lista de notas:

  1. Na página da lista de notas, clique com o botão direito do mouse em qualquer uma das capas de notas
  2. Obtenha o seletor ".note-item .cover" com a ferramenta Automa Selector Getting Tool

configuração cíclica

Abra a postagem e obtenha os detalhes

No loop, precisamos clicar em cada nota para ir para a página de detalhes. Os seguintes pontos precisam ser observados aqui.

  1. "Aguarde o carregamento da página".Use o bloco Wait Element para garantir que a página seja carregada completamente.
  2. "Clique na capa da nota".Usando o bloco Click Element, clique em cada capa de nota.
  3. "Aguarde o carregamento da página de detalhes"Use o bloco Wait Element para garantir que a página de detalhes seja totalmente carregada.

    Esquema de elemento aberto

Método de aquisição do seletor de dados coletados em cada loop:

  1. Nome do KOL: clique com o botão direito do mouse no nome do autor > verifique > copie o seletor "a.name"
  2. Título da nota: seletor "div#detail-title"
  3. Conteúdo da nota: seletor "#detail-desc > .note-text > span"
  4. Dados interativos.
    • Gosta: ".left > .like-wrapper > .count"
    • Contagem de coleções: "#note-page-collect-board-guide > .count"
    • Número de comentários: ".chat-wrapper > .count"

Exemplo de seletor

Exportar dados

Por fim, use o bloco Exportar dados para exportar os dados coletados no formato CSV.

dica

  • Se o seletor não for preciso, tente usar o XPath
  • Adicione um atraso apropriado para aguardar o carregamento da página
  • Verifique regularmente se há falhas no seletor
  • Recomenda-se que não sejam coletados mais de 20 dados de cada vez
  • Controle a frequência da coleta, não faça coletas frequentes

Todo o fluxo de trabalho pode concluir de forma estável a tarefa de coleta de dados por meio de um controle de atraso razoável e do posicionamento do seletor. Ao mesmo tempo, por meio da configuração parametrizada, é conveniente ajustar as palavras-chave de coleta de acordo com as diferentes necessidades.

4. perguntas e soluções frequentes

Explicação do seletor dinâmico

Muitas vezes precisamos usar seletores dinâmicos ao coletar vários elementos semelhantes. Vamos aprender isso por meio de um exemplo prático.

Veja este seletor como exemplo.

!!! .note-item:nth-child({{loopData.loopId.$index+1}}) .cover

Esse seletor parece complicado, portanto, vamos detalhá-lo passo a passo.

!! O prefixo é a sintaxe especial da Automa para usar seletores JavaScript em vez de seletores CSS, o que nos permite usar métodos de seleção mais flexíveis.

.item de notaSelecione o elemento com a classe "note-item", que geralmente é o contêiner de cada publicação na lista.

:nth-child()é um seletor de subelemento CSS, usado para selecionar subelementos em um local específico, com números ou expressões dentro dos colchetes.

{{loopData.loopId.$index+1}}acertou em cheio{{}}é a sintaxe variável da Automa, eloopData.loopId.$indexé o índice atual no loop (a partir de 0), e+1Isso se deve ao fato de que:nth-childComece a contar a partir de 1.

.coberturaSelecione o elemento de destino final, nesse caso, a imagem de capa da postagem.

Configure o bloco de loop da seguinte forma.

{
  seletor: "!!! .note-item:nth-child({{loopData.loopId.$index+1}}) .cover",
  timeout: 5000
}

Por que ele é escrito dessa forma? Porque ele permite o posicionamento dinâmico: o

  • 1º ciclo. .note-item:nth-child(1) .cover
  • 2º ciclo. .note-item:nth-child(2) .cover
  • 3º ciclo. .note-item:nth-child(3) .cover
  • e assim por diante ...

Isso evita o problema de seletores fixos: o

/* Forma incorreta de escrever */
.note-item .cover // selecionará todos os elementos de capa

/* Sintaxe correta */
!!! .note-item:nth-child({{loopData.loopId.$index+1}}) .cover // seleciona exatamente o elemento do loop atual

Se não tiver certeza de que o seletor está correto, você pode testá-lo no console do navegador em.

// Supondo que este seja o terceiro loop
document.querySelector('.note-item:nth-child(3) .cover')

Você também pode usar o recurso de registro da Automa: o

{
  type: "log",
  mensagem: "Seletor atual: .note-item:nth-child({{loopData.loopId.$index+1}}) .cover"
}

Por meio dessa abordagem de seletor dinâmico, podemos localizar com precisão o elemento de destino em cada loop, evitar a seleção do elemento errado e melhorar a estabilidade e a precisão do fluxo de trabalho. A escrita do seletor é uma das partes mais críticas da coleta de dados; o uso razoável de seletores dinâmicos pode tornar seu fluxo de trabalho mais robusto e confiável.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " O rastreamento de dados é difícil? O plug-in Automa ajuda você facilmente!

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil