¿El rastreo de datos es difícil? ¡El plugin Automa te ayuda fácilmente!

¿Tiene alguno de estos problemas?"Copiar y pegar datos manualmente lleva demasiado tiempo y es ineficaz"..;"Quiero recopilar datos de páginas web en bloque, pero no sé escribir código"..;"He probado otras herramientas de rastreo, pero son demasiado complicadas y costosas de aprender"..;"Me preocupa que el rastreador sea expulsado del sitio y no sé cómo solucionarlo"..

No te preocupes. Hoy te voy a enseñar a utilizar Automa Este artefacto facilita y agiliza el rastreo de datos.

 

1. Automa: tu asistente de recogida de datos sin código

数据爬取难?Automa插件帮你轻松搞定!

Interfaz del plugin Automa

Automa es un potente plugin de automatización para Chrome. Le ayuda a" Automatice la navegación web, la recopilación de datos por lotes, la exportación de datos a varios formatos y la configuración de tareas cronometradas..

Lo más importante:"No hace falta escribir ningún código, ¡hazlo a través de la interfaz visual!".

 

2. De principiante a experto: tres pasos para rastrear datos

Paso 1: Instalación y configuración básica

Busca "Automa" en la tienda de Chrome e instálalo, haz clic en el icono de Automa en la esquina superior derecha de tu navegador y crea un nuevo flujo de trabajo.

数据爬取难?Automa插件帮你轻松搞定!

Pantalla de instalación de Chrome Store

数据爬取难?Automa插件帮你轻松搞定!

Ubicación del plugin Automa

数据爬取难?Automa插件帮你轻松搞定!

Pantalla de creación de flujos de trabajo

 

Paso 2: Diseñar el flujo de trabajo

Tomemos como ejemplo el rastreo de datos de productos de comercio electrónico."Pasos fundamentales"Incluido:"Establecer la página de inicio, añadir un bloque de bucle para gestionar la paginación, extraer la información del producto y, por último, exportar los datos"..

Paso 3: Ejecutar y optimizar

Para garantizar la estabilidad y eficacia de la recogida de datos"Es necesario establecer un tiempo de retardo razonable para esperar a que la página termine de cargarse".. Al mismo tiempo, es importante"Añade un mecanismo de gestión de errores para evitar interrupciones involuntarias"..

 

3. Caso práctico: recogida de datos de un pequeño puesto caliente de batata

Automa core concept note

Antes de entrar en materia, repasemos algunos conceptos básicos de Automa:

  1. Flujo de trabajo (Flujo de trabajo): Contenedor para el flujo global de tareas
  2. Bloque: cada módulo funcional específico
  3. Selector: Herramienta para posicionar elementos en una página web.
  4. Variable: Almacena datos temporales.
  5. Activador: Condición que inicia un flujo de trabajo.
  6. Tabla: formulario de recogida y organización de datos.
数据爬取难?Automa插件帮你轻松搞定!

Visión general de los fundamentos de la automatización de flujos de trabajo

 

Estudio de caso

Veamos cómo usar Automa para recolectar datos de notas calientes usando como ejemplo la recolección de datos de notas calientes de Little Sweet Potato. En esencia, imita el proceso de recolectarlo manualmente nosotros mismos, y luego usar Automa para automatizarlo.

数据爬取难?Automa插件帮你轻松搞定!

Proceso de recogida de datos del Pequeño Libro Rojo

En primer lugar, veamos cómo utilizar Automa para recopilar datos del Pequeño Libro Rojo. Todo el proceso se divide en los siguientes pasos.

Crear flujos de trabajo y configurar activadores

Cree un flujo de trabajo llamado "Xiaohongshu Data Collection". En el Trigger, añada un parámetro llamado "key_word", que se utiliza para introducir la palabra clave a buscar. El valor por defecto de este parámetro es "desarrollador independiente".

数据爬取难?Automa插件帮你轻松搞定!

Configuración del activador

Abra la página de destino y busque

Utilice el bloque Nueva pestaña para abrir la página de inicio del Pequeño Libro Rojo (https://www.xiaohongshu.com/explore). A continuación, utiliza el bloque Formularios para colocar el cuadro de búsqueda.

Cómo seleccionar los elementos

  1. Busque el siguiente icono en la barra lateral del salpicadero para acceder a la página de selección de elementos
    数据爬取难?Automa插件帮你轻松搞定!

    Obtener selector

  2. Seleccione el elemento en la página de captura y haga clic en el botón de copia en la esquina superior derecha
    数据爬取难?Automa插件帮你轻松搞定!

    Selector de copia

  3. Pegue los elementos seleccionados en el paso anterior en el Selector Css de Automa
    数据爬取难?Automa插件帮你轻松搞定!

    Selector de pasta

Recogida cíclica de datos

Iterar a través de la lista de notas utilizando el bloque Loop Elements. Necesitamos obtener el selector de la lista de notas:

  1. En la página de la lista de notas, haga clic con el botón derecho del ratón en cualquiera de las portadas de las notas
  2. Obtenga el selector ".note-item .cover" con la herramienta Automa Selector Getting Tool
数据爬取难?Automa插件帮你轻松搞定!

configuración cíclica

Abre el post y obtén los detalles

En el bucle, tenemos que hacer clic en cada nota para ir a la página de detalles. Aquí hay que tener en cuenta los siguientes puntos.

  1. "Esperando a que se cargue la página"Utilice el bloque Wait Element para asegurarse de que la página se carga completamente.
  2. "Haz clic en la portada de la nota".Con el bloque Elemento clic, haz clic en cada tapa de nota.
  3. "Espere a que se cargue la página de detalles"Utilice el bloque Wait Element para asegurarse de que la página detallada está completamente cargada.
    数据爬取难?Automa插件帮你轻松搞定!

    Esquema de elementos abiertos

El método de adquisición del selector de datos recogidos en cada bucle:

  1. Nombre KOL: clic derecho sobre el nombre del autor > comprobar > copiar selector "a.nombre"
  2. Título de la nota: selector "div#detail-title"
  3. Contenido de la nota: selector "#detail-desc > .note-text > span"
  4. Datos interactivos.
    • Likes: ".left > .like-wrapper > .count"
    • Recopilación count: "#note-page-collect-board-guide > .count"
    • Número de comentarios: ".chat-wrapper > .count"
数据爬取难?Automa插件帮你轻松搞定!

Ejemplo de selector

Exportar datos

Por último, utilice el bloque Exportar datos para exportar los datos recopilados en formato CSV.

consejo

  • Si el selector no es preciso, pruebe a utilizar XPath
  • Añade un retardo adecuado para esperar a que se cargue la página
  • Compruebe regularmente si falla el selector
  • Se recomienda no recoger más de 20 datos a la vez
  • Controle la frecuencia de recogida, no recoja con frecuencia

Todo el flujo de trabajo puede completar de forma estable la tarea de recopilación de datos mediante un control de retardo y un posicionamiento del selector razonables. Al mismo tiempo, mediante la configuración parametrizada, es conveniente ajustar las palabras clave de adquisición en función de las diferentes necesidades.

4. Preguntas frecuentes y soluciones

Explicación del selector dinámico

A menudo necesitamos utilizar selectores dinámicos cuando reunimos varios elementos similares. Vamos a aprender esto a través de un ejemplo práctico.

Tomemos como ejemplo este selector.

!!.note-item:nth-child({{loopData.loopId.$index+1}}) .cover

Este selector parece complicado, así que vamos a desglosarlo paso a paso.

!! El prefijo es la sintaxis especial de Automa para utilizar selectores JavaScript en lugar de selectores CSS, lo que nos permite utilizar métodos de selección más flexibles.

.note-itemSeleccione el elemento con clase "note-item", que suele ser el contenedor de cada entrada de la lista.

:nth-child()es un selector de subelementos CSS, utilizado para seleccionar subelementos en una ubicación específica, con números o expresiones dentro de los corchetes.

{{loopData.loopId.$index+1}}ha dado en el clavo{{}}es la sintaxis variable de Automa, yloopData.loopId.$indexes el índice actual en el bucle (empezando por 0), y+1eso es porque:nth-childEmpieza a contar desde 1.

.coverSeleccione el elemento de destino final, en este caso la imagen de portada del post.

Configure el bloque de bucle de la siguiente manera.

{
  selector: "!!.note-item:nth-child({{loopData.loopId.$index+1}}) .cover",
  timeout: 5000
}

¿Por qué está escrito así? Porque permite un posicionamiento dinámico: el

  • 1er ciclo. .note-item:nth-child(1) .cover
  • 2º ciclo. .note-item:nth-child(2) .cover
  • 3er ciclo. .note-item:nth-child(3) .cover
  • y así sucesivamente...

De este modo se evita el problema de los selectores fijos: el selector

/* 错误写法 */
.note-item .cover  // 会选中所有cover元素

/* 正确写法 */
!!.note-item:nth-child({{loopData.loopId.$index+1}}) .cover  // 精确选择当前循环的元素

Si no está seguro de si el selector es correcto, puede probarlo en la consola del navegador.

// 假设当前是第3次循环
document.querySelector('.note-item:nth-child(3) .cover')

También se puede utilizar la función de registro de Automa: el

{
  type: "log",
  message: "当前选择器: .note-item:nth-child({{loopData.loopId.$index+1}}) .cover"
}

Mediante este enfoque de selectores dinámicos, podemos localizar con precisión el elemento objetivo en cada bucle, evitar seleccionar el elemento equivocado y mejorar la estabilidad y precisión del flujo de trabajo. La escritura de selectores es una de las partes más críticas de la recopilación de datos, el uso razonable de selectores dinámicos puede hacer que su flujo de trabajo sea más robusto y fiable.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...