¿El rastreo de datos es difícil? ¡El plugin Automa te ayuda fácilmente!
Tutoriales prácticos sobre IAActualizado hace 8 meses Círculo de intercambio de inteligencia artificial 9.5K 00
¿Tiene alguno de estos problemas?"Copiar y pegar datos manualmente lleva demasiado tiempo y es ineficaz"..;"Quiero recopilar datos de páginas web en bloque, pero no sé escribir código"..;"He probado otras herramientas de rastreo, pero son demasiado complicadas y costosas de aprender"..;"Me preocupa que el rastreador sea expulsado del sitio y no sé cómo solucionarlo"..
No te preocupes. Hoy te voy a enseñar a utilizar Automa Este artefacto facilita y agiliza el rastreo de datos.
1. Automa: tu asistente de recogida de datos sin código

Interfaz del plugin Automa
Automa es un potente plugin de automatización para Chrome. Le ayuda a" Automatice la navegación web, la recopilación de datos por lotes, la exportación de datos a varios formatos y la configuración de tareas cronometradas..
Lo más importante:"No hace falta escribir ningún código, ¡hazlo a través de la interfaz visual!".
2. De principiante a experto: tres pasos para rastrear datos
Paso 1: Instalación y configuración básica
Busca "Automa" en la tienda de Chrome e instálalo, haz clic en el icono de Automa en la esquina superior derecha de tu navegador y crea un nuevo flujo de trabajo.

Pantalla de instalación de Chrome Store

Ubicación del plugin Automa

Pantalla de creación de flujos de trabajo
Paso 2: Diseñar el flujo de trabajo
Tomemos como ejemplo el rastreo de datos de productos de comercio electrónico."Pasos fundamentales"Incluido:"Establecer la página de inicio, añadir un bloque de bucle para gestionar la paginación, extraer la información del producto y, por último, exportar los datos"..
Paso 3: Ejecutar y optimizar
Para garantizar la estabilidad y eficacia de la recogida de datos"Es necesario establecer un tiempo de retardo razonable para esperar a que la página termine de cargarse".. Al mismo tiempo, es importante"Añade un mecanismo de gestión de errores para evitar interrupciones involuntarias"..
3. Caso práctico: recogida de datos de un pequeño puesto caliente de batata
Automa core concept note
Antes de entrar en materia, repasemos algunos conceptos básicos de Automa:
- Flujo de trabajo (Flujo de trabajo): Contenedor para el flujo global de tareas
- Bloque: cada módulo funcional específico
- Selector: Herramienta para posicionar elementos en una página web.
- Variable: Almacena datos temporales.
- Activador: Condición que inicia un flujo de trabajo.
- Tabla: formulario de recogida y organización de datos.

Visión general de los fundamentos de la automatización de flujos de trabajo
Estudio de caso
Veamos cómo usar Automa para recolectar datos de notas calientes usando como ejemplo la recolección de datos de notas calientes de Little Sweet Potato. En esencia, imita el proceso de recolectarlo manualmente nosotros mismos, y luego usar Automa para automatizarlo.

Proceso de recogida de datos del Pequeño Libro Rojo
En primer lugar, veamos cómo utilizar Automa para recopilar datos del Pequeño Libro Rojo. Todo el proceso se divide en los siguientes pasos.
Crear flujos de trabajo y configurar activadores
Cree un flujo de trabajo llamado "Xiaohongshu Data Collection". En el Trigger, añada un parámetro llamado "key_word", que se utiliza para introducir la palabra clave a buscar. El valor por defecto de este parámetro es "desarrollador independiente".

Configuración del activador
Abra la página de destino y busque
Utilice el bloque Nueva pestaña para abrir la página de inicio del Pequeño Libro Rojo (https://www.xiaohongshu.com/explore). A continuación, utiliza el bloque Formularios para colocar el cuadro de búsqueda.
Cómo seleccionar los elementos
- Busque el siguiente icono en la barra lateral del salpicadero para acceder a la página de selección de elementos
Obtener selector
- Seleccione el elemento en la página de captura y haga clic en el botón de copia en la esquina superior derecha
Selector de copia
- Pegue los elementos seleccionados en el paso anterior en el Selector Css de Automa
Selector de pasta
Recogida cíclica de datos
Iterar a través de la lista de notas utilizando el bloque Loop Elements. Necesitamos obtener el selector de la lista de notas:
- En la página de la lista de notas, haga clic con el botón derecho del ratón en cualquiera de las portadas de las notas
- Obtenga el selector ".note-item .cover" con la herramienta Automa Selector Getting Tool

configuración cíclica
Abre el post y obtén los detalles
En el bucle, tenemos que hacer clic en cada nota para ir a la página de detalles. Aquí hay que tener en cuenta los siguientes puntos.
- "Esperando a que se cargue la página"Utilice el bloque Wait Element para asegurarse de que la página se carga completamente.
- "Haz clic en la portada de la nota".Con el bloque Elemento clic, haz clic en cada tapa de nota.
- "Espere a que se cargue la página de detalles"Utilice el bloque Wait Element para asegurarse de que la página detallada está completamente cargada.
Esquema de elementos abiertos
El método de adquisición del selector de datos recogidos en cada bucle:
- Nombre KOL: clic derecho sobre el nombre del autor > comprobar > copiar selector "a.nombre"
- Título de la nota: selector "div#detail-title"
- Contenido de la nota: selector "#detail-desc > .note-text > span"
- Datos interactivos.
- Likes: ".left > .like-wrapper > .count"
- Recopilación count: "#note-page-collect-board-guide > .count"
- Número de comentarios: ".chat-wrapper > .count"

Ejemplo de selector
Exportar datos
Por último, utilice el bloque Exportar datos para exportar los datos recopilados en formato CSV.
consejo
- Si el selector no es preciso, pruebe a utilizar XPath
- Añade un retardo adecuado para esperar a que se cargue la página
- Compruebe regularmente si falla el selector
- Se recomienda no recoger más de 20 datos a la vez
- Controle la frecuencia de recogida, no recoja con frecuencia
Todo el flujo de trabajo puede completar de forma estable la tarea de recopilación de datos mediante un control de retardo y un posicionamiento del selector razonables. Al mismo tiempo, mediante la configuración parametrizada, es conveniente ajustar las palabras clave de adquisición en función de las diferentes necesidades.
4. Preguntas frecuentes y soluciones
Explicación del selector dinámico
A menudo necesitamos utilizar selectores dinámicos cuando reunimos varios elementos similares. Vamos a aprender esto a través de un ejemplo práctico.
Tomemos como ejemplo este selector.
!!.note-item:nth-child({{loopData.loopId.$index+1}}) .cover
Este selector parece complicado, así que vamos a desglosarlo paso a paso.
!!
El prefijo es la sintaxis especial de Automa para utilizar selectores JavaScript en lugar de selectores CSS, lo que nos permite utilizar métodos de selección más flexibles.
.note-item
Seleccione el elemento con clase "note-item", que suele ser el contenedor de cada entrada de la lista.
:nth-child()
es un selector de subelementos CSS, utilizado para seleccionar subelementos en una ubicación específica, con números o expresiones dentro de los corchetes.
{{loopData.loopId.$index+1}}
ha dado en el clavo{{}}
es la sintaxis variable de Automa, yloopData.loopId.$index
es el índice actual en el bucle (empezando por 0), y+1
eso es porque:nth-child
Empieza a contar desde 1.
.cover
Seleccione el elemento de destino final, en este caso la imagen de portada del post.
Configure el bloque de bucle de la siguiente manera.
{
selector: "!!.note-item:nth-child({{loopData.loopId.$index+1}}) .cover",
timeout: 5000
}
¿Por qué está escrito así? Porque permite un posicionamiento dinámico: el
- 1er ciclo.
.note-item:nth-child(1) .cover
- 2º ciclo.
.note-item:nth-child(2) .cover
- 3er ciclo.
.note-item:nth-child(3) .cover
- y así sucesivamente...
De este modo se evita el problema de los selectores fijos: el selector
/* 错误写法 */
.note-item .cover // 会选中所有cover元素
/* 正确写法 */
!!.note-item:nth-child({{loopData.loopId.$index+1}}) .cover // 精确选择当前循环的元素
Si no está seguro de si el selector es correcto, puede probarlo en la consola del navegador.
// 假设当前是第3次循环
document.querySelector('.note-item:nth-child(3) .cover')
También se puede utilizar la función de registro de Automa: el
{
type: "log",
message: "当前选择器: .note-item:nth-child({{loopData.loopId.$index+1}}) .cover"
}
Mediante este enfoque de selectores dinámicos, podemos localizar con precisión el elemento objetivo en cada bucle, evitar seleccionar el elemento equivocado y mejorar la estabilidad y precisión del flujo de trabajo. La escritura de selectores es una de las partes más críticas de la recopilación de datos, el uso razonable de selectores dinámicos puede hacer que su flujo de trabajo sea más robusto y fiable.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...