Le crawling de données est difficile ? le plugin Automa vous aide facilement !

Rencontrez-vous l'un de ces problèmes ?"Le copier-coller manuel des données prend trop de temps et est inefficace.. ;"Je veux collecter des données de pages web en masse, mais je ne sais pas comment écrire du code.. ;"J'ai essayé d'autres outils de recherche, mais ils sont trop compliqués et trop coûteux à apprendre.. ;"Je crains que le crawler ne soit banni du site et je ne sais pas comment réagir..

Ne vous inquiétez pas ! Aujourd'hui, je vais vous apprendre à utiliser Automa Cet artefact rend l'exploration des données facile et efficace !

 

1. automa : votre assistant de collecte de données sans code

数据爬取难?Automa插件帮你轻松搞定!

Aperçu de l'interface du plugin Automa

Automa est un puissant plugin d'automatisation pour Chrome. Il vous aide à"Automatisez la navigation sur le web, la collecte de données par lots, l'exportation de données dans différents formats et la définition de tâches programmées..

Plus important encore :"Il n'est pas nécessaire d'écrire du code, il suffit d'utiliser l'interface visuelle !

 

2. du débutant au maître : trois étapes vers l'exploration de données

Étape 1 : Installation et configuration de base

Recherchez "Automa" dans la boutique Chrome et installez-le, cliquez sur l'icône Automa dans le coin supérieur droit de votre navigateur et créez un nouveau flux de travail.

数据爬取难?Automa插件帮你轻松搞定!

Écran d'installation de Chrome Store

数据爬取难?Automa插件帮你轻松搞定!

Emplacement du plugin Automa

数据爬取难?Automa插件帮你轻松搞定!

Écran de création de flux de travail

 

Étape 2 : Conception du flux de travail

Prenons l'exemple de l'exploration des données sur les produits du commerce électronique."Étapes fondamentales"Inclus :"Définir la page de démarrage, ajouter un bloc en boucle pour gérer la pagination, extraire les informations sur les produits et enfin exporter les données"..

Étape 3 : Exécuter et optimiser

Afin de garantir la stabilité et l'efficacité de la collecte des données"Vous devez définir un délai raisonnable pour attendre que la page ait fini de se charger.. En même temps, il est important de"Ajouter un mécanisme de gestion des erreurs pour éviter les interruptions involontaires"..

 

3. cas pratique : collecte de données sur les petites patates douces à chaud

Note conceptuelle d'Automa Core

Avant d'entrer dans le vif du sujet, passons en revue quelques concepts fondamentaux d'Automa :

  1. Flux de travail (Flux de travail) : Conteneur pour le flux de tâches global
  2. Bloc : chaque module fonctionnel spécifique
  3. Sélecteur : outil permettant de positionner des éléments sur une page web.
  4. Variable : stocke des données temporaires.
  5. Déclencheur : la condition qui déclenche un flux de travail.
  6. Tableau : formulaire permettant de collecter et d'organiser des données.
数据爬取难?Automa插件帮你轻松搞定!

Aperçu des principes de base de l'automatisation des flux de travail

 

Étude de cas

Voyons comment utiliser Automa pour collecter des données de notes chaudes en prenant pour exemple la collecte de données de notes chaudes de Little Sweet Potato. Il s'agit essentiellement d'imiter le processus de collecte manuelle, puis d'utiliser Automa pour l'automatiser.

数据爬取难?Automa插件帮你轻松搞定!

Processus de collecte des données du Petit Livre Rouge

Voyons tout d'abord comment utiliser Automa pour collecter les données du Petit Livre Rouge. L'ensemble du processus est divisé en plusieurs étapes.

Créer des flux de travail et configurer des déclencheurs

Créez un flux de travail appelé "Collecte de données Xiaohongshu". Dans le déclencheur, ajoutez un paramètre appelé "mot_clé", qui sert à saisir le mot clé à rechercher. La valeur par défaut de ce paramètre est "développeur indépendant".

数据爬取难?Automa插件帮你轻松搞定!

Configuration du déclencheur

Ouvrez la page cible et recherchez

Utilisez le bloc Nouvel onglet pour ouvrir la page d'accueil du Petit livre rouge (https://www.xiaohongshu.com/explore). Utilisez ensuite le bloc Formulaires pour positionner la boîte de recherche.

Comment sélectionner les éléments

  1. L'icône suivante dans la barre latérale du tableau de bord permet d'accéder à la page de sélection des éléments
    数据爬取难?Automa插件帮你轻松搞定!

    Obtenir un sélecteur

  2. Sélectionnez l'élément sur la page de capture et cliquez sur le bouton copier dans le coin supérieur droit.
    数据爬取难?Automa插件帮你轻松搞定!

    Sélecteur de copie

  3. Collez les éléments sélectionnés à l'étape précédente dans le sélecteur Css d'Automa.
    数据爬取难?Automa插件帮你轻松搞定!

    Sélecteur de collage

Collecte cyclique de données

Parcourez la liste des notes à l'aide du bloc Loop Elements. Nous devons obtenir le sélecteur de la liste de notes :

  1. Sur la page de la liste des notes, cliquez avec le bouton droit de la souris sur l'une des couvertures des notes.
  2. Obtenez le sélecteur ".note-item .cover" avec l'outil d'obtention de sélecteurs d'Automa
数据爬取难?Automa插件帮你轻松搞定!

configuration cyclique

Ouvrez le poste et obtenez les détails

Dans la boucle, nous devons cliquer sur chaque note pour accéder à la page détaillée. Les points suivants doivent être notés ici.

  1. "Attente du chargement de la page"Utilisez le bloc Élément d'attente pour vous assurer que la page se charge complètement.
  2. "Cliquez sur la couverture de la note.À l'aide du bloc Élément cliquable, cliquez sur chaque couverture de note.
  3. "Attendre le chargement de la page des détailsUtilisez le bloc Élément d'attente pour vous assurer que la page détaillée est entièrement chargée.
    数据爬取难?Automa插件帮你轻松搞定!

    Schéma des éléments ouverts

La méthode d'acquisition du sélecteur de données collectées dans chaque boucle :

  1. Nom du KOL : clic droit sur le nom de l'auteur > vérifier > copier le sélecteur "a.name".
  2. Titre de la note : sélecteur "div#detail-title"
  3. Contenu de la note : selector "#detail-desc > .note-text > span"
  4. Données interactives.
    • Aime : ".left > .like-wrapper > .count"
    • Nombre de collections : "#note-page-collect-board-guide > .count"
    • Nombre de commentaires : ".chat-wrapper > .count"
数据爬取难?Automa插件帮你轻松搞定!

Exemple de sélecteur

Exporter des données

Enfin, le bloc Exporter les données permet d'exporter les données collectées au format CSV.

pointe

  • Si le sélecteur n'est pas précis, essayez d'utiliser XPath
  • Ajouter un délai d'attente approprié pour le chargement de la page
  • Vérifier régulièrement que le sélecteur n'est pas défectueux
  • Il est recommandé de ne pas collecter plus de 20 données à la fois.
  • Contrôler la fréquence des collectes, ne pas collecter fréquemment

L'ensemble du flux de travail peut accomplir de manière stable la tâche de collecte de données grâce à un contrôle raisonnable du délai et au positionnement du sélecteur. En même temps, grâce à la configuration paramétrée, il est possible d'ajuster les mots-clés d'acquisition en fonction des différents besoins.

4. questions fréquemment posées et solutions

Explication du sélecteur dynamique

Nous avons souvent besoin d'utiliser des sélecteurs dynamiques lorsque nous rassemblons plusieurs éléments similaires. Voyons cela à l'aide d'un exemple pratique.

Prenons l'exemple de ce sélecteur.

!!.note-item:nth-child({{loopData.loopId.$index+1}}) .cover

Ce sélecteur a l'air compliqué, alors décomposons-le étape par étape.

!! Le préfixe est la syntaxe spéciale d'Automa qui permet d'utiliser des sélecteurs JavaScript au lieu de sélecteurs CSS, ce qui nous permet d'utiliser des méthodes de sélection plus souples.

.note-itemSélectionnez l'élément de classe "note-item", qui est généralement le conteneur de chaque article de la liste.

:nth-child()est un sélecteur de sous-éléments CSS, utilisé pour sélectionner des sous-éléments à un emplacement spécifique, avec des nombres ou des expressions à l'intérieur des crochets.

{{loopData.loopId.$index+1}}a fait mouche{{}}est la syntaxe des variables d'Automa, etloopData.loopId.$indexest l'indice actuel dans la boucle (à partir de 0), et+1c'est parce que:nth-childCommencez à compter à partir de 1.

.coverSélectionnez l'élément cible final, dans ce cas l'image de couverture de l'article.

Configurez le bloc de boucle comme suit.

{
  selector: "!!.note-item:nth-child({{loopData.loopId.$index+1}}) .cover",
  timeout: 5000
}

Pourquoi est-il écrit de cette manière ? Parce qu'elle permet un positionnement dynamique : le

  • 1er cycle. .note-item:nth-child(1) .cover
  • 2ème cycle. .note-item:nth-child(2) .cover
  • 3ème cycle. .note-item:nth-child(3) .cover
  • et ainsi de suite ...

Cela permet d'éviter le problème des sélecteurs fixes : l'élément

/* 错误写法 */
.note-item .cover  // 会选中所有cover元素

/* 正确写法 */
!!.note-item:nth-child({{loopData.loopId.$index+1}}) .cover  // 精确选择当前循环的元素

Si vous n'êtes pas sûr que le sélecteur est correct, vous pouvez le tester dans la console du navigateur.

// 假设当前是第3次循环
document.querySelector('.note-item:nth-child(3) .cover')

La fonction d'enregistrement d'Automa peut également être utilisée : le bouton

{
  type: "log",
  message: "当前选择器: .note-item:nth-child({{loopData.loopId.$index+1}}) .cover"
}

Grâce à cette approche de sélecteur dynamique, nous pouvons localiser avec précision l'élément cible dans chaque boucle, éviter de sélectionner le mauvais élément et améliorer la stabilité et la précision du flux de travail. L'écriture des sélecteurs est l'une des parties les plus critiques de la collecte de données. L'utilisation raisonnable de sélecteurs dynamiques peut rendre votre flux de travail plus robuste et plus fiable.

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...