Le crawling de données est difficile ? le plugin Automa vous aide facilement !
Rencontrez-vous l'un de ces problèmes ?"Le copier-coller manuel des données prend trop de temps et est inefficace.. ;"Je veux collecter des données de pages web en masse, mais je ne sais pas comment écrire du code.. ;"J'ai essayé d'autres outils de recherche, mais ils sont trop compliqués et trop coûteux à apprendre.. ;"Je crains que le crawler ne soit banni du site et je ne sais pas comment réagir..
Ne vous inquiétez pas ! Aujourd'hui, je vais vous apprendre à utiliser Automa Cet artefact rend l'exploration des données facile et efficace !
1. automa : votre assistant de collecte de données sans code

Aperçu de l'interface du plugin Automa
Automa est un puissant plugin d'automatisation pour Chrome. Il vous aide à"Automatisez la navigation sur le web, la collecte de données par lots, l'exportation de données dans différents formats et la définition de tâches programmées..
Plus important encore :"Il n'est pas nécessaire d'écrire du code, il suffit d'utiliser l'interface visuelle !
2. du débutant au maître : trois étapes vers l'exploration de données
Étape 1 : Installation et configuration de base
Recherchez "Automa" dans la boutique Chrome et installez-le, cliquez sur l'icône Automa dans le coin supérieur droit de votre navigateur et créez un nouveau flux de travail.

Écran d'installation de Chrome Store

Emplacement du plugin Automa

Écran de création de flux de travail
Étape 2 : Conception du flux de travail
Prenons l'exemple de l'exploration des données sur les produits du commerce électronique."Étapes fondamentales"Inclus :"Définir la page de démarrage, ajouter un bloc en boucle pour gérer la pagination, extraire les informations sur les produits et enfin exporter les données"..
Étape 3 : Exécuter et optimiser
Afin de garantir la stabilité et l'efficacité de la collecte des données"Vous devez définir un délai raisonnable pour attendre que la page ait fini de se charger.. En même temps, il est important de"Ajouter un mécanisme de gestion des erreurs pour éviter les interruptions involontaires"..
3. cas pratique : collecte de données sur les petites patates douces à chaud
Note conceptuelle d'Automa Core
Avant d'entrer dans le vif du sujet, passons en revue quelques concepts fondamentaux d'Automa :
- Flux de travail (Flux de travail) : Conteneur pour le flux de tâches global
- Bloc : chaque module fonctionnel spécifique
- Sélecteur : outil permettant de positionner des éléments sur une page web.
- Variable : stocke des données temporaires.
- Déclencheur : la condition qui déclenche un flux de travail.
- Tableau : formulaire permettant de collecter et d'organiser des données.

Aperçu des principes de base de l'automatisation des flux de travail
Étude de cas
Voyons comment utiliser Automa pour collecter des données de notes chaudes en prenant pour exemple la collecte de données de notes chaudes de Little Sweet Potato. Il s'agit essentiellement d'imiter le processus de collecte manuelle, puis d'utiliser Automa pour l'automatiser.

Processus de collecte des données du Petit Livre Rouge
Voyons tout d'abord comment utiliser Automa pour collecter les données du Petit Livre Rouge. L'ensemble du processus est divisé en plusieurs étapes.
Créer des flux de travail et configurer des déclencheurs
Créez un flux de travail appelé "Collecte de données Xiaohongshu". Dans le déclencheur, ajoutez un paramètre appelé "mot_clé", qui sert à saisir le mot clé à rechercher. La valeur par défaut de ce paramètre est "développeur indépendant".

Configuration du déclencheur
Ouvrez la page cible et recherchez
Utilisez le bloc Nouvel onglet pour ouvrir la page d'accueil du Petit livre rouge (https://www.xiaohongshu.com/explore). Utilisez ensuite le bloc Formulaires pour positionner la boîte de recherche.
Comment sélectionner les éléments
- L'icône suivante dans la barre latérale du tableau de bord permet d'accéder à la page de sélection des éléments
Obtenir un sélecteur
- Sélectionnez l'élément sur la page de capture et cliquez sur le bouton copier dans le coin supérieur droit.
Sélecteur de copie
- Collez les éléments sélectionnés à l'étape précédente dans le sélecteur Css d'Automa.
Sélecteur de collage
Collecte cyclique de données
Parcourez la liste des notes à l'aide du bloc Loop Elements. Nous devons obtenir le sélecteur de la liste de notes :
- Sur la page de la liste des notes, cliquez avec le bouton droit de la souris sur l'une des couvertures des notes.
- Obtenez le sélecteur ".note-item .cover" avec l'outil d'obtention de sélecteurs d'Automa

configuration cyclique
Ouvrez le poste et obtenez les détails
Dans la boucle, nous devons cliquer sur chaque note pour accéder à la page détaillée. Les points suivants doivent être notés ici.
- "Attente du chargement de la page"Utilisez le bloc Élément d'attente pour vous assurer que la page se charge complètement.
- "Cliquez sur la couverture de la note.À l'aide du bloc Élément cliquable, cliquez sur chaque couverture de note.
- "Attendre le chargement de la page des détailsUtilisez le bloc Élément d'attente pour vous assurer que la page détaillée est entièrement chargée.
Schéma des éléments ouverts
La méthode d'acquisition du sélecteur de données collectées dans chaque boucle :
- Nom du KOL : clic droit sur le nom de l'auteur > vérifier > copier le sélecteur "a.name".
- Titre de la note : sélecteur "div#detail-title"
- Contenu de la note : selector "#detail-desc > .note-text > span"
- Données interactives.
- Aime : ".left > .like-wrapper > .count"
- Nombre de collections : "#note-page-collect-board-guide > .count"
- Nombre de commentaires : ".chat-wrapper > .count"

Exemple de sélecteur
Exporter des données
Enfin, le bloc Exporter les données permet d'exporter les données collectées au format CSV.
pointe
- Si le sélecteur n'est pas précis, essayez d'utiliser XPath
- Ajouter un délai d'attente approprié pour le chargement de la page
- Vérifier régulièrement que le sélecteur n'est pas défectueux
- Il est recommandé de ne pas collecter plus de 20 données à la fois.
- Contrôler la fréquence des collectes, ne pas collecter fréquemment
L'ensemble du flux de travail peut accomplir de manière stable la tâche de collecte de données grâce à un contrôle raisonnable du délai et au positionnement du sélecteur. En même temps, grâce à la configuration paramétrée, il est possible d'ajuster les mots-clés d'acquisition en fonction des différents besoins.
4. questions fréquemment posées et solutions
Explication du sélecteur dynamique
Nous avons souvent besoin d'utiliser des sélecteurs dynamiques lorsque nous rassemblons plusieurs éléments similaires. Voyons cela à l'aide d'un exemple pratique.
Prenons l'exemple de ce sélecteur.
!!.note-item:nth-child({{loopData.loopId.$index+1}}) .cover
Ce sélecteur a l'air compliqué, alors décomposons-le étape par étape.
!!
Le préfixe est la syntaxe spéciale d'Automa qui permet d'utiliser des sélecteurs JavaScript au lieu de sélecteurs CSS, ce qui nous permet d'utiliser des méthodes de sélection plus souples.
.note-item
Sélectionnez l'élément de classe "note-item", qui est généralement le conteneur de chaque article de la liste.
:nth-child()
est un sélecteur de sous-éléments CSS, utilisé pour sélectionner des sous-éléments à un emplacement spécifique, avec des nombres ou des expressions à l'intérieur des crochets.
{{loopData.loopId.$index+1}}
a fait mouche{{}}
est la syntaxe des variables d'Automa, etloopData.loopId.$index
est l'indice actuel dans la boucle (à partir de 0), et+1
c'est parce que:nth-child
Commencez à compter à partir de 1.
.cover
Sélectionnez l'élément cible final, dans ce cas l'image de couverture de l'article.
Configurez le bloc de boucle comme suit.
{
selector: "!!.note-item:nth-child({{loopData.loopId.$index+1}}) .cover",
timeout: 5000
}
Pourquoi est-il écrit de cette manière ? Parce qu'elle permet un positionnement dynamique : le
- 1er cycle.
.note-item:nth-child(1) .cover
- 2ème cycle.
.note-item:nth-child(2) .cover
- 3ème cycle.
.note-item:nth-child(3) .cover
- et ainsi de suite ...
Cela permet d'éviter le problème des sélecteurs fixes : l'élément
/* 错误写法 */
.note-item .cover // 会选中所有cover元素
/* 正确写法 */
!!.note-item:nth-child({{loopData.loopId.$index+1}}) .cover // 精确选择当前循环的元素
Si vous n'êtes pas sûr que le sélecteur est correct, vous pouvez le tester dans la console du navigateur.
// 假设当前是第3次循环
document.querySelector('.note-item:nth-child(3) .cover')
La fonction d'enregistrement d'Automa peut également être utilisée : le bouton
{
type: "log",
message: "当前选择器: .note-item:nth-child({{loopData.loopId.$index+1}}) .cover"
}
Grâce à cette approche de sélecteur dynamique, nous pouvons localiser avec précision l'élément cible dans chaque boucle, éviter de sélectionner le mauvais élément et améliorer la stabilité et la précision du flux de travail. L'écriture des sélecteurs est l'une des parties les plus critiques de la collecte de données. L'utilisation raisonnable de sélecteurs dynamiques peut rendre votre flux de travail plus robuste et plus fiable.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...