Leiden Sie unter einem dieser Probleme?"Das manuelle Kopieren und Einfügen von Daten ist zu zeitaufwändig und ineffizient..;"Ich möchte Webseitendaten in großen Mengen sammeln, aber ich weiß nicht, wie man Code schreibt"..;"Ich habe andere Crawler-Tools ausprobiert, aber sie sind zu kompliziert und kostspielig zu erlernen"..;"Ich mache mir Sorgen, dass der Crawler von der Website verbannt wird, und ich weiß nicht, wie ich damit umgehen soll..
Aber keine Sorge! Heute werde ich Ihnen zeigen, wie Sie Automa Dieses Artefakt macht das Crawlen von Daten einfach und effizient!
1. automa: Ihr Assistent für die Datenerfassung ohne Code
Automa ist ein leistungsstarkes Automatisierungs-Plugin für Chrome. Es hilft Ihnen dabei"Automatisieren Sie das Surfen im Internet, sammeln Sie Daten in Stapeln, exportieren Sie Daten in verschiedene Formate und richten Sie zeitlich begrenzte Aufgaben ein..
Das Wichtigste:"Sie brauchen überhaupt keinen Code zu schreiben, Sie tun es einfach über die visuelle Schnittstelle!"
2. vom Anfänger zum Meister: Drei Schritte zum Data Crawling
Schritt 1: Installation und Grundeinstellung
Suchen Sie im Chrome-Shop nach "Automa" und installieren Sie es, klicken Sie auf das Automa-Symbol in der oberen rechten Ecke Ihres Browsers und erstellen Sie einen neuen Workflow.
Schritt 2: Gestaltung des Arbeitsablaufs
Nehmen Sie als Beispiel das Crawlen von Produktdaten aus dem elektronischen Handel."Kernschritte"Eingeschlossen:"Einstellen der Startseite, Hinzufügen eines Schleifenblocks für das Blättern, Extrahieren von Produktinformationen und schließlich Exportieren von Daten"..
Schritt 3: Ausführen und Optimieren
Um die Stabilität und Effizienz der Datenerhebung zu gewährleisten"Sie müssen eine angemessene Wartezeit festlegen, bis die Seite fertig geladen ist".. Zugleich ist es wichtig, dass"Fügen Sie einen Mechanismus zur Fehlerbehandlung hinzu, um unbeabsichtigte Unterbrechungen zu verhindern.".
3. praktischer Fall: kleine Süßkartoffel Hot Post Datenerhebung
Automa Core Concept Note
Bevor wir zur Sache kommen, wollen wir einige grundlegende Konzepte von Automa erläutern:
- Workflow: Ein Container für den gesamten Aufgabenablauf.
- Block: jedes spezifische Funktionsmodul
- Selektor: Ein Werkzeug zur Positionierung von Elementen auf einer Webseite.
- Variable: Speichert temporäre Daten.
- Auslöser: Eine Bedingung, die einen Workflow initiiert.
- Tabelle: Ein Formular zum Sammeln und Ordnen von Daten.
Fallstudie
Schauen wir uns an, wie Automa zur Erfassung von Hot-Notes-Daten verwendet werden kann, und zwar am Beispiel der Little Sweet Potato Hot Notes-Datenerfassung. Im Kern wird der Prozess der manuellen Erfassung nachgeahmt, der dann mit Automa automatisiert wird.
Sehen wir uns zunächst an, wie man mit Automa Daten aus dem Kleinen Roten Buch sammelt. Der gesamte Prozess ist in die folgenden Schritte unterteilt.
Workflows erstellen und Auslöser konfigurieren
Erstellen Sie einen Workflow mit dem Namen "Xiaohongshu Data Collection". Fügen Sie im Auslöser einen Parameter namens "key_word" hinzu, der zur Eingabe des zu suchenden Schlüsselworts verwendet wird. Der Standardwert dieses Parameters ist auf "independent developer" gesetzt.
Öffnen Sie die Zielseite und suchen Sie
Verwenden Sie den Block Neue Registerkarte, um die Startseite des Little Red Book zu öffnen (https://www.xiaohongshu.com/explore). Verwenden Sie dann den Block Formulare, um das Suchfeld zu positionieren.
Wie man Elemente auswählt
- Über das folgende Symbol in der Seitenleiste des Dashboards gelangen Sie auf die Seite zur Auswahl der Elemente
- Wählen Sie das Element auf der Capture-Seite aus und klicken Sie auf die Schaltfläche Kopieren in der oberen rechten Ecke
- Fügen Sie die im vorherigen Schritt ausgewählten Elemente in den Css Selcetor von Automa
Zyklische Datenerhebung
Iterieren Sie durch die Liste der Noten mit dem Block Schleifen-Elemente. Wir müssen den Selektor für die Liste der Noten abrufen:
- Klicken Sie auf der Seite mit der Notizliste mit der rechten Maustaste auf ein beliebiges Notizcover
- Holen Sie sich den Selektor ".note-item .cover" mit dem Automa Selector Getting Tool
Öffnen Sie den Beitrag und erfahren Sie die Details
In der Schleife müssen wir auf jede Notiz klicken, um zur Detailseite zu gelangen. Hier sind die folgenden Punkte zu beachten.
- "Warten auf das Laden der Seite"Verwenden Sie den Block Wait Element, um sicherzustellen, dass die Seite vollständig geladen wird.
- "Klicken Sie auf den Umschlag des Zettels."Klicken Sie mit dem Block Click Element auf jede Notenabdeckung.
- "Warten, bis die Detailseite geladen ist"Verwenden Sie den Block Wait Element, um sicherzustellen, dass die Detailseite vollständig geladen ist.
Die Erfassungsmethode des Datenselektors wird in jeder Schleife erfasst:
- KOL-Name: Rechtsklick auf den Autorennamen > Prüfen > Selektor "a.name" kopieren
- Notiztitel: Selektor "div#detail-title"
- Inhalt der Notiz: selector "#detail-desc > .note-text > span"
- Interaktive Daten.
- Mag: ".left > .like-wrapper > .count"
- Anzahl der Sammlungen: "#note-page-collect-board-guide > .count"
- Anzahl der Kommentare: ".chat-wrapper > .count"
Daten exportieren
Verwenden Sie schließlich den Block Daten exportieren, um die gesammelten Daten im CSV-Format zu exportieren.
Tipp
- Wenn der Selektor nicht genau ist, versuchen Sie es mit XPath
- Fügen Sie eine angemessene Wartezeit für das Laden der Seite hinzu
- Regelmäßig auf Selektorausfall prüfen
- Es wird empfohlen, nicht mehr als 20 Daten auf einmal zu erfassen.
- Kontrollieren Sie die Häufigkeit der Sammlung, sammeln Sie nicht häufig
Der gesamte Arbeitsablauf kann die Datenerfassung durch eine angemessene Verzögerungssteuerung und Selektorpositionierung stabil abschließen. Gleichzeitig ist es durch die parametrisierte Konfiguration bequem, die Erfassungsschlüsselwörter entsprechend den unterschiedlichen Bedürfnissen anzupassen.
4. häufig gestellte Fragen und Lösungen
Dynamischer Selektor erklärt
Wir müssen oft dynamische Selektoren verwenden, wenn wir mehrere ähnliche Elemente sammeln. Dies wollen wir anhand eines praktischen Beispiels lernen.
Nehmen Sie diesen Selektor als Beispiel.
!!! .note-item:nth-child({{loopData.loopId.$index+1}}) .cover
Dieser Selektor sieht kompliziert aus, deshalb wollen wir ihn Schritt für Schritt aufschlüsseln.
!!
Das Präfix ist die spezielle Automa-Syntax für die Verwendung von JavaScript-Selektoren anstelle von CSS-Selektoren, die es uns ermöglicht, flexiblere Auswahlmethoden zu verwenden.
.note-item
Wählen Sie das Element mit der Klasse "note-item", das in der Regel der Container für jeden Beitrag in der Liste ist.
:nth-child()
ist ein CSS-Sub-Element-Selektor, der verwendet wird, um Unterelemente an einer bestimmten Stelle auszuwählen, entweder mit Zahlen oder Ausdrücken innerhalb der Klammern.
{{schleifenDaten.loopId.$index+1}}
den Nagel auf den Kopf treffen{{}}
ist die Variablensyntax von Automa, undloopData.loopId.$index
ist der aktuelle Index in der Schleife (beginnend bei 0), und+1
Das liegt daran, dass:nth-child
Zählen Sie von 1 an.
.decken
Wählen Sie das endgültige Zielelement aus, in diesem Fall das Titelbild des Beitrags.
Konfigurieren Sie den Schleifenblock wie folgt.
{
selector: "!!! .note-item:nth-child({{loopData.loopId.$index+1}}) .cover",
timeout: 5000
}
Warum ist sie so geschrieben? Weil es eine dynamische Positionierung ermöglicht: die
- 1. Zyklus.
.note-item:nth-child(1) .cover
- 2. Zyklus.
.note-item:nth-child(2) .cover
- 3. Zyklus.
.note-item:nth-child(3) .cover
- und so weiter ...
Dadurch wird das Problem der festen Selektoren vermieden: Die
/* Falsche Schreibweise */
.note-item .cover // wählt alle Cover-Elemente aus
/* Richtige Syntax */
!!! .note-item:nth-child({{loopData.loopId.$index+1}}) .cover // wählt genau die Elemente der aktuellen Schleife aus
Wenn Sie sich nicht sicher sind, ob der Selektor korrekt ist, können Sie ihn in der Browserkonsole unter testen.
// Angenommen, dies ist die 3. Schleife
document.querySelector('.note-item:nth-child(3) .cover')
Die Protokollierungsfunktion von Automa kann ebenfalls genutzt werden: die
{
Typ: "log",
message: "Aktueller Selektor: .note-item:nth-child({{loopData.loopId.$index+1}}) .cover"
}
Durch diesen dynamischen Selektoransatz können wir das Zielelement in jeder Schleife genau lokalisieren, die Auswahl des falschen Elements vermeiden und die Stabilität und Genauigkeit des Arbeitsablaufs verbessern. Das Schreiben von Selektoren ist einer der kritischsten Teile der Datenerfassung. Die sinnvolle Verwendung von dynamischen Selektoren kann Ihren Arbeitsablauf robuster und zuverlässiger machen.