AI Personal Learning
und praktische Anleitung

Daten crawlen ist schwierig? Automa Plugin hilft Ihnen leicht!

Leiden Sie unter einem dieser Probleme?"Das manuelle Kopieren und Einfügen von Daten ist zu zeitaufwändig und ineffizient..;"Ich möchte Webseitendaten in großen Mengen sammeln, aber ich weiß nicht, wie man Code schreibt"..;"Ich habe andere Crawler-Tools ausprobiert, aber sie sind zu kompliziert und kostspielig zu erlernen"..;"Ich mache mir Sorgen, dass der Crawler von der Website verbannt wird, und ich weiß nicht, wie ich damit umgehen soll..

Aber keine Sorge! Heute werde ich Ihnen zeigen, wie Sie Automa Dieses Artefakt macht das Crawlen von Daten einfach und effizient!


 

1. automa: Ihr Assistent für die Datenerfassung ohne Code

Übersicht über die Automa-Plugin-Schnittstelle

Automa ist ein leistungsstarkes Automatisierungs-Plugin für Chrome. Es hilft Ihnen dabei"Automatisieren Sie das Surfen im Internet, sammeln Sie Daten in Stapeln, exportieren Sie Daten in verschiedene Formate und richten Sie zeitlich begrenzte Aufgaben ein..

Das Wichtigste:"Sie brauchen überhaupt keinen Code zu schreiben, Sie tun es einfach über die visuelle Schnittstelle!"

 

2. vom Anfänger zum Meister: Drei Schritte zum Data Crawling

Schritt 1: Installation und Grundeinstellung

Suchen Sie im Chrome-Shop nach "Automa" und installieren Sie es, klicken Sie auf das Automa-Symbol in der oberen rechten Ecke Ihres Browsers und erstellen Sie einen neuen Workflow.

Chrome Store Installationsbildschirm

Standort des Automa-Plugins

Bildschirm zur Erstellung des Workflows

 

Schritt 2: Gestaltung des Arbeitsablaufs

Nehmen Sie als Beispiel das Crawlen von Produktdaten aus dem elektronischen Handel."Kernschritte"Eingeschlossen:"Einstellen der Startseite, Hinzufügen eines Schleifenblocks für das Blättern, Extrahieren von Produktinformationen und schließlich Exportieren von Daten"..

Schritt 3: Ausführen und Optimieren

Um die Stabilität und Effizienz der Datenerhebung zu gewährleisten"Sie müssen eine angemessene Wartezeit festlegen, bis die Seite fertig geladen ist".. Zugleich ist es wichtig, dass"Fügen Sie einen Mechanismus zur Fehlerbehandlung hinzu, um unbeabsichtigte Unterbrechungen zu verhindern.".

 

3. praktischer Fall: kleine Süßkartoffel Hot Post Datenerhebung

Automa Core Concept Note

Bevor wir zur Sache kommen, wollen wir einige grundlegende Konzepte von Automa erläutern:

  1. Workflow: Ein Container für den gesamten Aufgabenablauf.
  2. Block: jedes spezifische Funktionsmodul
  3. Selektor: Ein Werkzeug zur Positionierung von Elementen auf einer Webseite.
  4. Variable: Speichert temporäre Daten.
  5. Auslöser: Eine Bedingung, die einen Workflow initiiert.
  6. Tabelle: Ein Formular zum Sammeln und Ordnen von Daten.

Überblick über die Grundlagen der Workflow-Automatisierung

 

Fallstudie

Schauen wir uns an, wie Automa zur Erfassung von Hot-Notes-Daten verwendet werden kann, und zwar am Beispiel der Little Sweet Potato Hot Notes-Datenerfassung. Im Kern wird der Prozess der manuellen Erfassung nachgeahmt, der dann mit Automa automatisiert wird.

Prozess der Datenerhebung im Kleinen Roten Buch

Sehen wir uns zunächst an, wie man mit Automa Daten aus dem Kleinen Roten Buch sammelt. Der gesamte Prozess ist in die folgenden Schritte unterteilt.

Workflows erstellen und Auslöser konfigurieren

Erstellen Sie einen Workflow mit dem Namen "Xiaohongshu Data Collection". Fügen Sie im Auslöser einen Parameter namens "key_word" hinzu, der zur Eingabe des zu suchenden Schlüsselworts verwendet wird. Der Standardwert dieses Parameters ist auf "independent developer" gesetzt.

Auslöser-Konfiguration

Öffnen Sie die Zielseite und suchen Sie

Verwenden Sie den Block Neue Registerkarte, um die Startseite des Little Red Book zu öffnen (https://www.xiaohongshu.com/explore). Verwenden Sie dann den Block Formulare, um das Suchfeld zu positionieren.

Wie man Elemente auswählt

  1. Über das folgende Symbol in der Seitenleiste des Dashboards gelangen Sie auf die Seite zur Auswahl der Elemente

    Selektor holen

  2. Wählen Sie das Element auf der Capture-Seite aus und klicken Sie auf die Schaltfläche Kopieren in der oberen rechten Ecke

    Selektor kopieren

  3. Fügen Sie die im vorherigen Schritt ausgewählten Elemente in den Css Selcetor von Automa

    Einfügen-Selektor

Zyklische Datenerhebung

Iterieren Sie durch die Liste der Noten mit dem Block Schleifen-Elemente. Wir müssen den Selektor für die Liste der Noten abrufen:

  1. Klicken Sie auf der Seite mit der Notizliste mit der rechten Maustaste auf ein beliebiges Notizcover
  2. Holen Sie sich den Selektor ".note-item .cover" mit dem Automa Selector Getting Tool

zyklische Anordnung

Öffnen Sie den Beitrag und erfahren Sie die Details

In der Schleife müssen wir auf jede Notiz klicken, um zur Detailseite zu gelangen. Hier sind die folgenden Punkte zu beachten.

  1. "Warten auf das Laden der Seite"Verwenden Sie den Block Wait Element, um sicherzustellen, dass die Seite vollständig geladen wird.
  2. "Klicken Sie auf den Umschlag des Zettels."Klicken Sie mit dem Block Click Element auf jede Notenabdeckung.
  3. "Warten, bis die Detailseite geladen ist"Verwenden Sie den Block Wait Element, um sicherzustellen, dass die Detailseite vollständig geladen ist.

    Schema der offenen Elemente

Die Erfassungsmethode des Datenselektors wird in jeder Schleife erfasst:

  1. KOL-Name: Rechtsklick auf den Autorennamen > Prüfen > Selektor "a.name" kopieren
  2. Notiztitel: Selektor "div#detail-title"
  3. Inhalt der Notiz: selector "#detail-desc > .note-text > span"
  4. Interaktive Daten.
    • Mag: ".left > .like-wrapper > .count"
    • Anzahl der Sammlungen: "#note-page-collect-board-guide > .count"
    • Anzahl der Kommentare: ".chat-wrapper > .count"

Selektor Beispiel

Daten exportieren

Verwenden Sie schließlich den Block Daten exportieren, um die gesammelten Daten im CSV-Format zu exportieren.

Tipp

  • Wenn der Selektor nicht genau ist, versuchen Sie es mit XPath
  • Fügen Sie eine angemessene Wartezeit für das Laden der Seite hinzu
  • Regelmäßig auf Selektorausfall prüfen
  • Es wird empfohlen, nicht mehr als 20 Daten auf einmal zu erfassen.
  • Kontrollieren Sie die Häufigkeit der Sammlung, sammeln Sie nicht häufig

Der gesamte Arbeitsablauf kann die Datenerfassung durch eine angemessene Verzögerungssteuerung und Selektorpositionierung stabil abschließen. Gleichzeitig ist es durch die parametrisierte Konfiguration bequem, die Erfassungsschlüsselwörter entsprechend den unterschiedlichen Bedürfnissen anzupassen.

4. häufig gestellte Fragen und Lösungen

Dynamischer Selektor erklärt

Wir müssen oft dynamische Selektoren verwenden, wenn wir mehrere ähnliche Elemente sammeln. Dies wollen wir anhand eines praktischen Beispiels lernen.

Nehmen Sie diesen Selektor als Beispiel.

!!! .note-item:nth-child({{loopData.loopId.$index+1}}) .cover

Dieser Selektor sieht kompliziert aus, deshalb wollen wir ihn Schritt für Schritt aufschlüsseln.

!! Das Präfix ist die spezielle Automa-Syntax für die Verwendung von JavaScript-Selektoren anstelle von CSS-Selektoren, die es uns ermöglicht, flexiblere Auswahlmethoden zu verwenden.

.note-itemWählen Sie das Element mit der Klasse "note-item", das in der Regel der Container für jeden Beitrag in der Liste ist.

:nth-child()ist ein CSS-Sub-Element-Selektor, der verwendet wird, um Unterelemente an einer bestimmten Stelle auszuwählen, entweder mit Zahlen oder Ausdrücken innerhalb der Klammern.

{{schleifenDaten.loopId.$index+1}}den Nagel auf den Kopf treffen{{}}ist die Variablensyntax von Automa, undloopData.loopId.$indexist der aktuelle Index in der Schleife (beginnend bei 0), und+1Das liegt daran, dass:nth-childZählen Sie von 1 an.

.deckenWählen Sie das endgültige Zielelement aus, in diesem Fall das Titelbild des Beitrags.

Konfigurieren Sie den Schleifenblock wie folgt.

{
  selector: "!!! .note-item:nth-child({{loopData.loopId.$index+1}}) .cover",
  timeout: 5000
}

Warum ist sie so geschrieben? Weil es eine dynamische Positionierung ermöglicht: die

  • 1. Zyklus. .note-item:nth-child(1) .cover
  • 2. Zyklus. .note-item:nth-child(2) .cover
  • 3. Zyklus. .note-item:nth-child(3) .cover
  • und so weiter ...

Dadurch wird das Problem der festen Selektoren vermieden: Die

/* Falsche Schreibweise */
.note-item .cover // wählt alle Cover-Elemente aus

/* Richtige Syntax */
!!! .note-item:nth-child({{loopData.loopId.$index+1}}) .cover // wählt genau die Elemente der aktuellen Schleife aus

Wenn Sie sich nicht sicher sind, ob der Selektor korrekt ist, können Sie ihn in der Browserkonsole unter testen.

// Angenommen, dies ist die 3. Schleife
document.querySelector('.note-item:nth-child(3) .cover')

Die Protokollierungsfunktion von Automa kann ebenfalls genutzt werden: die

{
  Typ: "log",
  message: "Aktueller Selektor: .note-item:nth-child({{loopData.loopId.$index+1}}) .cover"
}

Durch diesen dynamischen Selektoransatz können wir das Zielelement in jeder Schleife genau lokalisieren, die Auswahl des falschen Elements vermeiden und die Stabilität und Genauigkeit des Arbeitsablaufs verbessern. Das Schreiben von Selektoren ist einer der kritischsten Teile der Datenerfassung. Die sinnvolle Verwendung von dynamischen Selektoren kann Ihren Arbeitsablauf robuster und zuverlässiger machen.

Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Daten crawlen ist schwierig? Automa Plugin hilft Ihnen leicht!

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)