Allgemeine Einführung
MediaCrawler ist ein Crawler-Tool für soziale Medieninhalte, das für Entwickler entwickelt wurde. Durch die Bereitstellung einer leistungsstarken Crawler-Funktion kann es schnell Videos, Bilder, Kommentare, Likes, Retweets und andere Daten von sozialen Plattformen wie Xiaohongshu, Jieyin, Shutterbug, B-Station, Weibo und so weiter erfassen. Dieses Tool verwendet Playwright als Brücke, behält die Browserumgebung nach der Anmeldung bei und erhält verschlüsselte Parameter durch die Ausführung von JS-Ausdrücken, wodurch die Schwierigkeit eines komplexen Reverse Engineering vereinfacht wird.
Bitte beachten Sie, dass die Datenerhebung nur im Rahmen der Genehmigung erfolgen darf.
Funktionsliste
Unterstützung von Plattformen wie Xiaohongshu, Jieyin, Shutterbugs, B-station, Weibo usw.
Cookie-Login, QR-Code-Login, Login über Mobiltelefon und andere Methoden
Unterstützt die Suche nach Schlüsselwörtern und die Crawling-Funktion für bestimmte Video-/Post-IDs
Zwischenspeicherung des Anmeldestatus und Unterstützung von IP-Proxy-Pools
Bereitstellung von CAPTCHA-Slider-Lösungen (einige Plattformen)
Terrasse | Schlüsselwort-Suche | Geben Sie die zu durchsuchende Post-ID an | Sekundäre Kommentare | Homepage des designierten Schöpfers | Login-Status-Cache | IP-Proxy-Pool | Kommentar-Wortwolken generieren |
---|---|---|---|---|---|---|---|
Little Red Book (Website für soziale Netzwerke) | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Jitterbug | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Geige | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Station B | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Mikroblog | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
elektronische Anschlagtafel | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Hilfe verwenden
Erstellen und Aktivieren einer virtuellen Python-Umgebung
Installieren Sie die Abhängigkeiten: Verwenden Sie den Befehl `pip install -r requirements.txt`.
Um den Playwright-Browsertreiber zu installieren, verwenden Sie den Befehl `playwright install`.
Um den Crawler zu starten, verwenden Sie ein Kommandozeilenargument wie `python main.py --platform xhs --lt qrcode --type search`.
Verwenden Sie `python main.py --help`, um Beispiele von Crawlern für andere Plattformen zu sehen.
Überprüfen Sie die Struktur des Projektcodes und beantworten Sie weitere Fragen im GitHub-Repository.