MediaCrawler : outil de recherche de contenu et de commentaires vidéo sur les plates-formes de médias multisociaux
Introduction générale
MediaCrawler est un outil d'exploration du contenu des médias sociaux conçu pour les développeurs. Grâce à sa puissante fonction d'exploration, il peut rapidement récupérer des vidéos, des images, des commentaires, des likes, des retweets et d'autres données provenant de plateformes sociales telles que Xiaohongshu, Jieyin, Shutterbug, B-station, Weibo, etc. Cet outil utilise Playwright comme un pont, préservant l'environnement du navigateur après la connexion, et obtenant des paramètres cryptés en exécutant des expressions JS, simplifiant ainsi la difficulté d'une rétro-ingénierie complexe.
Pour un usage professionnel uniquement, veuillez noter que la collecte de données doit être effectuée dans le cadre de l'autorisation.

Liste des fonctions
Prise en charge de plateformes telles que Xiaohongshu, Jieyin, Shutterbugs, B-station, Weibo, etc.
Fournir une connexion par cookie, une connexion par code QR, une connexion par numéro de téléphone mobile et d'autres méthodes.
Prise en charge de la recherche par mot-clé et de la fonction d'exploration des vidéos/identifiants d'articles spécifiés
Mise en cache de l'état de connexion et prise en charge du pool de proxy IP
Fournir des solutions CAPTCHA de type "slider" (certaines plateformes)
bâtiment à toit plat | Recherche par mot-clé | Spécifiez l'identifiant de l'article à explorer | Commentaires secondaires | Page du créateur désigné | Cache de l'état de connexion | Pool de proxy IP | Générer des nuages de mots de commentaires |
---|---|---|---|---|---|---|---|
Little Red Book (site web de réseautage social) | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
jitterbug | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
violon | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Station B | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
microblog | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
tableau d'affichage électronique | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Utiliser l'aide
Créer et activer un environnement virtuel Python
Installez les dépendances : Utilisez la commande `pip install -r requirements.txt`.
Pour installer le pilote de navigateur Playwright : utilisez la commande `playwright install`.
Pour lancer le crawler : utilisez un argument de ligne de commande tel que `python main.py --platform xhs --lt qrcode --type search`.
Utilisez `python main.py --help` pour voir des exemples de crawlers pour d'autres plateformes.
Vérifiez la structure du code du projet et répondez à d'autres questions dans le dépôt GitHub.
Matériel d'apprentissage
https://relakkes.feishu.cn/wiki/JUgBwdhIeiSbAwkFCLkciHdAnhh
© déclaration de droits d'auteur
L'article est protégé par le droit d'auteur et ne doit pas être reproduit sans autorisation.
Articles connexes
Pas de commentaires...