MediaCrawler : outil de recherche de contenu et de commentaires vidéo sur les plates-formes de médias multisociaux

Introduction générale

MediaCrawler est un outil d'exploration du contenu des médias sociaux conçu pour les développeurs. Grâce à sa puissante fonction d'exploration, il peut rapidement récupérer des vidéos, des images, des commentaires, des likes, des retweets et d'autres données provenant de plateformes sociales telles que Xiaohongshu, Jieyin, Shutterbug, B-station, Weibo, etc. Cet outil utilise Playwright comme un pont, préservant l'environnement du navigateur après la connexion, et obtenant des paramètres cryptés en exécutant des expressions JS, simplifiant ainsi la difficulté d'une rétro-ingénierie complexe.

Pour un usage professionnel uniquement, veuillez noter que la collecte de données doit être effectuée dans le cadre de l'autorisation.

MediaCrawler:多社交媒体平台内容、视频评论爬虫工具

 

 

Liste des fonctions

Prise en charge de plateformes telles que Xiaohongshu, Jieyin, Shutterbugs, B-station, Weibo, etc.
Fournir une connexion par cookie, une connexion par code QR, une connexion par numéro de téléphone mobile et d'autres méthodes.
Prise en charge de la recherche par mot-clé et de la fonction d'exploration des vidéos/identifiants d'articles spécifiés
Mise en cache de l'état de connexion et prise en charge du pool de proxy IP
Fournir des solutions CAPTCHA de type "slider" (certaines plateformes)

 

bâtiment à toit platRecherche par mot-cléSpécifiez l'identifiant de l'article à explorerCommentaires secondairesPage du créateur désignéCache de l'état de connexionPool de proxy IPGénérer des nuages de mots de commentaires
Little Red Book (site web de réseautage social)
jitterbug
violon
Station B
microblog
tableau d'affichage électronique

 

 

Utiliser l'aide

Créer et activer un environnement virtuel Python
Installez les dépendances : Utilisez la commande `pip install -r requirements.txt`.
Pour installer le pilote de navigateur Playwright : utilisez la commande `playwright install`.
Pour lancer le crawler : utilisez un argument de ligne de commande tel que `python main.py --platform xhs --lt qrcode --type search`.
Utilisez `python main.py --help` pour voir des exemples de crawlers pour d'autres plateformes.
Vérifiez la structure du code du projet et répondez à d'autres questions dans le dépôt GitHub.

 

 

Matériel d'apprentissage

https://relakkes.feishu.cn/wiki/JUgBwdhIeiSbAwkFCLkciHdAnhh

© déclaration de droits d'auteur
AiPPT

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...