MediaCrawler: Herramienta de rastreo de comentarios de vídeo y contenidos de plataformas de medios multisociales
Últimos recursos sobre IAActualizado hace 12 meses Círculo de intercambio de inteligencia artificial 2K 00
Introducción general
MediaCrawler es una herramienta de rastreo de contenidos de redes sociales diseñada para desarrolladores. Al proporcionar una potente función de rastreo, puede obtener rápidamente vídeos, imágenes, comentarios, likes, retweets y otros datos de plataformas sociales como Xiaohongshu, Jieyin, Shutterbug, B-station, Weibo, etc. Esta herramienta utiliza Playwright como puente, preservando el entorno del navegador tras el inicio de sesión, y obteniendo parámetros encriptados mediante la ejecución de expresiones JS, simplificando así la dificultad de la compleja ingeniería inversa.
Sólo para uso profesional, tenga en cuenta que la recogida de datos debe realizarse dentro del ámbito de la autorización.

Lista de funciones
Soporta plataformas como Xiaohongshu, Jieyin, Shutterbugs, B-station, Weibo, etc.
Proporcionar inicio de sesión mediante cookies, código QR, número de teléfono móvil y otros métodos.
Soporta búsqueda por palabra clave y función de rastreo de vídeo/post ID especificados
Almacenamiento en caché del estado de inicio de sesión y compatibilidad con el grupo de proxy IP
Proporcionar soluciones CAPTCHA deslizantes (algunas plataformas)
terraza | Búsqueda por palabra clave | Especifique el ID de la entrada a rastrear | Comentarios secundarios | Página del creador designado | Caché de estado de inicio de sesión | Grupo de proxy IP | Generar nubes de palabras de comentarios |
---|---|---|---|---|---|---|---|
Little Red Book (sitio web de redes sociales) | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
jitterbug | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
violín | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Estación B | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
microblog | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
tablón de anuncios electrónico | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Utilizar la ayuda
Crear y activar un entorno virtual Python
Instale las dependencias: Utilice el comando `pip install -r requirements.txt`.
Para instalar el controlador del navegador Playwright: Utilice el comando `playwright install`.
Para ejecutar el rastreador: utilice un argumento de línea de comandos como `python main.py --platform xhs --lt qrcode --type search`.
Utilice `python main.py --help` para ver ejemplos de rastreadores para otras plataformas.
Consulta la estructura del código del proyecto y responde a más preguntas en el repositorio de GitHub.
Material didáctico
https://relakkes.feishu.cn/wiki/JUgBwdhIeiSbAwkFCLkciHdAnhh
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Puestos relacionados
Sin comentarios...