MediaCrawler: инструмент для поиска контента и комментариев к видео на платформах мультисоциальных медиа

Общее введение

MediaCrawler - это инструмент для сбора контента социальных сетей, предназначенный для разработчиков. Предоставляя мощную функцию краулера, он может быстро получить видео, изображения, комментарии, лайки, ретвиты и другие данные с таких социальных платформ, как Xiaohongshu, Jieyin, Shutterbug, B-station, Weibo и так далее. Этот инструмент использует Playwright в качестве моста, сохраняя среду браузера после входа в систему и получая зашифрованные параметры путем выполнения JS-выражений, что упрощает сложный реверс-инжиниринг.

Только для профессионального использования, пожалуйста, обратите внимание, что сбор данных должен осуществляться в рамках полномочий.

MediaCrawler:多社交媒体平台内容、视频评论爬虫工具

 

 

Список функций

Поддержка таких платформ, как Xiaohongshu, Jieyin, Shutterbugs, B-station, Weibo и др.
Обеспечьте вход через cookie, вход через QR-код, вход через номер мобильного телефона и другие методы
Поддержка поиска по ключевым словам и указанный видео/пост ID ползания функции
Кэширование состояния входа в систему и поддержка пула IP-прокси
Предоставляем слайдерные решения CAPTCHA (некоторые платформы)

 

террасаПоиск по ключевым словамУкажите идентификатор поста, который нужно просмотретьВторичные комментарииСтраница назначенного создателяКэш состояния входа в системуПул IP-проксиСоздавайте облака слов комментариев
Маленькая красная книга (сайт социальной сети)
джиттербаг
скрипка
Станция B
микроблог
электронная доска объявлений

 

 

Использование помощи

Создание и активация виртуальной среды Python
Установите зависимости: используйте команду `pip install -r requirements.txt`.
Чтобы установить драйвер браузера Playwright, выполните команду `playwright install`.
Чтобы запустить краулер: используйте аргумент командной строки, например `python main.py --platform xhs --lt qrcode --type search`.
Используйте `python main.py --help`, чтобы посмотреть примеры краулеров для других платформ.
Ознакомьтесь со структурой кода проекта и ответьте на дополнительные вопросы в репозитории GitHub.

 

 

Учебные материалы

https://relakkes.feishu.cn/wiki/JUgBwdhIeiSbAwkFCLkciHdAnhh

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...