MediaCrawler: инструмент для поиска контента и комментариев к видео на платформах мультисоциальных медиа
Общее введение
MediaCrawler - это инструмент для сбора контента социальных сетей, предназначенный для разработчиков. Предоставляя мощную функцию краулера, он может быстро получить видео, изображения, комментарии, лайки, ретвиты и другие данные с таких социальных платформ, как Xiaohongshu, Jieyin, Shutterbug, B-station, Weibo и так далее. Этот инструмент использует Playwright в качестве моста, сохраняя среду браузера после входа в систему и получая зашифрованные параметры путем выполнения JS-выражений, что упрощает сложный реверс-инжиниринг.
Только для профессионального использования, пожалуйста, обратите внимание, что сбор данных должен осуществляться в рамках полномочий.

Список функций
Поддержка таких платформ, как Xiaohongshu, Jieyin, Shutterbugs, B-station, Weibo и др.
Обеспечьте вход через cookie, вход через QR-код, вход через номер мобильного телефона и другие методы
Поддержка поиска по ключевым словам и указанный видео/пост ID ползания функции
Кэширование состояния входа в систему и поддержка пула IP-прокси
Предоставляем слайдерные решения CAPTCHA (некоторые платформы)
терраса | Поиск по ключевым словам | Укажите идентификатор поста, который нужно просмотреть | Вторичные комментарии | Страница назначенного создателя | Кэш состояния входа в систему | Пул IP-прокси | Создавайте облака слов комментариев |
---|---|---|---|---|---|---|---|
Маленькая красная книга (сайт социальной сети) | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
джиттербаг | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
скрипка | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Станция B | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
микроблог | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
электронная доска объявлений | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Использование помощи
Создание и активация виртуальной среды Python
Установите зависимости: используйте команду `pip install -r requirements.txt`.
Чтобы установить драйвер браузера Playwright, выполните команду `playwright install`.
Чтобы запустить краулер: используйте аргумент командной строки, например `python main.py --platform xhs --lt qrcode --type search`.
Используйте `python main.py --help`, чтобы посмотреть примеры краулеров для других платформ.
Ознакомьтесь со структурой кода проекта и ответьте на дополнительные вопросы в репозитории GitHub.
Учебные материалы
https://relakkes.feishu.cn/wiki/JUgBwdhIeiSbAwkFCLkciHdAnhh
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...