MediaCrawler: 멀티 소셜 미디어 플랫폼 콘텐츠, 동영상 댓글 크롤러 도구

최신 AI 리소스12개월 전 업데이트 AI 공유 서클
2.1K 00

일반 소개

MediaCrawler는 개발자를 위해 설계된 소셜 미디어 콘텐츠 크롤러 도구입니다. 강력한 크롤러 기능을 제공하여 샤오홍슈, 지에인, 셔터버그, B-station, 웨이보 등과 같은 소셜 플랫폼에서 동영상, 이미지, 댓글, 좋아요, 리트윗 및 기타 데이터를 빠르게 수집할 수 있습니다. 이 도구는 Playwright를 브리지로 사용하여 로그인 후 브라우저 환경을 보존하고 JS 표현식을 실행하여 암호화된 매개변수를 가져오므로 복잡한 리버스 엔지니어링의 어려움을 간소화합니다.

전문적인 용도로만 사용하려면 승인된 범위 내에서 데이터 수집을 수행해야 한다는 점에 유의하세요.

MediaCrawler:多社交媒体平台内容、视频评论爬虫工具

 

 

기능 목록

샤오홍슈, 지에인, 셔터벅스, B-station, 웨이보 등의 플랫폼을 지원합니다.
쿠키 로그인, QR코드 로그인, 휴대폰 번호 로그인 및 기타 방법 제공
키워드 검색 및 특정 동영상/포스트 ID 크롤링 기능 지원
로그인 상태 캐싱 및 IP 프록시 풀 지원
슬라이더 캡차 솔루션 제공(일부 플랫폼)

 

평지붕 건물키워드 검색크롤링할 게시물 ID 지정보조 댓글지정된 크리에이터 페이지로그인 상태 캐시IP 프록시 풀댓글 워드 클라우드 생성
리틀 레드 북(소셜 네트워킹 웹사이트)
지터버그
바이올린
스테이션 B
마이크로 블로그
전자 메시지 보드

 

 

도움말 사용

Python 가상 환경 생성 및 활성화
종속성 설치: `pip install -r requirements.txt` 명령을 사용합니다.
Playwright 브라우저 드라이버를 설치하려면: `playwright install` 명령을 사용합니다.
크롤러를 실행하려면 `python main.py --platform xhs --lt qrcode --type search`와 같은 명령줄 인수를 사용합니다.
다른 플랫폼용 크롤러의 예제를 보려면 `python main.py --help`를 사용하세요.
프로젝트 코드 구조를 확인하고 더 많은 질문에 대한 답변은 GitHub 리포지토리에서 확인하세요.

 

 

학습 자료

https://relakkes.feishu.cn/wiki/JUgBwdhIeiSbAwkFCLkciHdAnhh

© 저작권 정책
AiPPT

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...