일반 소개
MediaCrawler는 개발자를 위해 설계된 소셜 미디어 콘텐츠 크롤러 도구입니다. 강력한 크롤러 기능을 제공하여 샤오홍슈, 지에인, 셔터버그, B-station, 웨이보 등과 같은 소셜 플랫폼에서 동영상, 이미지, 댓글, 좋아요, 리트윗 및 기타 데이터를 빠르게 수집할 수 있습니다. 이 도구는 Playwright를 브리지로 사용하여 로그인 후 브라우저 환경을 보존하고 JS 표현식을 실행하여 암호화된 매개변수를 가져오므로 복잡한 리버스 엔지니어링의 어려움을 간소화합니다.
전문적인 용도로만 사용하려면 승인된 범위 내에서 데이터 수집을 수행해야 한다는 점에 유의하세요.

기능 목록
샤오홍슈, 지에인, 셔터벅스, B-station, 웨이보 등의 플랫폼을 지원합니다.
쿠키 로그인, QR코드 로그인, 휴대폰 번호 로그인 및 기타 방법 제공
키워드 검색 및 특정 동영상/포스트 ID 크롤링 기능 지원
로그인 상태 캐싱 및 IP 프록시 풀 지원
슬라이더 캡차 솔루션 제공(일부 플랫폼)
평지붕 건물 | 키워드 검색 | 크롤링할 게시물 ID 지정 | 보조 댓글 | 지정된 크리에이터 페이지 | 로그인 상태 캐시 | IP 프록시 풀 | 댓글 워드 클라우드 생성 |
---|---|---|---|---|---|---|---|
리틀 레드 북(소셜 네트워킹 웹사이트) | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
지터버그 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
바이올린 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
스테이션 B | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
마이크로 블로그 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
전자 메시지 보드 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
도움말 사용
Python 가상 환경 생성 및 활성화
종속성 설치: `pip install -r requirements.txt` 명령을 사용합니다.
Playwright 브라우저 드라이버를 설치하려면: `playwright install` 명령을 사용합니다.
크롤러를 실행하려면 `python main.py --platform xhs --lt qrcode --type search`와 같은 명령줄 인수를 사용합니다.
다른 플랫폼용 크롤러의 예제를 보려면 `python main.py --help`를 사용하세요.
프로젝트 코드 구조를 확인하고 더 많은 질문에 대한 답변은 GitHub 리포지토리에서 확인하세요.
학습 자료
https://relakkes.feishu.cn/wiki/JUgBwdhIeiSbAwkFCLkciHdAnhh
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...