はじめに
MediaCrawlerは、開発者向けに設計されたソーシャルメディアコンテンツのクローラーツールです。強力なクローラー機能を提供することで、Xiaohongshu、Jieyin、Shutterbug、B-station、Weiboなどのソーシャルプラットフォームから動画、画像、コメント、いいね、リツイートなどのデータを素早く取得することができる。このツールは、Playwrightをブリッジとして使用し、ログイン後のブラウザ環境を保持し、JS式を実行することで暗号化されたパラメータを取得するため、複雑なリバースエンジニアリングの難易度を簡素化する。
業務上の使用に限り、データ収集は認可の範囲内で行う必要があることにご留意ください。
機能一覧
Xiaohongshu、Jieyin、Shutterbugs、B-station、Weiboなどのプラットフォームをサポート。
クッキーログイン、QRコードログイン、携帯電話番号ログインなどの方法を提供する。
キーワード検索、指定動画・投稿IDクローリング機能をサポート
ログイン状態のキャッシュとIPプロキシプールのサポート
スライダーCAPTCHAソリューションの提供(一部のプラットフォーム)
テラス | キーワード検索 | クロールする投稿IDを指定する | 二次コメント | 指定クリエーター ホームページ | ログイン状態のキャッシュ | IPプロキシプール | コメント・ワードクラウドの作成 |
---|---|---|---|---|---|---|---|
リトル・レッド・ブック(ソーシャル・ネットワーキング・サイト) | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
ジッターバグ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
ヴァイオリン | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
ステーションB | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
マイクロブログ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
電子掲示板 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
ヘルプの使用
Python仮想環境の作成と有効化
依存関係のインストール: `pip install -r requirements.txt` コマンドを使用する。
Playwrightブラウザドライバをインストールするには、`playwright install`コマンドを使用する。
クローラーを実行するには、`python main.py --platform xhs --lt qrcode --type search`のようなコマンドライン引数を使用します。
他のプラットフォームのクローラの例を見るには `python main.py --help` を使ってください。
プロジェクトのコード構造を確認し、GitHubリポジトリでより多くの質問に答えてください。