はじめに
Aggregatorは、利用可能なプロキシノードの様々なクロールすることができます無料のプロキシプールを作成するために設計されたオープンソースのプロジェクトです。プラットフォームは、柔軟なプラグインシステムを持って、ユーザーが特定の機能を実現するためにプラグインを介して、ターゲットサイトの特別なニーズに応じてすることができます。このプロジェクトは、主にクロール技術を学ぶために使用され、任意の違法な活動のために禁止されています。
機能一覧
- プール建設代理店複数のソースからのプロキシノードを自動的にクロールして集約し、高品質のプロキシプールを形成します。
- プラグインシステムユーザー定義のプラグインをサポートし、さまざまなウェブサイトの特定のニーズに対応します。
- オートメーション自動サインイン、自動登録、購読集計など、ユーザー操作を簡素化する機能を搭載。
- マルチプロトコル対応HTTP、HTTPS、SOCKSなど、様々なプロキシプロトコルに対応。
- オープンソースとコミュニティ・サポートこのプロジェクトはオープンソースであり、ユーザーは自由に機能を変更、拡張することができ、コミュニティを通じてサポートを受けることができます。
ヘルプの使用
設置プロセス
- 環境準備Python 3.6以上がインストールされていることを確認してください。
- クローンプロジェクト使用
git clone https://github.com/wzdnzd/aggregator
コマンドでプロジェクトをローカルにクローンする。 - 依存関係のインストールプロジェクト・ディレクトリに移動して
pip install -r requirements.txt
必要な依存関係をインストールします。 - 設定ファイル必要に応じて修正する
config.yaml
クロールターゲットとプロキシプールのパラメータを設定するための設定ファイル。 - ランニング・プロジェクト実施
python collect.py
プロキシノードのクロールを開始するには、以下を実行する。python process.py
処理および集約エージェント。
使用プロセス
- クローラーの起動走る
python collect.py
プロキシノードのクロールを開始すると、設定ファイルの設定に従ってシステムが自動的にクロールを行う。 - 加工データ走る
python process.py
クロールされたプロキシノードは、プロキシプールの高い品質を保証するために処理され、フィルタリングされる。 - プラグイン使用対象サイトのニーズに応じて、プラグインを作成するか、既存のプラグインを使用する。
プラグイン
ディレクトリにある場合は、システムが自動的にロードして実行する。 - オートメーション自動サインイン、自動登録などの機能を設定し、対応するスクリプトを実行することで自動運用を実現します。
- 結果を見る処理終了後、エージェントプールのデータは指定されたファイルに保存され、ユーザーが必要に応じて使用することができます。
詳しい操作手順
- プール建設代理店システムは定期的に複数のソースからプロキシノードをクロールし、プロキシプールの高い品質と可用性を保証するためにそれらを選別し検証する。
- プラグインシステムユーザーは、対象サイトの特定のニーズに基づいてカスタムプラグインを作成し、それを
プラグイン
ディレクトリにあるプラグインを使用すると、システムは自動的にこれらのプラグインをロードして実行します。 - オートメーション自動チェックイン、自動登録、その他の機能を設定ファイルから設定することで、システムが定期的にこれらの操作を実行し、ユーザーの日常業務を簡素化します。
- マルチプロトコル対応HTTP、HTTPS、SOCKSなど様々なプロキシプロトコルをサポートしており、ユーザーは必要に応じて適切なプロキシプロトコルを選択することができます。