はじめに
プロキシ・ライトは以下によって運営されています。 コンバージェンス AIがProxyのミニバージョンとしてオープンウェイト設計で開発したオープンソースの軽量Web自動化ツール。3Bパラメータの視覚言語モデル(VLM)に基づいており、ウェブページを自律的にナビゲートし、情報の検索やブラウザの操作などのタスクを実行することができる。Proxy LiteはデフォルトでHugging Face Spacesデモ・エンドポイントに接続するが、Hugging Face Spacesデモ・エンドポイントには ブイエルエルエム 最適なパフォーマンスを得るためにローカルにデプロイする。リソースのフットプリントが小さく、開発者が個人のデバイスで実行するのに適しており、ユーザーとの対話よりもタスクの自動化に重点を置いている。
機能一覧
- ウェブオートメーション自動的にウェブページをナビゲートし、クリック、入力、スクロールなどを行います。
- 指令の実施市場を検索して評価を返すなど、指示に基づいて特定のタスクをこなす。
- ローカル・ランタイムのサポートvLLM を介して個人のデバイスにデプロイして実行することができます。
- オープンソースで拡張可能フルコードが提供され、ユーザーはモデルや環境設定を調整することができます。
- 低資源フットプリントコンシューマーグレードのハードウェアで動作する軽量設計。
- ブラウザ・インタラクションPlaywrightで動くChromiumブラウザ、ヘッドレスモードに対応。
ヘルプの使用
Proxy Liteは、開発者や技術愛好家のためのWeb自動化に焦点を当てたオープンソースツールです。以下は、ユーザがスムーズに導入・実行できるようにするための詳細なインストールと使用ガイドです。
設置プロセス
Proxy Liteをサポートするにはローカル環境が必要で、公式の推奨インストール手順は以下の通り:
1.環境準備
- オペレーティングシステムWindows、Linux、またはmacOS。
- ハードウェア要件RAMは8GB以上を推奨。
- ソフトウェア依存::
- パイソン3.11
- Git (リポジトリの複製用)。
- Playwright(ブラウザ制御ライブラリ)。
- vLLM(モデル推論フレームワーク)。
- 変圧器(Qwen-2.5-VLをサポートするためにソースから設置する必要がある)。
2.倉庫のクローン化
ターミナルで以下のコマンドを実行し、コードをダウンロードする:
git clone https://github.com/convergence-ai/proxy-lite.git
cd proxy-lite
3.環境設定
- クイック・インストール::
make proxy
- 手動インストール::
pip install uv uv venv --python 3.11 --python-preference managed uv sync uv pip install -e . playwright install
- 注:モデルをローカルにデプロイする場合、vLLMとTransformersをインストールする必要があります:
uv sync --all-extras
にリリースされたQwen-2.5-VLをサポートするために、Transformersをソースからインストールする必要があります。
pyproject.toml
で指定する。
- 注:モデルをローカルにデプロイする場合、vLLMとTransformersをインストールする必要があります:
4.現地展開(推奨)
vLLMを使用してローカル・エンドポイントを展開し、デモ・エンドポイントに依存しないようにすることが公式に推奨されている:
vllm serve convergence-ai/proxy-lite-3b --trust-remote-code --enable-auto-tool-choice --tool-call-parser hermes --port 8008
- パラメータの説明::
--trust-remote-code
リモートコードのロードを許可する。--enable-auto-tool-choice
自動ツール選択を有効にする。--tool-call-parser hermes
エルメスの解析ツールを使って呼び出される。
- サービス実行後、エンドポイントアドレスは
http://localhost:8008/v1
.
使用方法
Proxy Liteには、コマンドライン、ウェブUI、Python統合の3つの使用方法がある。
モード1:コマンドライン操作
- タスクの実行::
proxy "Find some markets near Kings Cross and tell me their ratings."
- Hugging Faceデモ・エンドポイントはデフォルトで使用され、より遅いかもしれない。
- ローカル・エンドポイントの使用::
proxy --api-base http://localhost:8008/v1 "Find some markets near Kings Cross and tell me their ratings."
- または環境変数を設定する:
export PROXY_LITE_API_BASE=http://localhost:8008/v1
- または環境変数を設定する:
方法2:ウェブUI操作
- 起動インターフェース::
make app
- インタビュー::
ブラウザに入力http://localhost:8501
インターフェイスからタスクに入る。
アプローチ3:Pythonとの統合
- コード例::
import asyncio from proxy_lite import Runner, RunnerConfig config = RunnerConfig.from_dict({ "environment": { "name": "webbrowser", "homepage": "https://www.google.com", "headless": True }, "solver": { "name": "simple", "agent": { "name": "proxy_lite", "client": { "name": "convergence", "model_id": "convergence-ai/proxy-lite-3b", "api_base": "http://localhost:8008/v1" } } }, "max_steps": 50, "action_timeout": 1800, "environment_timeout": 1800, "task_timeout": 18000, "logger_level": "DEBUG" }) proxy = Runner(config=config) result = asyncio.run(proxy.run("Book a table for 2 at an Italian restaurant in Kings Cross tonight at 7pm.")) print(result)
- 指示スルー
Runner
クラスはブラウザ環境でタスクを実行し、カスタム設定をサポートする。
主な機能
機能1:ウェブ自動化
- 動く::
- ローカル・エンドポイントを起動します(インストール手順 4 を参照)。
- タスクを入力する:
proxy --api-base http://localhost:8008/v1 "Search for markets near Kings Cross."
- Proxy LiteはPlaywrightを使ってブラウザを制御し、ナビゲーションやアクションを実行する。
- 銘記するタスクは明確である必要があり、ユーザーとのインタラクションを必要とする複雑な操作は避ける。
機能2:タスク実行
- 動く::
- コマンドラインまたはPythonからタスクを入力する:
result = asyncio.run(proxy.run("Find some markets near Kings Cross and tell me their ratings."))
- このモデルは、Observe-Think-Actサイクルに基づいて結果を返す。
- コマンドラインまたはPythonからタスクを入力する:
- 制約条件必要な情報がすべて提供されない限り、ログインや複雑なインタラクションを必要とするタスクはサポートされません。
特徴3:ローカル・ランのサポート
- 動く::
- vLLMサービスをデプロイします。
- エンドポイントを設定し、タスクを実行する。
- ゆうせいデモの不安定さと遅延を避ける。
ほら
- デモ・エンドポイントの制限デフォルトのエンドポイント(Hugging Face Spaces)はデモ用であり、本番環境や頻繁な使用には適していません。
- クライミング対策使用
playwright_stealth
発見されるリスクは減るが、CAPTCHAによってブロックされる可能性があるため、ウェブプロキシと組み合わせることを推奨する。 - 機能制限Proxy Liteは自律的なタスク実行に重点を置いており、リアルタイムのユーザーインタラクションやクレデンシャルのログインを必要とするタスクには適していません。
- デバッグ・サポート設定
logger_level="DEBUG"
詳細なログを見る
以上の手順で、Proxy Liteを使ったWebタスクの迅速な導入と自動化が可能になります。