AIパーソナル・ラーニング
と実践的なガイダンス
アリが描いたカエル

Proxy Lite:3Bパラメトリック・ビジュアルモデル駆動型ウェブ自動化ツール

はじめに

Proxy Liteは、Convergence AIによって開発されたオープンソースの軽量ウェブ自動化ツールで、Proxyのミニバージョンとしてオープンウェイトデザインで開発されています。3Bパラメータの視覚言語モデル(VLM)をベースにしており、ウェブページを自律的にナビゲートし、情報検索やブラウザ操作などのタスクを実行することができる。Proxy LiteはデフォルトでHugging Face Spacesデモ・エンドポイントに接続するが、Hugging Face Spacesデモ・エンドポイントには ブイエルエルエム 最適なパフォーマンスを得るためにローカルにデプロイする。リソースのフットプリントが小さく、開発者が個人のデバイスで実行するのに適しており、ユーザーとの対話よりもタスクの自動化に重点を置いている。

Proxy Lite: 3Bパラメトリック・ビジュアル・モデル駆動Web自動化ツール-1


 

Proxy Lite: 3Bパラメトリック・ビジュアル・モデル駆動Web自動化ツール-1

 

機能一覧

  • ウェブオートメーション自動的にウェブページをナビゲートし、クリック、入力、スクロールなどを行います。
  • 指令の実施市場を検索して評価を返すなど、指示に基づいて特定のタスクをこなす。
  • ローカル・ランタイムのサポートvLLM を介して個人のデバイスにデプロイして実行することができます。
  • オープンソースで拡張可能フルコードが提供され、ユーザーはモデルや環境設定を調整することができます。
  • 低資源フットプリントコンシューマーグレードのハードウェアで動作する軽量設計。
  • ブラウザ・インタラクションPlaywrightで動くChromiumブラウザ、ヘッドレスモードに対応。

 

ヘルプの使用

Proxy Liteは、開発者や技術愛好家のためのWeb自動化に焦点を当てたオープンソースツールです。以下は、ユーザがスムーズに導入・実行できるようにするための詳細なインストールと使用ガイドです。

設置プロセス

Proxy Liteをサポートするにはローカル環境が必要で、公式の推奨インストール手順は以下の通り:

1.環境準備

  • オペレーティングシステムWindows、Linux、またはmacOS。
  • ハードウェア要件RAMは8GB以上を推奨。
  • ソフトウェア依存::
    • パイソン3.11
    • Git (リポジトリの複製用)。
    • Playwright(ブラウザ制御ライブラリ)。
    • vLLM(モデル推論フレームワーク)。
    • 変圧器(Qwen-2.5-VLをサポートするためにソースから設置する必要がある)。

2.倉庫のクローン化

ターミナルで以下のコマンドを実行し、コードをダウンロードする:

git clone https://github.com/convergence-ai/proxy-lite.git
cd proxy-lite

3.環境設定

  • クイック・インストール::
    プロキシを作る
    
  • 手動インストール::
    pip install uv
    uv venv --python 3.11 --python-preference managed
    uv 同期
    uv pip install -e .
    プレイライトインストール
    
    • 注:モデルをローカルにデプロイする場合、vLLMとTransformersをインストールする必要があります:
      uv sync --all-extras
      

      にリリースされたQwen-2.5-VLをサポートするために、Transformersをソースからインストールする必要があります。 pyproject.toml で指定する。

4.現地展開(推奨)

vLLMを使用してローカル・エンドポイントを展開し、デモ・エンドポイントに依存しないようにすることが公式に推奨されている:

vllm serve convergence-ai/proxy-lite-3b --trust-remote-code --enable-auto-tool-choice --tool-call-parser hermes --port 8008
  • パラメータの説明::
    • --トラスト・リモート・コードリモートコードのロードを許可する。
    • --自動ツール選択を有効にする自動ツール選択を有効にする。
    • ---tool-call-parser hermesエルメスの解析ツールを使って呼び出される。
  • サービス実行後、エンドポイントアドレスは http://localhost:8008/v1.

使用方法

Proxy Liteには、コマンドライン、ウェブUI、Python統合の3つの使用方法がある。

モード1:コマンドライン操作

  1. タスクの実行::
    代理人 "キングス・クロス近郊の市場を見つけて、その評価を教えてください"
    
    • Hugging Faceデモ・エンドポイントはデフォルトで使用され、より遅いかもしれない。
  2. ローカル・エンドポイントの使用::
    proxy --api-base http://localhost:8008/v1 "キングス・クロス近郊の市場を見つけて、その評価を教えてください"
    
    • または環境変数を設定する:
      export PROXY_LITE_API_BASE=http://localhost:8008/v1
      

方法2:ウェブUI操作

  1. 起動インターフェース::
    アプリを作る
    
  2. インタビュー::
    ブラウザに入力 http://localhost:8501インターフェイスからタスクに入る。

アプローチ3:Pythonとの統合

  1. コード例::
    インポート asyncio
    from proxy_lite import Runner, RunnerConfig
    config = RunnerConfig.from_dict({次のようにする
    "environment": {
    "name": "webbrowser"、
    "homepage": "https://www.google.com"、
    「ヘッドレス": True
    }, "solver": { "name": "webbrowser", "homepage": "", "headless": True
    「ソルバー": {
    「名前": "シンプル", "エージェント": {
    「エージェント": {
    「name": "proxy_lite"、
    「クライアント": {
    "名前": "コンバージェンス", "model_id": {
    "model_id": "convergence-ai/proxy-lite-3b", "api_base": "
    "api_base": "http://localhost:8008/v1"
    }
    }
    }, "max_steps".
    「max_steps": 50、
    「action_timeout": 1800、
    "environment_timeout":1800、
    「task_timeout": 18000, "logger_level": "DEBUG": "DEBUG
    "ロガーレベル": "DEBUG"
    })
    proxy = Runner(config=config)
    result = asyncio.run(proxy.run("Book a table for 2 at Kings Cross at 7pm."))
    print(result)
    
  2. 指示スルー ランナー クラスはブラウザ環境でタスクを実行し、カスタム設定をサポートする。

主な機能

機能1:ウェブ自動化

  • 動く::
    1. ローカル・エンドポイントを起動します(インストール手順 4 を参照)。
    2. タスクを入力する:
      proxy --api-base http://localhost:8008/v1 "キングスクロス近郊のマーケットを検索"
      
    3. Proxy LiteはPlaywrightを使ってブラウザを制御し、ナビゲーションやアクションを実行する。
  • 銘記するタスクは明確である必要があり、ユーザーとのインタラクションを必要とする複雑な操作は避ける。

機能2:タスク実行

  • 動く::
    1. コマンドラインまたはPythonからタスクを入力する:
      result = asyncio.run(proxy.run("キングスクロス近郊のマーケットをいくつか見つけて、その評価を教えてください"))
      
    2. このモデルは、Observe-Think-Actサイクルに基づいて結果を返す。
  • 制約条件必要な情報がすべて提供されない限り、ログインや複雑なインタラクションを必要とするタスクはサポートされません。

特徴3:ローカル・ランのサポート

  • 動く::
    1. vLLMサービスをデプロイします。
    2. エンドポイントを設定し、タスクを実行する。
  • ゆうせいデモの不安定さと遅延を避ける。

ほら

  • デモ・エンドポイントの制限デフォルトのエンドポイント(Hugging Face Spaces)はデモ用であり、本番環境や頻繁な使用には適していません。
  • クライミング対策使用 脚本家ステルス 発見されるリスクは減るが、CAPTCHAによってブロックされる可能性があるため、ウェブプロキシと組み合わせることを推奨する。
  • 機能制限Proxy Liteは自律的なタスク実行に重点を置いており、リアルタイムのユーザーインタラクションやクレデンシャルのログインを必要とするタスクには適していません。
  • デバッグ・サポート設定 logger_level="DEBUG" 詳細なログを見る

以上の手順で、Proxy Liteを使ったWebタスクの迅速な導入と自動化が可能になります。

シーディーエヌワン
無断転載を禁じます:チーフAIシェアリングサークル " Proxy Lite:3Bパラメトリック・ビジュアルモデル駆動型ウェブ自動化ツール

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語