Proxy Lite：3Bパラメトリック・ビジュアルモデル駆動型ウェブ自動化ツール

1.3K 00

はじめに

プロキシ・ライトは以下によって運営されています。コンバージェンス AIがProxyのミニバージョンとしてオープンウェイト設計で開発したオープンソースの軽量Web自動化ツール。3Bパラメータの視覚言語モデル（VLM）に基づいており、ウェブページを自律的にナビゲートし、情報の検索やブラウザの操作などのタスクを実行することができる。Proxy LiteはデフォルトでHugging Face Spacesデモ・エンドポイントに接続するが、Hugging Face Spacesデモ・エンドポイントにはブイエルエルエム最適なパフォーマンスを得るためにローカルにデプロイする。リソースのフットプリントが小さく、開発者が個人のデバイスで実行するのに適しており、ユーザーとの対話よりもタスクの自動化に重点を置いている。

機能一覧

ウェブオートメーション自動的にウェブページをナビゲートし、クリック、入力、スクロールなどを行います。
指令の実施市場を検索して評価を返すなど、指示に基づいて特定のタスクをこなす。
ローカル・ランタイムのサポートvLLM を介して個人のデバイスにデプロイして実行することができます。
オープンソースで拡張可能フルコードが提供され、ユーザーはモデルや環境設定を調整することができます。
低資源フットプリントコンシューマーグレードのハードウェアで動作する軽量設計。
ブラウザ・インタラクションPlaywrightで動くChromiumブラウザ、ヘッドレスモードに対応。

ヘルプの使用

Proxy Liteは、開発者や技術愛好家のためのWeb自動化に焦点を当てたオープンソースツールです。以下は、ユーザがスムーズに導入・実行できるようにするための詳細なインストールと使用ガイドです。

設置プロセス

Proxy Liteをサポートするにはローカル環境が必要で、公式の推奨インストール手順は以下の通り：

1.環境準備

オペレーティングシステムWindows、Linux、またはmacOS。
ハードウェア要件RAMは8GB以上を推奨。
ソフトウェア依存::
- パイソン3.11
- Git (リポジトリの複製用)。
- Playwright（ブラウザ制御ライブラリ）。
- vLLM（モデル推論フレームワーク）。
- 変圧器（Qwen-2.5-VLをサポートするためにソースから設置する必要がある）。

2.倉庫のクローン化

ターミナルで以下のコマンドを実行し、コードをダウンロードする：

git clone https://github.com/convergence-ai/proxy-lite.git
cd proxy-lite

3.環境設定

クイック・インストール::
```
make proxy
```
手動インストール::
```
pip install uv
uv venv --python 3.11 --python-preference managed
uv sync
uv pip install -e .
playwright install
```
- 注：モデルをローカルにデプロイする場合、vLLMとTransformersをインストールする必要があります：
```
uv sync --all-extras
```
  にリリースされたQwen-2.5-VLをサポートするために、Transformersをソースからインストールする必要があります。 pyproject.toml で指定する。

4.現地展開（推奨）

vLLMを使用してローカル・エンドポイントを展開し、デモ・エンドポイントに依存しないようにすることが公式に推奨されている：

vllm serve convergence-ai/proxy-lite-3b --trust-remote-code --enable-auto-tool-choice --tool-call-parser hermes --port 8008

パラメータの説明::
- --trust-remote-codeリモートコードのロードを許可する。
- --enable-auto-tool-choice自動ツール選択を有効にする。
- --tool-call-parser hermesエルメスの解析ツールを使って呼び出される。
サービス実行後、エンドポイントアドレスは http://localhost:8008/v1.

使用方法

Proxy Liteには、コマンドライン、ウェブUI、Python統合の3つの使用方法がある。

モード1：コマンドライン操作

タスクの実行::
```
proxy "Find some markets near Kings Cross and tell me their ratings."
```
- Hugging Faceデモ・エンドポイントはデフォルトで使用され、より遅いかもしれない。

ローカル・エンドポイントの使用::

proxy --api-base http://localhost:8008/v1 "Find some markets near Kings Cross and tell me their ratings."

または環境変数を設定する：

export PROXY_LITE_API_BASE=http://localhost:8008/v1

方法2：ウェブUI操作

起動インターフェース::
```
make app
```
インタビュー::
ブラウザに入力 http://localhost:8501インターフェイスからタスクに入る。

アプローチ3：Pythonとの統合

コード例::

import asyncio
from proxy_lite import Runner, RunnerConfig
config = RunnerConfig.from_dict({
"environment": {
"name": "webbrowser",
"homepage": "https://www.google.com",
"headless": True
},
"solver": {
"name": "simple",
"agent": {
"name": "proxy_lite",
"client": {
"name": "convergence",
"model_id": "convergence-ai/proxy-lite-3b",
"api_base": "http://localhost:8008/v1"
}
}
},
"max_steps": 50,
"action_timeout": 1800,
"environment_timeout": 1800,
"task_timeout": 18000,
"logger_level": "DEBUG"
})
proxy = Runner(config=config)
result = asyncio.run(proxy.run("Book a table for 2 at an Italian restaurant in Kings Cross tonight at 7pm."))
print(result)

指示スルー Runner クラスはブラウザ環境でタスクを実行し、カスタム設定をサポートする。

主な機能

機能1：ウェブ自動化

動く::
1. ローカル・エンドポイントを起動します（インストール手順 4 を参照）。
2. タスクを入力する：
```
proxy --api-base http://localhost:8008/v1 "Search for markets near Kings Cross."
```
3. Proxy LiteはPlaywrightを使ってブラウザを制御し、ナビゲーションやアクションを実行する。
銘記するタスクは明確である必要があり、ユーザーとのインタラクションを必要とする複雑な操作は避ける。

機能2：タスク実行

動く::
1. コマンドラインまたはPythonからタスクを入力する：
```
result = asyncio.run(proxy.run("Find some markets near Kings Cross and tell me their ratings."))
```
2. このモデルは、Observe-Think-Actサイクルに基づいて結果を返す。
制約条件必要な情報がすべて提供されない限り、ログインや複雑なインタラクションを必要とするタスクはサポートされません。

特徴3：ローカル・ランのサポート

動く::
1. vLLMサービスをデプロイします。
2. エンドポイントを設定し、タスクを実行する。
ゆうせいデモの不安定さと遅延を避ける。

ほら

デモ・エンドポイントの制限デフォルトのエンドポイント（Hugging Face Spaces）はデモ用であり、本番環境や頻繁な使用には適していません。
クライミング対策使用 playwright_stealth 発見されるリスクは減るが、CAPTCHAによってブロックされる可能性があるため、ウェブプロキシと組み合わせることを推奨する。
機能制限Proxy Liteは自律的なタスク実行に重点を置いており、リアルタイムのユーザーインタラクションやクレデンシャルのログインを必要とするタスクには適していません。
デバッグ・サポート設定 logger_level="DEBUG" 詳細なログを見る

以上の手順で、Proxy Liteを使ったWebタスクの迅速な導入と自動化が可能になります。

この記事は著作権で保護されており、許可なく複製することは禁じられている。

ハイパーボリック：手頃なGPUアクセスとAI推論サービスを提供

7ヶ月前

01.5K

Llama 3.2 Reasoning WebGPU：在浏览器中运行LLama-3.2

ラマ3.2推論WebGPU：ブラウザでラマ3.2を動かす

AIニュース # AI Java オープンソースプロジェクト # オープンソース大型モデルツールのローカル展開

7ヶ月前

01.5K

ChatAnyone：写真から半身のデジタル人物ビデオを生成するツール

4ヶ月前

01.1K

JigsawStack: 小規模な専用AIモデルAPIを幅広く提供

最新のAIリソース # AIオープンサービス

5ヶ月前

0973

コメントなし

コメントに参加するにはログインが必要です！

今すぐログイン

コメントはありません

Proxy Lite：3Bパラメトリック・ビジュアルモデル駆動型ウェブ自動化ツール

はじめに

機能一覧

ヘルプの使用

設置プロセス

1.環境準備

2.倉庫のクローン化

3.環境設定

4.現地展開（推奨）

使用方法

モード1：コマンドライン操作

方法2：ウェブUI操作

アプローチ3：Pythonとの統合

主な機能

機能1：ウェブ自動化

機能2：タスク実行

特徴3：ローカル・ランのサポート

ほら

Agenta：AIアプリケーションに統合されたキューワードとモデルの効果を評価するツール

WiseMind AI：ローカライズされた文書対話・メモツール

関連記事

ハイパーボリック：手頃なGPUアクセスとAI推論サービスを提供

ラマ3.2推論WebGPU：ブラウザでラマ3.2を動かす

ChatAnyone：写真から半身のデジタル人物ビデオを生成するツール

JigsawStack: 小規模な専用AIモデルAPIを幅広く提供

コメントなし

最新コレクション

最新記事

Proxy Lite：3Bパラメトリック・ビジュアルモデル駆動型ウェブ自動化ツール

はじめに

機能一覧

ヘルプの使用

設置プロセス

1.環境準備

2.倉庫のクローン化

3.環境設定

4.現地展開（推奨）

使用方法

モード1：コマンドライン操作

方法2：ウェブUI操作

アプローチ3：Pythonとの統合

主な機能

機能1：ウェブ自動化

機能2：タスク実行

特徴3：ローカル・ランのサポート

ほら

Agenta：AIアプリケーションに統合されたキューワードとモデルの効果を評価するツール

WiseMind AI：ローカライズされた文書対話・メモツール

関連記事

ハイパーボリック：手頃なGPUアクセスとAI推論サービスを提供

ラマ3.2推論WebGPU：ブラウザでラマ3.2を動かす

ChatAnyone：写真から半身のデジタル人物ビデオを生成するツール

JigsawStack: 小規模な専用AIモデルAPIを幅広く提供

コメントなし

厳選されたAIツール

最新コレクション

最新記事