OmniParser: ユーザーインターフェースのスクリーンショットを構造化された要素に解析し、大規模なモデルの理解と操作を容易にします。

2.2K 00

はじめに

OmniParserはマイクロソフト社によって開発されたツールで、ユーザーインターフェースのスクリーンショットを構造化された理解しやすい要素に解析します。このツールはGPT-4Vが対応するインターフェイス領域に正確なアクションを生成する能力を大幅に向上させます。OmniParserは幅広い大規模な言語モデルをサポートするだけでなく、Windows 11仮想マシンと組み合わせて使用することで、強力なインターフェイス制御を提供することができます。最新バージョンのOmniParser V2.0は、パフォーマンスとレイテンシを大幅に改善したインターフェイス解析のリーディングツールです。

機能一覧

ユーザーインターフェースのスクリーンショットの解析：スクリーンショットを理解しやすく、操作しやすい構造化された要素に変換します。
複数の大規模言語モデルをサポート：OpenAI、DeepSeek、Qwen、Anthropicを含む。
Windows 11 VMの制御：ビジュアルモデリングと組み合わせてVMを完全に制御。
詳細なアイコン検出と機能説明の提供：より詳細なアイコン検出とインタラクション要素の予測をサポートします。
高いパフォーマンスと低レイテンシー：最新バージョンでは、パフォーマンスとレイテンシーが大幅に改善されています。

ヘルプの使用

設置プロセス

仮想環境を作成し、起動する：

   conda create -n "omni" python==3.12
conda activate omni

必要な依存関係をインストールする：

   pip install -r requirements.txt

V2バージョンのウェイトファイルをダウンロードし、指定のフォルダに置く：

   rm -rf weights/icon_detect weights/icon_caption weights/icon_caption_florence
for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
mv weights/icon_caption weights/icon_caption_florence

使用プロセス

Gradioデモを実行する：

   python gradio_demo.py

ユーザーインターフェースのスクリーンショットを解析する：
- ユーザーインターフェースのスクリーンショットをアップロードまたは撮影してください。
- OmniParserを使用してスクリーンショットを解析し、構造化されたインターフェース要素を生成します。
Windows 11仮想マシンの制御：
- ビジュアルモデルと組み合わせることで、仮想マシンの完全な制御が可能になる。
- 大規模な言語モデルを幅広くサポートし、オペレーションの精度と効率を高めます。

詳細な機能操作

アイコン検出OmniParser : OmniParserはインターフェイス内のアイコンを検出し、その機能の詳細な説明を提供することで、ユーザが素早くアイコンを理解し、操作できるようにします。
相互作用要素の予測インターフェイスのどの要素がインタラクティブで、ユーザー体験を向上させるかを予測する。
高性能分析最新バージョンでは、パフォーマンスとレイテンシーが大幅に改善され、高速で効率的な解析が可能になりました。