はじめに
UI-TARSデスクトップは、ByteDance社が開発したUI-TARS(Visual Language Model)に基づいたグラフィカルインターフェースエージェントアプリケーションです。UI-TARSデスクトップは、クロスプラットフォーム操作をサポートし、WindowsとmacOSシステムに対応し、リアルタイムフィードバックとステータス表示機能を提供します。ユーザーは簡単な音声コマンドでスクリーンショット、視覚認識、正確なマウスとキーボード操作などの操作を行うことができ、コンピュータ操作の利便性と知性を大幅に向上させる。
機能一覧
- 自然言語制御:音声コマンドによるコンピューター操作の制御
- スクリーンショットと画像認識:スクリーンショットと画像認識機能をサポート
- 精密なマウスとキーボード操作: 高精度のマウスとキーボード操作が可能
- クロスプラットフォーム対応:WindowsとmacOSに対応。
- リアルタイムのフィードバックとステータス表示:オペレーションに関するリアルタイムのフィードバックとステータスアップデートを提供します。
ヘルプの使用
設置プロセス
マックオス
- UI-TARSデスクトップアプリの最新版をダウンロードする。
- UI-TARSアプリケーションをアプリケーションフォルダにドラッグします。
- macOSのシステム設定でUI-TARSのパーミッションを有効にする:
- システム設定 -> プライバシーとセキュリティ -> アクセシビリティ
- システム設定 -> プライバシーとセキュリティ -> 画面録画
- UI-TARSアプリケーションを開く。
sudo xattr -dr com.apple.quarantine /Applications/UI TARS.app
修正
ウィンドウズ
- UI-TARSデスクトップアプリの最新版をダウンロードする。
- アプリケーションを実行し、プロンプトに従ってインストールを完了します。
使用ガイドライン
- UI-TARSアプリケーションを開くと、メインインターフェイスが表示されます。
- メインインターフェイスでは、天気情報の取得やツイートの送信など、音声コマンドでさまざまな操作ができる。
- このアプリケーションは、HuggingFace(クラウド)とOllama(ローカル)によってデプロイされたビジュアル言語モデル(VLM)をサポートしており、迅速なデプロイのためにHuggingFace推論エンドポイントを使用することが推奨されている。
- モデルの展開については、提供されているGUIモデル展開ガイドを参照することができる。
主な機能
自然言語制御
- メイン・インターフェースで、マイクのアイコンをタップして音声入力を開始します。
- ブラウザーを開いて、天気を検索してください。
- アプリケーションは命令に従って対応する操作を実行し、その結果をインターフェイスに表示する。
スクリーンショットと視覚認識
- メインインターフェイスで、「スクリーンショット」機能を選択します。
- マウスを使ってスクリーンショットを撮りたい範囲を選択します。
- アプリは自動的にスクリーンショットの内容を認識し、結果を表示します。
マウスとキーボードの正確なコントロール
- メインインターフェイスで、「マウスコントロール」または「キーボードコントロール」機能を選択します。
- 音声コマンドを使用するか、手動でコマンドを入力して、マウスの動きやキーボード入力を制御します。
- アプリケーションは指示に従って適切なアクションを実行し、リアルタイムのフィードバックを提供する。