AIパーソナル・ラーニング
と実践的なガイダンス

UI-TARS Desktop: 自然言語でコンピュータを制御するDesktop Intelligentsiaアプリケーション

はじめに

UI-TARSデスクトップは、ByteDance社が開発したUI-TARS(Visual Language Model)に基づいたグラフィカルインターフェースエージェントアプリケーションです。UI-TARSデスクトップは、クロスプラットフォーム操作をサポートし、WindowsとmacOSシステムに対応し、リアルタイムフィードバックとステータス表示機能を提供します。ユーザーは簡単な音声コマンドでスクリーンショット、視覚認識、正確なマウスとキーボード操作などの操作を行うことができ、コンピュータ操作の利便性と知性を大幅に向上させる。

UI-TARS Desktop: 自然言語によるコンピュータ制御のためのDesktop Intelligentsiaアプリケーション-1


 

機能一覧

  • 自然言語制御:音声コマンドによるコンピューター操作の制御
  • スクリーンショットと画像認識:スクリーンショットと画像認識機能をサポート
  • 精密なマウスとキーボード操作: 高精度のマウスとキーボード操作が可能
  • クロスプラットフォーム対応:WindowsとmacOSに対応。
  • リアルタイムのフィードバックとステータス表示:オペレーションに関するリアルタイムのフィードバックとステータスアップデートを提供します。

 

ヘルプの使用

設置プロセス

マックオス

  1. UI-TARSデスクトップアプリの最新版をダウンロードする。
  2. UI-TARSアプリケーションをアプリケーションフォルダにドラッグします。
  3. macOSのシステム設定でUI-TARSのパーミッションを有効にする:
    • システム設定 -> プライバシーとセキュリティ -> アクセシビリティ
    • システム設定 -> プライバシーとセキュリティ -> 画面録画
  4. UI-TARSアプリケーションを開く。 sudo xattr -dr com.apple.quarantine /Applications/UI TARS.app 修正

ウィンドウズ

  1. UI-TARSデスクトップアプリの最新版をダウンロードする。
  2. アプリケーションを実行し、プロンプトに従ってインストールを完了します。

使用ガイドライン

  1. UI-TARSアプリケーションを開くと、メインインターフェイスが表示されます。
  2. メインインターフェイスでは、天気情報の取得やツイートの送信など、音声コマンドでさまざまな操作ができる。
  3. このアプリケーションは、HuggingFace(クラウド)とOllama(ローカル)によってデプロイされたビジュアル言語モデル(VLM)をサポートしており、迅速なデプロイのためにHuggingFace推論エンドポイントを使用することが推奨されている。
  4. モデルの展開については、提供されているGUIモデル展開ガイドを参照することができる。

主な機能

自然言語制御

  1. メイン・インターフェースで、マイクのアイコンをタップして音声入力を開始します。
  2. ブラウザーを開いて、天気を検索してください。
  3. アプリケーションは命令に従って対応する操作を実行し、その結果をインターフェイスに表示する。

スクリーンショットと視覚認識

  1. メインインターフェイスで、「スクリーンショット」機能を選択します。
  2. マウスを使ってスクリーンショットを撮りたい範囲を選択します。
  3. アプリは自動的にスクリーンショットの内容を認識し、結果を表示します。

マウスとキーボードの正確なコントロール

  1. メインインターフェイスで、「マウスコントロール」または「キーボードコントロール」機能を選択します。
  2. 音声コマンドを使用するか、手動でコマンドを入力して、マウスの動きやキーボード入力を制御します。
  3. アプリケーションは指示に従って適切なアクションを実行し、リアルタイムのフィードバックを提供する。
無断転載を禁じます:チーフAIシェアリングサークル " UI-TARS Desktop: 自然言語でコンピュータを制御するDesktop Intelligentsiaアプリケーション

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語