AIパーソナル・ラーニング
と実践的なガイダンス
豆包Marscode1

エージェントTARS:視覚とコマンドを使ってコンピュータを操作するオープンソースのインテリジェンス

はじめに

エージェントTARSは、ByteDance社がオープンソース化したマルチモーダルAIインテリジェンスで、ウェブコンテンツを視覚的に理解し、コマンドラインとファイルシステム操作を組み合わせることで、ユーザーが複雑なコンピュータタスクを完了するのを支援するコア機能を備えている。従来のツールのように手作業が必要な代わりに、ブラウザのタスクを自動化したり、ファイルを編集したり、コマンドを実行したりすることができる。このウェブサイトでは、ワークフローの自動化を必要とする開発者やユーザー向けに、デスクトップ・アプリケーションのダウンロードや技術文書を提供している。Agent TARSは、コンピュータ操作をよりスマートかつ効率的にすることを目的としている。このプロジェクトは UI-TARS デスクトップ ブラウザラッピング、ベンチマーク マヌス .

Agent TARS:使用视觉和命令操作电脑的开源智能体-1


 

機能一覧

  • ブラウザ・オートメーションウェブページの要素を視覚的に認識し、検索、クリック、フォーム入力などを自動化します。
  • コマンドラインの統合システムコマンドを直接実行してスクリプトを実行したり、バックグラウンドタスクを管理することができます。
  • ファイルシステム操作ファイルの読み取り、編集、生成、データ処理、結果の保存ができること。
  • ミッションの計画と実施複雑なタスクを分解し、ステップごとの完了を自動化することで、綿密なリサーチや反復作業をサポートします。
  • マルチモーダルインタラクション画像、テキスト、コード入力を組み合わせて、さまざまなタイプのタスクに対応。
  • ツール・エクステンション検索、文書編集、モデルコンテキストプロトコル(MCP)を統合し、機能の柔軟性を強化。
  • デスクトップ・アプリケーション・サポート操作プロセスを表示するインターフェイスを提供し、ユーザーがリアルタイムで表示し、調整するのに便利です。

 

ヘルプの使用

Agent TARSの使用方法は、インストールと操作の2つの部分に分かれています。以下は、すぐに使い始めるための詳細な手順です。

設置プロセス

  1. デスクトップアプリケーションのダウンロード
    公式サイト(https://agent-tars.com/)を開き、「ダウンロード」ボタンをクリックしてGitHubのリリースページ(https://github.com/bytedance/UI-TARS-desktop/)に移動します。のリリースを参照)。最新バージョン(例 AgentTARS-macOS-latest.dmg)をダウンロードしてください。ファイルサイズは数十MB程度で、ネットワークの速度にもよりますが、1~5分程度かかります。
  2. macOSへのインストール
    ダウンロードが完了したら .dmg ファイルを開くと、インストールウィンドウが表示されます。エージェントTARSのアイコンをアプリケーションフォルダにドラッグします。インストールには数秒しかかかりません。完了後、アプリケーションでAgent TARSを見つけ、[開く]をクリックします。
  3. パーミッションの設定
    macOSを初めて起動すると、アクセシビリティへのアクセスを許可するよう促されます。システム設定>プライバシーとセキュリティ>アクセシビリティ」をクリックし、Agent TARSを見つけてオンにする。これは、画面とキーボードの操作を許可するためです。
  4. 構成モデルとAPI
    アプリを開いたら、左下の設定ボタンをクリックして設定ページに入る。モデルプロバイダ(例:Azure OpenAI)とAPIキーを設定する必要があります。具体的な手順

    • Model Configでプロバイダを選択する。
    • APIキー(プロバイダーから取得)を入力します。
    • Azureを使用している場合は、以下の入力も必要です。 apiVersionそしてdeploymentName 歌で応える endpoint.
      保存後、アプリは自動的にモデルに接続する。
  5. オプションの検索設定
    ウェブ検索機能が必要な場合は、「Search Config」で検索プロバイダーを選択し、APIキーを入力してください。完了したら保存してください。

ワークフロー

インストール後、Agent TARSは入力ボックスとアクション表示エリアを持つシンプルなメインインターフェイスを持ちます。主な機能の使い方は以下の通りです。

ブラウザ・オートメーション

  • 動く最新のAIニュースを検索し、ヘッドラインを保存する。エンターキーを押すと、Agent TARSが内蔵ブラウザを起動し、自動的にヘッドラインを検索・抽出します。
  • 実証する右側のウィンドウには、ウェブページを開いたり、ページをスクロールしたりといったブラウザのアクションがリアルタイムで表示されます。
  • 結局終了すると、タイトルをテキストファイルとして保存し、インターフェイスの下部にパスが表示されます。

コマンドラインの統合

  • 動く現在のフォルダのファイルをリストアップ "などのコマンドを入力する。 ls -l に相当するコマンド。 dir).Enterキーを押すと、Agent TARSが端末を呼び出し実行する。
  • 実証するコマンド出力はインターフェイスの下部に表示され、見やすくなっている。
  • 高度な使用法システムメモリのチェックと記録」のような複雑なスクリプトを入力すると、対応するコマンドを実行し、結果を保存します。

ファイルシステム操作

  • 動く"新規ファイル test.txt を作成し、"hello "と入力します。Enterを押すと、Agent TARSがファイルを作成し、内容を書き込む。
  • 実証する操作プロセスがインターフェイスに表示され、完了後、パスをクリックしてファイルを見ることができます。
  • 編集ファイル"test.txtを開いて "world "を追加 "と入力すると、自動的にファイルが修正される。

ミッションの計画と実施

  • 動く例えば、「Pythonの最新バージョンの機能を調査し、ドキュメントを整理する」というような複雑なタスクを入力します。 Agent TARSは、データを検索し、情報を抽出し、ドキュメントを作成するというタスクを分解します。
  • 実証する右のウィンドウには、ウェブページを開いてテキストをコピーするなどの操作の各ステップが表示されます。
  • 結局: 最終的に整理された文書を生成し、指定されたパスに保存する。

ヒューマン・マシン・コラボレーション

  • リアルタイム調整タスク実行中に、入力ボックスに "段落の例を追加する "などのコマンドを追加することができます。
  • 結果を共有する共有 "ボタンをクリックし、ログファイルを生成するために "ローカルHTML "を選択するか、アップロードして共有するためにリモートサーバーのURLを設定します。

ほら

  • 環境要件現時点ではmacOSのみに対応しており、Windows版とLinux版はリリースされていません。
  • ネットワーク接続モデルと検索サービスをつなぐ安定したネットワークが必要だ。
  • テスト中にコンポーネントを調整する: 機能が動作しない(検索に失敗するなど)場合は、APIキーが正しいかどうかを確認するか、Discordのコミュニティに参加してヘルプを求める(公式サイトにリンクあり)。

以上の手順で、簡単なファイル操作から複雑な調査作業まで、Agent TARSを簡単に使用することができます。

 

アプリケーションシナリオ

  1. ウェブオートメーション
    Agent TARSを使って、自動的にウェブをブラウズし、ニュースや製品情報を抽出します。例えば、"collect recent tech news headlines "と入力すると、市場調査や情報照合のために検索し、結果を保存します。
  2. タスク管理
    旅行計画を立てる」など、複雑なプロジェクトを計画する際に、フライトやホテルを検索し、ドキュメントに整理します。個人アシスタントやプロジェクト管理に最適です。
  3. コードアシスト
    ファイルサイズをチェックするPythonスクリプトを生成」と入力すると、Agent TARSがコードを書き出し、保存します。
  4. データ分析
    ウェブページ上の株式データを分析し、表を保存する」など、リアルタイムのデータを扱う。財務分析や市場分析に適したデータを抽出し、ファイルを生成します。

 

品質保証

  1. TARSエージェントは無料ですか?
    はい、オープンソースプロジェクトで、Apache 2.0ライセンスに従っています。コードとアプリケーションはGitHubから無料でダウンロードして使用することができます。
  2. Windowsに対応していますか?
    現在サポートされているのはmacOSのみで、Windows版とLinux版はまだ開発中なので、アップデートはGitHubで確認してほしい。
  3. プログラミングの知識が必要ですか?
    必要ない。自然言語で操作でき、一般ユーザーでもアクセスできる。しかし、プログラミングの方法を知っていれば、コマンドライン機能をより活用することができる。
  4. 検索機能が使えないのですが?
    Search Config」のAPIキーが正しいか、ネットワーク接続が機能しているかを確認してください。Discordコミュニティに参加してフィードバックを提供することもできます。
無断転載を禁じます:チーフAIシェアリングサークル " エージェントTARS:視覚とコマンドを使ってコンピュータを操作するオープンソースのインテリジェンス
ja日本語