はじめに
Agent Sは、Simular AIが開発したオープンソースのフレームワークで、グラフィカル・ユーザー・インターフェース(GUI)を通じて、人間のようにコンピュータを操作することができる。マルチモーダル・マクロ言語モデルと経験的学習技術を用いて、ウェブ閲覧、文書編集、ソフトウェア使用などのタスクを実行する。このプロジェクトはGitHubでオープンソース化されており、活発な開発者コミュニティが存在する。 エージェントS1の論文は2025年のICLRでアクセプトされ、エージェントS2は2025年3月にリリースされ、OpenAIを凌駕し アンソロピック macOS、Windows、Linuxに対応。macOS、Windows、Linuxをサポートし、自動化オフィス、ソフトウェアテスト、AI研究に適しています。
機能一覧
- グラフィカル・ユーザー・インターフェース(GUI)操作アナログマウスとキーボードでコンピューターソフトウェアを操作。
- タスクとプランニング複雑なタスクを小さなステップに分割し、その実行を自動化する。
- 経験から学ぶ過去のタスクから学び、効率を上げる。
- クロスプラットフォーム対応macOS (ワンクリックインストールパッケージ)、ウィンドウズ、リナックス。
- マルチモーダル入力画面イメージとインターフェイス要素を組み合わせ、正確な操作を実現。
- オープンソースのカスタマイズソースコードとドキュメントは提供され、開発者が自由に編集することができます。
- ナレッジベースの更新インテリジェンスを向上させるため、実行時に経験データを継続的に更新。
ヘルプの使用
Agent Sは、開発者向けのオープンソースツールで、インストールと使用には一定のプログラミング基盤が必要です。以下は、ユーザがすぐに使い始められるよう、詳細な手順と機能的な説明です。
設置プロセス
- 環境を整える
- Python 3.9から3.12をインストールする。
- コードをダウンロードするためにGitをインストールする。
- オプション:テストや環境の分離のために仮想マシン(VMwareなど)を準備する。
- ダウンロードコード
- ターミナルを開いて実行する:
git clone https://github.com/simular-ai/Agent-S.git
- プロジェクト・カタログにアクセスする:
cd Agent-S
- ターミナルを開いて実行する:
- 依存関係のインストール
- 仮想環境を作成する(推奨):
python -m venv venv source venv/bin/activate # macOS/Linux venv\Scripts\activate # Windows
- コアライブラリをインストールする:
pip install gui-agents
- 環境変数の設定(APIキーなど):
export OPENAI_API_KEY=<你的密钥> export ANTHROPIC_API_KEY=<你的密钥> export HF_TOKEN=<你的Hugging Face密钥>
- 仮想環境を作成する(推奨):
- スターティング・エージェントS
- エージェントS1またはS2を実行する:
agent_s1 # 运行 Agent S1 agent_s2 # 运行 Agent S2
- 起動したら、タスクを入力して開始する。
- エージェントS1またはS2を実行する:
主な機能
グラフィカル・ユーザー・インターフェース(GUI)操作
- 機能説明スクリーンショットとインターフェース認識により、人間の操作をシミュレートします。
- 手続き::
- うごきだす
agent_s2
. - メモ帳を開き、"hello "と入力する。
- Agent S2 メモ帳のアイコンを探してクリックし、テキストを入力します。
- Ctrl+Cでいつでも停止できる。
- うごきだす
タスクとプランニング
- 機能説明複雑な仕事を小さなステップに分解し、少しずつこなしていく。
- 手続き::
- 友達にメールを送る "と入力する。
- メールソフトを開き、新規メッセージを作成し、内容を入力し、送信をクリックします。
- ユーザーはターミナルで各ステップのログを見ることができる。
経験から学ぶ
- 機能説明タスクの経過を記録し、フォローアップ作業を最適化する。
- 手続き::
- クエスト完了後、経験値は
gui_agents/kb
フォルダー - 似たような作業を再度行うことで、効率は向上する。
- 開発者はナレッジ・ベース・ドキュメントで学習内容を確認できる。
- クエスト完了後、経験値は
注目の機能操作
クロスプラットフォーム対応
- 機能説明3つの主要OSをサポート
- 手続き::
- Windowsでは
pywin32
歌で応えるpywinauto
. - macOS 必須
pyobjc
使用pip install pyobjc
インストール。 - Linuxチェック
pyautogui
互換性がある場合、パーミッションの調整が必要な場合があります。
- Windowsでは
マルチモーダル入力
- 機能説明画像データとインターフェイスデータを組み合わせ、操作精度を向上。
- 手続き::
- ブラウザで "天気 "を検索」と入力する。
- エージェントS2は画面を分析し、ブラウザウィンドウを見つけ、検索語を入力する。
- 結果は自動的に表示される。
ナレッジベースダウンロード
- 機能説明エージェントS2は、事前に訓練された知識ベースを使用し、オフライン操作をサポートします。
- 手続き::
- 初回起動時にGitHub Releasesからナレッジベースを自動的にダウンロードします。
- マニュアルのダウンロード例:
download_kb_data(version="s2", release_tag="v0.2.2", download_dir="kb_data", platform="linux")
- 知識ベースのパスは
kb_data
フォルダー
高度な設定
統合 パープレクシカ・サーチ
- 機能説明エージェントSのウェブ知識検索能力の強化
- 手続き::
- Docker Desktopをインストールし、起動する。
- ダウンロード Perplexica:
cd Perplexica git submodule update --init
- リネーム
sample.config.toml
というのもconfig.toml
APIキーがわからない場合は、APIキーを記入してください。 - サービスを開始する:
docker compose up -d
- PerplexicaのURLを設定します:
export PERPLEXICA_URL=http://localhost:端口/api/search
カスタムモデル
- 機能説明複数の大型モデルとカスタムエンドポイントをサポート。
- 手続き::
- 利用する クロード モデル
agent_s2 --model claude-3-7-sonnet-20250219
- ハグする顔のエンドポイントを使用する:
agent_s2 --endpoint_provider "huggingface" --endpoint_url "<端点URL>/v1/"
- 利用する クロード モデル
ほら
- 最初の実行には、依存関係とナレッジベースをダウンロードするためのインターネット接続が必要です。
- Linuxユーザーは、以下のような干渉を受ける可能性のあるConda環境を避けてください。
pyatspi
. - 詳細なドキュメントは以下を参照されたい。
README.md
歌で応えるmodels.md
真ん中だ。
アプリケーションシナリオ
- オフィスオートメーション
エージェントSは自動的にフォームに入力し、Eメールを送信するため、繰り返し作業を減らすことができます。 - ソフトウェアテスト
ユーザーの操作をシミュレートし、異なるシステム上でソフトウェアの安定性をテストする。 - AIリサーチ
研究者たちは、インテリジェントな身体とコンピュータの相互作用の技術的な原理を探求するためにこれを使用している。
品質保証
- エージェントS2とS1の違いは何ですか?
S2はS1のアップグレード版で、性能が向上し、OSWorldやAndroidWorldなど、より多くのベンチマークをサポートしている。 - 常時接続している必要があるのか?
ナレッジベースの最初のインストールとダウンロードにはインターネットアクセスが必要です。 - コミュニティ・サポートへの連絡方法は?
Discord サーバー (https://discord.gg/E2XfsK9fPV) に参加するか、GitHub に課題を投稿してください。
エージェントS2技術詳細発表:汎用コンピュータ操作のための組み合わせAIフレームワーク
人間と同じようにコンピュータを巧みに使いこなす知能を構築することは、汎用人工知能(AGI)への道における重要な課題のひとつである。このようなタスクは、オープンエンドな数値タスクの実行から、大規模でノイズが多く、非常に動的な問題空間を持つグラフィカル・ユーザー・インターフェース(GUI)を介した不慣れなアプリケーションのナビゲートまで、幅広いシナリオをカバーしている。最近 Agent S2
モジュラー・フレームワークを提案し、いくつかのコンピュータ使用ベンチマークでトップクラスの性能を達成した研究の技術論文が正式に発表された。
Agent S2
このリリースに関連するコードは以前にオープンソース化されている。このリリースのテクニカルペーパー(以下 arXiv (Get)では、このシステムの中核概念とアーキテクチャ設計を詳しく紹介している。また、このシステムの研究チームであるSimular AIは、専門家以外の読者向けに入門記事を以前に発表している。
エージェントS2の概要:複合インテリジェント・デザイン
Agent S2
中心的な設計思想は、複雑なコンピュータ操作タスクを分解することであり、プランニング、アクション、画面インタラクション理解のすべての作業を単一の大きなモデルに依存するのではなく、これらの責任をジェネラリストのプランニング・モジュールと専門化された実行/理解モジュール(スペシャリスト)に割り当てることである。この組み合わされたアーキテクチャは、人間の専門家チームの働き方を模倣することを意図しています:高レベルのプランナー、低レベルの実行者、およびインターフェイス相互作用の専門家が連携して働きます。
エージェントS2のアーキテクチャ図:汎用プランナーと特殊化されたベースモジュールの組み合わせ。
Agent S2
主な特徴は以下の通り:
- 混合接地(MoG)。 GUI要素の正確な位置を特定するために、基礎となるエキスパートモデル(視覚、テキスト、構造化情報抽出を含む)のセットを使用する。例えば、スプレッドシートを使用する場合、構造化されたデータに焦点を当てますが、ボタンをクリックする場合は視覚的な方向性に依存します。この設計は、グラウンディングをプランニングから切り離し、問題の複雑さを効果的に軽減し、一般的な推論モデルと特殊化されたビジュアルベースモデルの現在のトレーニング分布と一致させる。
- プロアクティブ・ヒエラルキー・プランニング(PHP)。 このフレームワークは、あらかじめ定義されたスクリプトに厳格に従うのではなく、環境からのフィードバックに応じて動的に適応し、計画を洗練させることができる。これにより、インテリジェンスは予期せぬ状況により柔軟に対応することができる。
ベンチマーク結果:クロスプラットフォーム・パフォーマンス・リーダー
論文によると、次のようなデータが出ている。 Agent S2
広く使われている OSWorld
ベンチマークテストでは新記録を樹立した。 OSWorld
これは主に、シミュレートされたオペレーティングシステム環境において、ファイル管理、ソフトウェア使用、情報検索などの多様なタスクを完了するAIインテリジェンスの能力を評価するものである。
OSWorldベンチマーク成功率比較。
加えて Agent S2
また、他のプラットフォームでの汎用性も高い:
- ウィンドウズ・エージェント・アリーナ これは、ウィンドウズ環境での複雑なインタラクションタスクに焦点を当てたベンチマークである。
Agent S2
このテストでのパフォーマンスは、前回のベスト・オープン・リザルト(SOTA)と比較して52.8%向上した。 - アンドロイドワールド このベンチマークは、アンドロイド・モバイルOS上でタスクを完了する能力を測定する。
Agent S2
の性能も16.5%向上と、以前のSOTAの結果を上回っている。
OSWorldでの成功率は、エージェントS2が従来の方法を凌駕していることを示している。
WindowsAgentArenaでの成功率のパフォーマンス。
デザイン・イノベーション:MoGとPHPの相乗効果
現存する多くのコンピュータ・インテリジェンスが実際に直面している主な課題は、インターフェース要素の不正確な理解(すなわち「基盤接地」問題)や、プラン実行プロセスが過度に硬直化していることに起因している。 Agent S2
これらの問題は、2つのコア・デザインによって解決される:
- ミックスド・ベース・モデリング(MoG)。 MoGメカニズムは、現在のインタラクション要件に基づいて、タスクを最も適切なエキスパートモデルにインテリジェントにルーティングすることができる。例えば、スプレッドシートのセルを認識して操作する場合は、構造分析に基づくエキスパートを呼び出すかもしれないが、視覚的に特徴的なボタンをクリックする場合は、視覚的なベースモデルに切り替えるかもしれない。基本的なインタラクションの理解と高レベルのタスクプランニングを分離することで、複雑な問題を2つの比較的単純でモデルに適したサブ問題に分解することができる。
- アクティブ・プランニング(PHP)。 PHPモジュールは、環境における新たな観察に対応して、知能がサブゴールや行動計画を継続的に適応させることを可能にする。この適応は、タスクの実行中に状況が変化したときに計画を再評価し、修正するという人間の行動パターンを模倣している。
例:エージェントS2はインタラクションの中で自己修正し、ビジュアルベースモデルからテキストベースモデルに切り替える。
スケーラビリティとエラーリカバリ
より長いシーケンス操作の実行を必要とするタスクでは Agent S2
コンビナトリアルアーキテクチャは、モノリシックモデルよりも優れたスケーラビリティを示す。その動的適応能力と自己修正能力により、最初の行動が望ましい効果を得られなかった場合に戦略を調整することができ、複雑なタスクの完了率が向上する。モノリシックモデルは、累積エラーやプランニングの硬直性により、長い連続タスクで失敗しやすい傾向がある。
エージェントS2が長時間の時系列タスクでパフォーマンスを維持する理由:適応的ナビゲーション、インタラクション、エラー修正メカニズム。
デスクトップ環境を超えて:アンドロイド・プラットフォームでの一般化されたパフォーマンス
(躊躇なく Agent S2
の主な開発対象はデスクトップ環境のインテリジェンスだが、そのフレームワーク設計はモバイル環境にも優れた汎用性を示している。その中で AndroidWorld
ベンチマークテストでのトップクラスの性能は、MoGやPHPなどのコアコンセプトがさまざまなタイプのGUI環境に適用できることを証明している。
エージェントS2がAndroidWorldのスマートフォン利用ベンチマークで首位を獲得。
モジュラー・インテリジェンスの進歩
Agent S2
本研究の結果は、組合せ設計がアーキテクチャ上の選択であるだけでなく、コンピュータを人間のように頑健に操作できる知能を構築する効果的な方法である可能性を示唆している。この研究は、AIのプランニング、基本的なインタラクションの理解(グラウンディング)、マルチモーダル協調における今後の研究に新たな可能性を開くものである。