はじめに
TankWorkはオープンソースのデスクトップエージェントフレームワークで、コンピュータビジョンとシステムレベルのインタラクションを通じて、AIがコンピュータを認識し制御できるように設計されています。このフレームワークにより、エージェントは音声やテキストコマンドでコンピュータを直接制御し、リアルタイムのスクリーンコンテンツを処理し、継続的なオーディオビジュアルフィードバックやアクションログを提供することができます。TankWorkは、コンピュータインターフェイスを実際に理解、分析、対話できる自律型デスクトップエージェントの作成を支援する開発者や研究者に特に適しています。
機能一覧
- ダイレクト・コンピューター・コントロール音声およびテキストコマンドによる操作の実行
- コンピュータビジョン解析リアルタイム画面コンテンツ処理
- 音声対話イレブンラボの自然言語処理
- カスタマイズ可能なエージェントパーソナリティとスキルの設定
- リアルタイム・フィードバックオーディオビジュアルの更新と記録
ヘルプの使用
設置プロセス
- インストールの前提条件::
- Anacondaをインストールする(依存関係の管理に推奨)
- ターミナル/コマンドプロンプトへのアクセス
- クローン倉庫::
git clone https://github.com/AgentTankOS/tankwork.git
cd タンクワーク
- 依存関係のインストール::
pip install --upgrade pip setuptools wheel
pip install -r requirements.txt
- 設定環境::
- プロジェクトのルート・ディレクトリに
環境
ドキュメンテーション
cp .env.example .env
- APIキーと設定を
環境
ドキュメンテーション
GEMINI_API_KEY=your_api_key OPENAI_API_KEY=your_api_key ELEVENLABS_API_KEY=your_api_key ANTHROPIC_API_KEY=your_api_key ELEVENLABS_MODEL=eleven_flash_v2_5。 COMPUTER_USE_IMPLEMENTATION=タンク COMPUTER_USE_MODEL=claude-3-5-sonnet-20241022 COMPUTER_USE_MODEL_PROVIDER=anthropic NARRATIVE_LOGGER_NAME=ComputerUse.Tank NARRATIVE_MODEL=gpt-4o。 ナラティブ温度=0.6 NARRATIVE_MAX_TOKENS=250。 LOG_LEVEL=INFO
- プロジェクトのルート・ディレクトリに
- アプリケーションを起動する::
python main.py
使用プロセス
- PCコントロールモード::
- テキスト入力または音声コマンドによるコマンドベースのコンピュータ制御。
- 例えば、"open browser "と言ったり、"open browser "と入力してブラウザを起動させることができる。
- コンピュータビジョン解析::
- 画面上のコンテンツをリアルタイムで処理し、画面上の変化を認識して対応する。
- 例えば、特定の画像が画面に表示されたときに、エージェントは自動的にプリセットされたアクションを実行することができる。
- 音声対話::
- ElevenLabsの自然言語処理機能を使用して、音声でエージェントと対話します。
- 例えば、現在の天候について尋ねると、エージェントが音声で答えてくれる。
- カスタマイズ・エージェント::
- エージェントの個性やスキルを、特定のニーズに合わせて設定する。
- 例えば、毎日午前8時にメールクライアントを開くなど、特定の時間に特定のタスクを実行するようにエージェントを設定することができます。
- リアルタイム・フィードバック::
- エージェントは、ユーザーが現在の運転状況を理解できるように、音声と映像の両方でリアルタイムの最新情報と運転ログを提供する。
- 例えば、エージェントがコマンドを実行すると、その結果を音声でユーザーに知らせる。
この手順で、TankWorkを簡単にインストールして使用し、コンピュータを制御および管理するための強力な機能をフルに活用することができます。