AIパーソナル・ラーニング
と実践的なガイダンス

タンクワーク:音声とテキストでコンピュータを操作し、リアルタイムの音声フィードバックを提供する知的ボディ

はじめに

TankWorkはオープンソースのデスクトップエージェントフレームワークで、コンピュータビジョンとシステムレベルのインタラクションを通じて、AIがコンピュータを認識し制御できるように設計されています。このフレームワークにより、エージェントは音声やテキストコマンドでコンピュータを直接制御し、リアルタイムのスクリーンコンテンツを処理し、継続的なオーディオビジュアルフィードバックやアクションログを提供することができます。TankWorkは、コンピュータインターフェイスを実際に理解、分析、対話できる自律型デスクトップエージェントの作成を支援する開発者や研究者に特に適しています。

タンクワーク:音声とテキストでコンピュータを操作し、リアルタイムの音声フィードバックを提供する知的ボディ-1


 

機能一覧

  • ダイレクト・コンピューター・コントロール音声およびテキストコマンドによる操作の実行
  • コンピュータビジョン解析リアルタイム画面コンテンツ処理
  • 音声対話イレブンラボの自然言語処理
  • カスタマイズ可能なエージェントパーソナリティとスキルの設定
  • リアルタイム・フィードバックオーディオビジュアルの更新と記録

 

ヘルプの使用

設置プロセス

  1. インストールの前提条件::
    • Anacondaをインストールする(依存関係の管理に推奨)
    • ターミナル/コマンドプロンプトへのアクセス
  2. クローン倉庫::
   git clone https://github.com/AgentTankOS/tankwork.git
cd タンクワーク
  1. 依存関係のインストール::
   pip install --upgrade pip setuptools wheel
pip install -r requirements.txt
  1. 設定環境::
    • プロジェクトのルート・ディレクトリに環境ドキュメンテーション
     cp .env.example .env
    
    • APIキーと設定を環境ドキュメンテーション
     GEMINI_API_KEY=your_api_key
    OPENAI_API_KEY=your_api_key
    ELEVENLABS_API_KEY=your_api_key
    ANTHROPIC_API_KEY=your_api_key
    ELEVENLABS_MODEL=eleven_flash_v2_5。
    COMPUTER_USE_IMPLEMENTATION=タンク
    COMPUTER_USE_MODEL=claude-3-5-sonnet-20241022
    COMPUTER_USE_MODEL_PROVIDER=anthropic
    NARRATIVE_LOGGER_NAME=ComputerUse.Tank
    NARRATIVE_MODEL=gpt-4o。
    ナラティブ温度=0.6
    NARRATIVE_MAX_TOKENS=250。
    LOG_LEVEL=INFO
    
  2. アプリケーションを起動する::
   python main.py

使用プロセス

  1. PCコントロールモード::
    • テキスト入力または音声コマンドによるコマンドベースのコンピュータ制御。
    • 例えば、"open browser "と言ったり、"open browser "と入力してブラウザを起動させることができる。
  2. コンピュータビジョン解析::
    • 画面上のコンテンツをリアルタイムで処理し、画面上の変化を認識して対応する。
    • 例えば、特定の画像が画面に表示されたときに、エージェントは自動的にプリセットされたアクションを実行することができる。
  3. 音声対話::
    • ElevenLabsの自然言語処理機能を使用して、音声でエージェントと対話します。
    • 例えば、現在の天候について尋ねると、エージェントが音声で答えてくれる。
  4. カスタマイズ・エージェント::
    • エージェントの個性やスキルを、特定のニーズに合わせて設定する。
    • 例えば、毎日午前8時にメールクライアントを開くなど、特定の時間に特定のタスクを実行するようにエージェントを設定することができます。
  5. リアルタイム・フィードバック::
    • エージェントは、ユーザーが現在の運転状況を理解できるように、音声と映像の両方でリアルタイムの最新情報と運転ログを提供する。
    • 例えば、エージェントがコマンドを実行すると、その結果を音声でユーザーに知らせる。

この手順で、TankWorkを簡単にインストールして使用し、コンピュータを制御および管理するための強力な機能をフルに活用することができます。

無断転載を禁じます:チーフAIシェアリングサークル " タンクワーク:音声とテキストでコンピュータを操作し、リアルタイムの音声フィードバックを提供する知的ボディ

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語