AI Personal Learning
und praktische Anleitung
讯飞绘镜

TankWork: ein intelligenter Körper, der Computer über Sprache und Text steuert und Sprachfeedback in Echtzeit liefert

Allgemeine Einführung

TankWork ist ein Open-Source-Desktop-Agenten-Framework, das entwickelt wurde, um KI in die Lage zu versetzen, Ihren Computer durch Computer Vision und Interaktion auf Systemebene wahrzunehmen und zu steuern. Das Framework ermöglicht Agenten die direkte Steuerung von Computern durch Sprach- und Textbefehle, die Verarbeitung von Bildschirminhalten in Echtzeit und die Bereitstellung von kontinuierlichem audiovisuellem Feedback und Aktionsprotokollen. TankWork eignet sich besonders gut für Entwickler und Forscher, um ihnen bei der Erstellung autonomer Desktop-Agenten zu helfen, die Computerschnittstellen tatsächlich verstehen, analysieren und mit ihnen interagieren können.

TankWork:通过语音和文本操作电脑,并提供实时语音反馈的智能体-1


 

Funktionsliste

  • Direkte ComputersteuerungAusführen von Operationen über Sprach- und Textbefehle
  • Computer-Vision-AnalyseEchtzeit-Verarbeitung von Bildschirminhalten
  • SprachinteraktionNatürliche Sprachverarbeitung mit ElevenLabs
  • Anpassbare AgentenPersönlichkeiten und Fähigkeiten konfigurieren
  • Feedback in EchtzeitAudiovisuelle Updates und Protokollierung

 

Hilfe verwenden

Einbauverfahren

  1. Voraussetzungen für die Installation::
    • Installieren Sie Anaconda (empfohlen für die Verwaltung von Abhängigkeiten)
    • Zugriff auf ein Terminal/Befehlseingabefeld
  2. Klon-Lager::
   git clone https://github.com/AgentTankOS/tankwork.git
cd tankwork
  1. Installation von Abhängigkeiten::
   pip install --upgrade pip setuptools wheel
pip install -r requirements.txt
  1. Konfiguration der Umgebung::
    • Erstellen Sie im Stammverzeichnis des Projekts die Datei.envDokumentation:
     cp .env.example .env
    
    • Fügen Sie den API-Schlüssel und die Einstellungen zum.envDokumentation:
     GEMINI_API_KEY=your_api_key
    OPENAI_API_KEY=your_api_key
    ELEVENLABS_API_KEY=your_api_key
    ANTHROPIC_API_KEY=your_api_key
    ELEVENLABS_MODEL=eleven_flash_v2_5
    COMPUTER_USE_IMPLEMENTATION=tank
    COMPUTER_USE_MODEL=claude-3-5-sonnet-20241022
    COMPUTER_USE_MODEL_PROVIDER=anthropic
    NARRATIVE_LOGGER_NAME=ComputerUse.Tank
    NARRATIVE_MODEL=gpt-4o
    NARRATIVE_TEMPERATURE=0.6
    NARRATIVE_MAX_TOKENS=250
    LOG_LEVEL=INFO
    
  2. eine Anwendung starten::
   python main.py

Verwendungsprozess

  1. PC-Steuerungsmodus::
    • Befehlsbasierte Computersteuerung über Texteingabe oder Sprachbefehle.
    • Sie können zum Beispiel "Browser öffnen" sagen oder "Browser öffnen" eintippen, um den Browser zu starten.
  2. Computer-Vision-Analyse::
    • Verarbeitet Bildschirminhalte in Echtzeit und erkennt und reagiert auf Veränderungen auf dem Bildschirm.
    • So kann der Agent beispielsweise automatisch eine voreingestellte Aktion ausführen, wenn ein bestimmtes Bild auf dem Bildschirm erscheint.
  3. Sprachinteraktion::
    • Nutzen Sie die natürlichen Sprachverarbeitungsfunktionen von ElevenLabs, um mit Agenten per Sprache zu interagieren.
    • Sie können den Agenten z. B. nach dem aktuellen Wetter fragen, und der Agent antwortet Ihnen per Sprachausgabe.
  4. Kundenspezifische Agenten::
    • Konfigurieren Sie die Persönlichkeit und die Fähigkeiten des Agenten, um spezifische Anforderungen zu erfüllen.
    • Sie können zum Beispiel einen Agenten so einstellen, dass er eine bestimmte Aufgabe zu einer bestimmten Zeit ausführt, z. B. das Öffnen eines E-Mail-Clients jeden Tag um 8 Uhr morgens.
  5. Feedback in Echtzeit::
    • Der Agent liefert Echtzeit-Updates und Betriebsprotokolle in Bild und Ton, damit der Benutzer den aktuellen Betriebsstatus nachvollziehen kann.
    • Wenn der Agent zum Beispiel einen Befehl ausführt, informiert er den Benutzer per Sprache über das Ergebnis der Operation.

Mit diesen Schritten können Sie TankWork ganz einfach installieren und verwenden, um alle Vorteile seiner leistungsstarken Funktionen zur Steuerung und Verwaltung Ihres Computers zu nutzen.

Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " TankWork: ein intelligenter Körper, der Computer über Sprache und Text steuert und Sprachfeedback in Echtzeit liefert
de_DEDeutsch