AI Personal Learning
und praktische Anleitung

TankWork: ein intelligenter Körper, der Computer über Sprache und Text steuert und Sprachfeedback in Echtzeit liefert

Allgemeine Einführung

TankWork ist ein Open-Source-Desktop-Agenten-Framework, das entwickelt wurde, um KI in die Lage zu versetzen, Ihren Computer durch Computer Vision und Interaktion auf Systemebene wahrzunehmen und zu steuern. Das Framework ermöglicht Agenten die direkte Steuerung von Computern durch Sprach- und Textbefehle, die Verarbeitung von Bildschirminhalten in Echtzeit und die Bereitstellung von kontinuierlichem audiovisuellem Feedback und Aktionsprotokollen. TankWork eignet sich besonders gut für Entwickler und Forscher, um ihnen bei der Erstellung autonomer Desktop-Agenten zu helfen, die Computerschnittstellen tatsächlich verstehen, analysieren und mit ihnen interagieren können.

TankWork: ein intelligenter Körper, der einen Computer über Sprache und Text steuert und Sprachfeedback in Echtzeit liefert-1


 

Funktionsliste

  • direkte ComputersteuerungAusführen von Operationen über Sprach- und Textbefehle
  • Computer-Vision-AnalyseEchtzeit-Verarbeitung von Bildschirminhalten
  • Sprach-InteraktionNatürliche Sprachverarbeitung mit ElevenLabs
  • Anpassbare AgentenPersönlichkeiten und Fähigkeiten konfigurieren
  • Feedback in EchtzeitAudiovisuelle Updates und Protokollierung

 

Hilfe verwenden

Ablauf der Installation

  1. Voraussetzungen für die Installation::
    • Installieren Sie Anaconda (empfohlen für die Verwaltung von Abhängigkeiten)
    • Zugriff auf ein Terminal/Befehlseingabefeld
  2. Klon-Lager::
   git clone https://github.com/AgentTankOS/tankwork.git
cd tankwork
  1. Installation von Abhängigkeiten::
   pip install --upgrade pip setuptools wheel
pip install -r anforderungen.txt
  1. Konfiguration der Umgebung::
    • Erstellen Sie im Stammverzeichnis des Projekts die Datei.envDokumentation:
     cp .env.example .env
    
    • Fügen Sie den API-Schlüssel und die Einstellungen zu der.envDokumentation:
     GEMINI_API_KEY=Ihr_api_key
    OPENAI_API_KEY=Ihr_api_schlüssel
    ELEVENLABS_API_KEY=Ihr_api_schlüssel
    ANTHROPIC_API_KEY=Ihr_api_schlüssel
    ELEVENLABS_MODELL=eleven_flash_v2_5
    COMPUTER_USE_IMPLEMENTATION=Tank
    COMPUTER_USE_MODEL=claude-3-5-sonnet-20241022
    COMPUTER_USE_MODEL_PROVIDER=anthropisch
    NARRATIVE_LOGGER_NAME=ComputerNutzung.Tank
    NARRATIVE_MODEL=gpt-4o
    ERZÄHLERISCHE_TEMPERATUR=0.6
    NARRATIV_MAX_TOKENS=250
    LOG_LEVEL=INFO
    
  2. eine Anwendung starten::
   python main.py

Verwendung Prozess

  1. PC-Steuerungsmodus::
    • Befehlsbasierte Computersteuerung über Texteingabe oder Sprachbefehle.
    • Sie können zum Beispiel "Browser öffnen" sagen oder "Browser öffnen" eintippen, um den Browser zu starten.
  2. Computer-Vision-Analyse::
    • Verarbeitet Bildschirminhalte in Echtzeit und erkennt und reagiert auf Veränderungen auf dem Bildschirm.
    • So kann der Agent beispielsweise automatisch eine voreingestellte Aktion ausführen, wenn ein bestimmtes Bild auf dem Bildschirm erscheint.
  3. Sprach-Interaktion::
    • Nutzen Sie die natürlichen Sprachverarbeitungsfunktionen von ElevenLabs, um mit Agenten per Sprache zu interagieren.
    • Sie können den Agenten z. B. nach dem aktuellen Wetter fragen, und der Agent antwortet Ihnen per Sprachausgabe.
  4. Kundenspezifische Agenten::
    • Konfigurieren Sie die Persönlichkeit und die Fähigkeiten des Agenten, um spezifische Anforderungen zu erfüllen.
    • Sie können den Agenten z. B. so einstellen, dass er eine bestimmte Aufgabe zu einer bestimmten Zeit ausführt, z. B. das Öffnen des E-Mail-Clients jeden Tag um 8.00 Uhr.
  5. Feedback in Echtzeit::
    • Der Agent liefert Echtzeit-Updates und Betriebsprotokolle in Bild und Ton, damit der Benutzer den aktuellen Betriebsstatus nachvollziehen kann.
    • Wenn der Agent zum Beispiel einen Befehl ausführt, informiert er den Benutzer per Sprache über das Ergebnis der Operation.

Mit diesen Schritten können Sie TankWork ganz einfach installieren und verwenden, um alle Vorteile seiner leistungsstarken Funktionen zur Steuerung und Verwaltung Ihres Computers zu nutzen.

Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " TankWork: ein intelligenter Körper, der Computer über Sprache und Text steuert und Sprachfeedback in Echtzeit liefert

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)