Allgemeine Einführung
TankWork ist ein Open-Source-Desktop-Agenten-Framework, das entwickelt wurde, um KI in die Lage zu versetzen, Ihren Computer durch Computer Vision und Interaktion auf Systemebene wahrzunehmen und zu steuern. Das Framework ermöglicht Agenten die direkte Steuerung von Computern durch Sprach- und Textbefehle, die Verarbeitung von Bildschirminhalten in Echtzeit und die Bereitstellung von kontinuierlichem audiovisuellem Feedback und Aktionsprotokollen. TankWork eignet sich besonders gut für Entwickler und Forscher, um ihnen bei der Erstellung autonomer Desktop-Agenten zu helfen, die Computerschnittstellen tatsächlich verstehen, analysieren und mit ihnen interagieren können.
Funktionsliste
- direkte ComputersteuerungAusführen von Operationen über Sprach- und Textbefehle
- Computer-Vision-AnalyseEchtzeit-Verarbeitung von Bildschirminhalten
- Sprach-InteraktionNatürliche Sprachverarbeitung mit ElevenLabs
- Anpassbare AgentenPersönlichkeiten und Fähigkeiten konfigurieren
- Feedback in EchtzeitAudiovisuelle Updates und Protokollierung
Hilfe verwenden
Ablauf der Installation
- Voraussetzungen für die Installation::
- Installieren Sie Anaconda (empfohlen für die Verwaltung von Abhängigkeiten)
- Zugriff auf ein Terminal/Befehlseingabefeld
- Klon-Lager::
git clone https://github.com/AgentTankOS/tankwork.git
cd tankwork
- Installation von Abhängigkeiten::
pip install --upgrade pip setuptools wheel
pip install -r anforderungen.txt
- Konfiguration der Umgebung::
- Erstellen Sie im Stammverzeichnis des Projekts die Datei
.env
Dokumentation:
cp .env.example .env
- Fügen Sie den API-Schlüssel und die Einstellungen zu der
.env
Dokumentation:
GEMINI_API_KEY=Ihr_api_key OPENAI_API_KEY=Ihr_api_schlüssel ELEVENLABS_API_KEY=Ihr_api_schlüssel ANTHROPIC_API_KEY=Ihr_api_schlüssel ELEVENLABS_MODELL=eleven_flash_v2_5 COMPUTER_USE_IMPLEMENTATION=Tank COMPUTER_USE_MODEL=claude-3-5-sonnet-20241022 COMPUTER_USE_MODEL_PROVIDER=anthropisch NARRATIVE_LOGGER_NAME=ComputerNutzung.Tank NARRATIVE_MODEL=gpt-4o ERZÄHLERISCHE_TEMPERATUR=0.6 NARRATIV_MAX_TOKENS=250 LOG_LEVEL=INFO
- Erstellen Sie im Stammverzeichnis des Projekts die Datei
- eine Anwendung starten::
python main.py
Verwendung Prozess
- PC-Steuerungsmodus::
- Befehlsbasierte Computersteuerung über Texteingabe oder Sprachbefehle.
- Sie können zum Beispiel "Browser öffnen" sagen oder "Browser öffnen" eintippen, um den Browser zu starten.
- Computer-Vision-Analyse::
- Verarbeitet Bildschirminhalte in Echtzeit und erkennt und reagiert auf Veränderungen auf dem Bildschirm.
- So kann der Agent beispielsweise automatisch eine voreingestellte Aktion ausführen, wenn ein bestimmtes Bild auf dem Bildschirm erscheint.
- Sprach-Interaktion::
- Nutzen Sie die natürlichen Sprachverarbeitungsfunktionen von ElevenLabs, um mit Agenten per Sprache zu interagieren.
- Sie können den Agenten z. B. nach dem aktuellen Wetter fragen, und der Agent antwortet Ihnen per Sprachausgabe.
- Kundenspezifische Agenten::
- Konfigurieren Sie die Persönlichkeit und die Fähigkeiten des Agenten, um spezifische Anforderungen zu erfüllen.
- Sie können den Agenten z. B. so einstellen, dass er eine bestimmte Aufgabe zu einer bestimmten Zeit ausführt, z. B. das Öffnen des E-Mail-Clients jeden Tag um 8.00 Uhr.
- Feedback in Echtzeit::
- Der Agent liefert Echtzeit-Updates und Betriebsprotokolle in Bild und Ton, damit der Benutzer den aktuellen Betriebsstatus nachvollziehen kann.
- Wenn der Agent zum Beispiel einen Befehl ausführt, informiert er den Benutzer per Sprache über das Ergebnis der Operation.
Mit diesen Schritten können Sie TankWork ganz einfach installieren und verwenden, um alle Vorteile seiner leistungsstarken Funktionen zur Steuerung und Verwaltung Ihres Computers zu nutzen.