Allgemeine Einführung
UI-TARS Desktop ist eine grafische Interface-Agent-Anwendung, die auf dem von ByteDance entwickelten UI-TARS (Visual Language Model) basiert. UI-TARS Desktop unterstützt den plattformübergreifenden Betrieb, ist kompatibel mit Windows- und macOS-Systemen und bietet Echtzeit-Feedback und Statusanzeigefunktionen. Benutzer können Vorgänge wie Screenshots, visuelle Erkennung und präzise Maus- und Tastatursteuerung durch einfache Sprachbefehle ausführen, was den Komfort und die Intelligenz der Computerbedienung erheblich verbessert.
Funktionsliste
- Steuerung in natürlicher Sprache: Steuerung von Computeroperationen durch Sprachbefehle
- Screenshot und visuelle Erkennung: Unterstützt Screenshot- und Bilderkennungsfunktionen
- Präzise Maus- und Tastatursteuerung: Ermöglicht hochpräzise Maus- und Tastaturbedienung
- Plattformübergreifende Unterstützung: Windows und macOS kompatibel.
- Echtzeit-Feedback und Statusanzeige: Bietet Echtzeit-Feedback und Status-Updates zum Betrieb
Hilfe verwenden
Ablauf der Installation
MacOS
- Laden Sie die neueste Version der UI-TARS Desktop-App herunter.
- Ziehen Sie die Anwendung UI-TARS in den Ordner Anwendungen.
- Aktivieren Sie die UI-TARS-Berechtigungen in den macOS-Systemeinstellungen:
- Systemeinstellungen -> Datenschutz & Sicherheit -> Barrierefreiheit
- Systemeinstellungen -> Datenschutz & Sicherheit -> Bildschirmaufzeichnung
- Öffnen Sie die Anwendung UI-TARS, die im Terminal verwendet werden kann, wenn die Anwendung beschädigt ist
sudo xattr -dr com.apple.quarantine /Anwendungen/UI\ TARS.app
Die Lösung.
Windows (Computer)
- Laden Sie die neueste Version der UI-TARS Desktop-App herunter.
- Führen Sie die Anwendung aus und folgen Sie den Anweisungen, um die Installation abzuschließen.
Richtlinien für die Verwendung
- Nach dem Öffnen der UI-TARS-Anwendung sehen die Benutzer die Hauptschnittstelle.
- Auf der Hauptschnittstelle können die Nutzer verschiedene Vorgänge über Sprachbefehle ausführen, wie z. B. Wetterinformationen abrufen und Tweets versenden.
- Die Anwendung unterstützt Visual Language Models (VLMs), die von HuggingFace (in der Cloud) und Ollama (lokal) bereitgestellt werden, und es wird empfohlen, den HuggingFace Inferenz-Endpunkt für eine schnelle Bereitstellung zu verwenden.
- Benutzer können sich für die Modellbereitstellung auf die mitgelieferte GUI-Modellbereitstellungsanleitung beziehen.
Hauptfunktionen
natürliche Sprachsteuerung
- Tippen Sie in der Hauptschnittstelle auf das Mikrofonsymbol, um die Spracheingabe zu starten.
- Sagen Sie Befehle, wie z. B. "Öffnen Sie Ihren Browser und suchen Sie nach Wetter".
- Die Anwendung führt die entsprechende Operation gemäß der Anweisung aus und zeigt das Ergebnis auf der Schnittstelle an.
Screenshots und visuelle Erkennung
- Wählen Sie in der Hauptschnittstelle die Funktion "Screenshot".
- Wählen Sie mit der Maus den Bereich aus, von dem Sie ein Bildschirmfoto machen möchten.
- Die App erkennt automatisch den Inhalt des Screenshots und zeigt das Ergebnis an.
Präzise Maus- und Tastatursteuerung
- Wählen Sie in der Hauptschnittstelle die Funktion "Maussteuerung" oder "Tastatursteuerung".
- Verwenden Sie Sprachbefehle oder geben Sie manuell Befehle ein, um Mausbewegungen und Tastatureingaben zu steuern.
- Die Anwendung führt die entsprechenden Aktionen gemäß den Anweisungen aus und gibt ein Echtzeit-Feedback.