UI-TARS Desktop: Desktop Intelligentsia Anwendung zur Steuerung von Computern mit natürlicher Sprache

Neueste AI-RessourcenGeschrieben vor 7 Monaten AI-Austauschkreis

2.3K 00

Allgemeine Einführung

UI-TARS Desktop ist eine grafische Interface-Agent-Anwendung, die auf dem von ByteDance entwickelten UI-TARS (Visual Language Model) basiert. UI-TARS Desktop unterstützt den plattformübergreifenden Betrieb, ist kompatibel mit Windows- und macOS-Systemen und bietet Echtzeit-Feedback und Statusanzeigefunktionen. Benutzer können Vorgänge wie Screenshots, visuelle Erkennung und präzise Maus- und Tastatursteuerung durch einfache Sprachbefehle ausführen, was den Komfort und die Intelligenz der Computerbedienung erheblich verbessert.

Funktionsliste

Steuerung in natürlicher Sprache: Steuerung von Computeroperationen durch Sprachbefehle
Screenshot und visuelle Erkennung: Unterstützt Screenshot- und Bilderkennungsfunktionen
Präzise Maus- und Tastatursteuerung: Ermöglicht hochpräzise Maus- und Tastaturbedienung
Plattformübergreifende Unterstützung: Windows und macOS kompatibel.
Echtzeit-Feedback und Statusanzeige: Bietet Echtzeit-Feedback und Status-Updates zum Betrieb

Hilfe verwenden

Einbauverfahren

MacOS

Laden Sie die neueste Version der UI-TARS Desktop-App herunter.
Ziehen Sie die Anwendung UI-TARS in den Ordner Anwendungen.
Aktivieren Sie die UI-TARS-Berechtigungen in den macOS-Systemeinstellungen:
- Systemeinstellungen -> Datenschutz & Sicherheit -> Barrierefreiheit
- Systemeinstellungen -> Datenschutz & Sicherheit -> Bildschirmaufzeichnung
Öffnen Sie die Anwendung UI-TARS, die im Terminal verwendet werden kann, wenn die Anwendung beschädigt ist sudo xattr -dr com.apple.quarantine /Applications/UI\ TARS.app Die Lösung.

Windows (Computer)

Laden Sie die neueste Version der UI-TARS Desktop-App herunter.
Führen Sie die Anwendung aus und folgen Sie den Anweisungen, um die Installation abzuschließen.

Leitlinien für die Verwendung

Nach dem Öffnen der UI-TARS-Anwendung sehen die Benutzer die Hauptschnittstelle.
Auf der Hauptschnittstelle können die Nutzer verschiedene Vorgänge per Sprachbefehl ausführen, z. B. Wetterinformationen abrufen und Tweets versenden.
Die Anwendung unterstützt Visual Language Models (VLMs), die von HuggingFace (in der Cloud) und Ollama (lokal) bereitgestellt werden, und es wird empfohlen, den HuggingFace Inferenz-Endpunkt für eine schnelle Bereitstellung zu verwenden.
Benutzer können sich für die Modellbereitstellung auf die mitgelieferte GUI-Modellbereitstellungsanleitung beziehen.

Hauptfunktionen

natürliche Sprachsteuerung

Tippen Sie in der Hauptschnittstelle auf das Mikrofonsymbol, um die Spracheingabe zu starten.
Sagen Sie Befehle, wie z. B. "Öffnen Sie Ihren Browser und suchen Sie nach Wetter".
Die Anwendung führt die entsprechende Operation gemäß der Anweisung aus und zeigt das Ergebnis auf der Schnittstelle an.

Screenshots und visuelle Erkennung

Wählen Sie in der Hauptschnittstelle die Funktion "Screenshot".
Wählen Sie mit der Maus den Bereich aus, von dem Sie ein Bildschirmfoto machen möchten.
Die App erkennt automatisch den Inhalt des Screenshots und zeigt das Ergebnis an.

Präzise Maus- und Tastatursteuerung

Wählen Sie in der Hauptschnittstelle die Funktion "Maussteuerung" oder "Tastatursteuerung".
Verwenden Sie Sprachbefehle oder geben Sie manuell Befehle ein, um Mausbewegungen und Tastatureingaben zu steuern.
Die Anwendung führt die entsprechenden Aktionen gemäß den Anweisungen aus und gibt ein Echtzeit-Feedback.