UI-TARS Desktop : Application Intelligentsia de bureau pour contrôler les ordinateurs à l'aide du langage naturel
Introduction générale
UI-TARS Desktop est une application d'agent d'interface graphique basée sur UI-TARS (Visual Language Model) développée par ByteDance. L'application permet aux utilisateurs de contrôler les ordinateurs par le biais du langage naturel pour une interaction homme-machine plus intuitive et efficace. L'application permet aux utilisateurs de contrôler les ordinateurs par le biais du langage naturel pour une interaction homme-machine plus intuitive et plus efficace. UI-TARS Desktop prend en charge le fonctionnement multiplateforme, est compatible avec les systèmes Windows et macOS, et fournit un retour d'information en temps réel et des fonctions d'affichage de l'état. Les utilisateurs peuvent effectuer des opérations telles que des captures d'écran, la reconnaissance visuelle et le contrôle précis de la souris et du clavier par le biais de simples commandes vocales, ce qui améliore considérablement la commodité et l'intelligence des opérations informatiques.

Liste des fonctions
- Contrôle en langage naturel : contrôle des opérations informatiques par le biais de commandes vocales.
- Capture d'écran et reconnaissance visuelle : prend en charge les fonctions de capture d'écran et de reconnaissance d'image
- Contrôle précis de la souris et du clavier : permet d'utiliser la souris et le clavier avec une grande précision.
- Prise en charge multiplateforme : compatible avec Windows et macOS.
- Retour d'information en temps réel et affichage de l'état : fournit un retour d'information en temps réel et des mises à jour de l'état des opérations.
Utiliser l'aide
Processus d'installation
MacOS
- Télécharger la dernière version de l'application UI-TARS Desktop.
- Faites glisser l'application UI-TARS dans le dossier Applications.
- Activer les autorisations UI-TARS dans les paramètres système de macOS :
- Paramètres du système -> Confidentialité et sécurité -> Accessibilité
- Paramètres du système -> Confidentialité et sécurité -> Enregistrement d'écran
- Ouvrir l'application UI-TARS, qui peut être utilisée dans le terminal si l'application est endommagée.
sudo xattr -dr com.apple.quarantine /Applications/UI\ TARS.app
La solution.
Windows (ordinateur)
- Télécharger la dernière version de l'application UI-TARS Desktop.
- Exécutez l'application et suivez les instructions pour terminer l'installation.
Lignes directrices pour l'utilisation
- Après avoir ouvert l'application UI-TARS, les utilisateurs peuvent voir l'interface principale.
- Dans l'interface principale, les utilisateurs peuvent effectuer diverses opérations par le biais de commandes vocales, telles que l'obtention d'informations météorologiques et l'envoi de tweets.
- L'application prend en charge les modèles de langage visuel (VLM) déployés par HuggingFace (dans le nuage) et Ollama (localement), et il est recommandé d'utiliser le point de terminaison d'inférence de HuggingFace pour un déploiement rapide.
- Les utilisateurs peuvent se référer au guide de déploiement du modèle GUI fourni pour le déploiement du modèle.
Principales fonctions
contrôle du langage naturel
- Dans l'interface principale, appuyez sur l'icône du microphone pour lancer la saisie vocale.
- Dites des commandes, telles que "Ouvrez votre navigateur et cherchez la météo".
- L'application effectuera l'opération correspondante selon l'instruction et affichera le résultat sur l'interface.
Captures d'écran et reconnaissance visuelle
- Dans l'interface principale, sélectionnez la fonction "Capture d'écran".
- Utilisez la souris pour sélectionner la zone dont vous voulez faire une capture d'écran.
- L'application reconnaîtra automatiquement le contenu de la capture d'écran et affichera le résultat.
Contrôle précis de la souris et du clavier
- Dans l'interface principale, sélectionnez la fonction "Contrôle de la souris" ou "Contrôle du clavier".
- Utilisez des commandes vocales ou saisissez manuellement des commandes pour contrôler les mouvements de la souris et la saisie au clavier.
- L'application effectuera les actions appropriées en fonction des instructions et fournira un retour d'information en temps réel.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...