UI-TARS Desktop : Application Intelligentsia de bureau pour contrôler les ordinateurs à l'aide du langage naturel

Introduction générale

UI-TARS Desktop est une application d'agent d'interface graphique basée sur UI-TARS (Visual Language Model) développée par ByteDance. L'application permet aux utilisateurs de contrôler les ordinateurs par le biais du langage naturel pour une interaction homme-machine plus intuitive et efficace. L'application permet aux utilisateurs de contrôler les ordinateurs par le biais du langage naturel pour une interaction homme-machine plus intuitive et plus efficace. UI-TARS Desktop prend en charge le fonctionnement multiplateforme, est compatible avec les systèmes Windows et macOS, et fournit un retour d'information en temps réel et des fonctions d'affichage de l'état. Les utilisateurs peuvent effectuer des opérations telles que des captures d'écran, la reconnaissance visuelle et le contrôle précis de la souris et du clavier par le biais de simples commandes vocales, ce qui améliore considérablement la commodité et l'intelligence des opérations informatiques.

UI-TARS Desktop:使用自然语言控制电脑的桌面智能体应用

 

Liste des fonctions

  • Contrôle en langage naturel : contrôle des opérations informatiques par le biais de commandes vocales.
  • Capture d'écran et reconnaissance visuelle : prend en charge les fonctions de capture d'écran et de reconnaissance d'image
  • Contrôle précis de la souris et du clavier : permet d'utiliser la souris et le clavier avec une grande précision.
  • Prise en charge multiplateforme : compatible avec Windows et macOS.
  • Retour d'information en temps réel et affichage de l'état : fournit un retour d'information en temps réel et des mises à jour de l'état des opérations.

 

Utiliser l'aide

Processus d'installation

MacOS

  1. Télécharger la dernière version de l'application UI-TARS Desktop.
  2. Faites glisser l'application UI-TARS dans le dossier Applications.
  3. Activer les autorisations UI-TARS dans les paramètres système de macOS :
    • Paramètres du système -> Confidentialité et sécurité -> Accessibilité
    • Paramètres du système -> Confidentialité et sécurité -> Enregistrement d'écran
  4. Ouvrir l'application UI-TARS, qui peut être utilisée dans le terminal si l'application est endommagée. sudo xattr -dr com.apple.quarantine /Applications/UI\ TARS.app La solution.

Windows (ordinateur)

  1. Télécharger la dernière version de l'application UI-TARS Desktop.
  2. Exécutez l'application et suivez les instructions pour terminer l'installation.

Lignes directrices pour l'utilisation

  1. Après avoir ouvert l'application UI-TARS, les utilisateurs peuvent voir l'interface principale.
  2. Dans l'interface principale, les utilisateurs peuvent effectuer diverses opérations par le biais de commandes vocales, telles que l'obtention d'informations météorologiques et l'envoi de tweets.
  3. L'application prend en charge les modèles de langage visuel (VLM) déployés par HuggingFace (dans le nuage) et Ollama (localement), et il est recommandé d'utiliser le point de terminaison d'inférence de HuggingFace pour un déploiement rapide.
  4. Les utilisateurs peuvent se référer au guide de déploiement du modèle GUI fourni pour le déploiement du modèle.

Principales fonctions

contrôle du langage naturel

  1. Dans l'interface principale, appuyez sur l'icône du microphone pour lancer la saisie vocale.
  2. Dites des commandes, telles que "Ouvrez votre navigateur et cherchez la météo".
  3. L'application effectuera l'opération correspondante selon l'instruction et affichera le résultat sur l'interface.

Captures d'écran et reconnaissance visuelle

  1. Dans l'interface principale, sélectionnez la fonction "Capture d'écran".
  2. Utilisez la souris pour sélectionner la zone dont vous voulez faire une capture d'écran.
  3. L'application reconnaîtra automatiquement le contenu de la capture d'écran et affichera le résultat.

Contrôle précis de la souris et du clavier

  1. Dans l'interface principale, sélectionnez la fonction "Contrôle de la souris" ou "Contrôle du clavier".
  2. Utilisez des commandes vocales ou saisissez manuellement des commandes pour contrôler les mouvements de la souris et la saisie au clavier.
  3. L'application effectuera les actions appropriées en fonction des instructions et fournira un retour d'information en temps réel.
© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...