Agent TARS : une source ouverte de renseignements qui utilise la vision et les commandes pour faire fonctionner les ordinateurs.

Introduction générale

L'agent TARS est une intelligence artificielle multimodale mise à disposition par ByteDance, dont les principales caractéristiques aident les utilisateurs à accomplir des tâches informatiques complexes en comprenant visuellement le contenu du web et en combinant les opérations de la ligne de commande et du système de fichiers. Au lieu de nécessiter une intervention manuelle comme les outils traditionnels, il peut automatiser les tâches du navigateur, éditer des fichiers ou exécuter des commandes. Le site web propose des téléchargements d'applications de bureau et de la documentation technique pour les développeurs ou les utilisateurs qui ont besoin d'automatiser leur flux de travail. Il est actuellement en phase de prévisualisation technique et prend principalement en charge macOS. Agent TARS vise à rendre les opérations informatiques plus intelligentes et plus efficaces. Le projet est basé sur Bureau UI-TARS Enveloppe du navigateur, analyse comparative Manus .

Agent TARS:使用视觉和命令操作电脑的开源智能体

 

Liste des fonctions

  • Automatisation du navigateur: Automatiser la recherche, le clic, le remplissage de formulaires, etc. en reconnaissant visuellement les éléments d'une page web.
  • Intégration de la ligne de commandeLe système de gestion des commandes : Il permet d'exécuter directement les commandes du système afin d'exécuter des scripts ou de gérer les tâches d'arrière-plan.
  • fonctionnement du système de fichiersLes logiciels de gestion de l'information sont des outils qui permettent de lire, d'éditer ou de générer des fichiers, de traiter des données ou de sauvegarder des résultats.
  • Planification et mise en œuvre de la missionLes tâches complexes sont décomposées et leur exécution est automatisée étape par étape pour faciliter les recherches approfondies ou les travaux répétitifs.
  • interaction multimodaleLes logiciels d'aide à la décision : Combiner la saisie d'images, de textes et de codes pour s'adapter à différents types de tâches.
  • Extension de l'outilLe système d'information de la Commission européenne : Intégrer la recherche, l'édition de documents et le protocole de contexte de modèle (MCP) afin d'améliorer la flexibilité fonctionnelle.
  • Soutien aux applications de bureauLe système de gestion de l'information de l'Union européenne (UE) : il fournit une interface pour montrer le processus d'opération, ce qui est pratique pour les utilisateurs de visualiser et d'ajuster en temps réel.

 

Utiliser l'aide

L'utilisation de l'Agent TARS se divise en deux parties : l'installation et le fonctionnement. Vous trouverez ci-dessous les étapes détaillées qui vous permettront de démarrer rapidement.

Processus d'installation

  1. Télécharger l'application de bureau
    Ouvrez le site officiel https://agent-tars.com/ et cliquez sur le bouton "Download" pour accéder à la page de publication GitHub (https://github.com/bytedance/UI-TARS-desktop/). releases). Sélectionnez la dernière version (par exemple AgentTARS-macOS-latest.dmg). La taille du fichier est d'environ plusieurs dizaines de Mo, et le téléchargement prend de 1 à 5 minutes en fonction de la vitesse du réseau.
  2. Installation sur macOS
    Une fois le téléchargement terminé, double-cliquez sur .dmg une fenêtre d'installation s'ouvre. Faites glisser l'icône de l'Agent TARS vers le dossier Applications. Le processus d'installation ne prendra que quelques secondes. Une fois l'installation terminée, recherchez Agent TARS dans Applications et cliquez sur Ouvrir.
  3. Mise en place des autorisations
    La première fois que vous démarrez macOS, vous êtes invité à autoriser l'accès à l'accessibilité. Cliquez sur "Paramètres du système > Confidentialité et sécurité > Accessibilité", recherchez l'agent TARS et activez-le. Cela lui permet de contrôler l'écran et le clavier.
  4. Modèles de configuration et API
    Après avoir ouvert l'application, cliquez sur le bouton Settings dans le coin inférieur gauche pour accéder à la page de configuration. Vous devez définir le fournisseur de modèle (par exemple Azure OpenAI) et la clé API. Étapes spécifiques :

    • Sélectionnez le fournisseur dans la configuration du modèle.
    • Saisissez votre clé API (obtenue auprès de votre fournisseur).
    • Si vous utilisez Azure, vous devrez également remplir le champ apiVersion,deploymentName répondre en chantant endpoint.
      Après l'enregistrement, l'application se connecte automatiquement au modèle.
  5. Configuration optionnelle de la recherche
    Si vous avez besoin de la fonction de recherche web, allez dans "Search Config", sélectionnez le fournisseur de recherche et entrez la clé API. Sauvegardez lorsque vous avez terminé.

flux de travail

Une fois installé, l'agent TARS présente une interface principale simple avec des champs de saisie et des zones d'affichage des actions. L'utilisation des principales fonctions est décrite ci-dessous.

Automatisation du navigateur

  • déplacerL'agent TARS peut alors effectuer une recherche dans le champ de saisie, par exemple : "Rechercher les dernières nouvelles en matière d'intelligence artificielle et enregistrer les titres de l'actualité". Appuyez sur la touche "Entrée" et l'agent TARS ouvrira le navigateur intégré pour rechercher et extraire automatiquement les titres.
  • démontrerLa fenêtre de droite affiche les actions du navigateur en temps réel, telles que l'ouverture et le défilement des pages web.
  • en fin de compteUne fois l'opération terminée, le titre est enregistré dans un fichier texte dont le chemin d'accès est affiché au bas de l'interface.

Intégration de la ligne de commande

  • déplacerPour cela, il faut entrer une commande telle que "List files in current folder" (sous macOS, il s'agit de "List files in current folder"). ls -l Les commandes équivalentes pour le dir). Appuyez sur la touche Entrée et l'agent TARS appelle le terminal pour l'exécuter.
  • démontrerLa sortie de la commande apparaît en bas de l'interface pour faciliter la visualisation.
  • Utilisation avancéeLe logiciel de gestion de la mémoire et de l'enregistrement : Vous pouvez saisir des scripts complexes, tels que "vérifier la mémoire du système et l'enregistrement", et il exécutera la commande correspondante et sauvegardera le résultat.

fonctionnement du système de fichiers

  • déplacerL'agent TARS peut alors saisir "Créer un nouveau fichier test.txt et écrire 'hello'". Appuyez sur Entrée et l'Agent TARS crée le fichier et en écrit le contenu.
  • démontrerLe processus d'opération s'affiche dans l'interface, et vous pouvez cliquer sur le chemin d'accès pour visualiser le fichier une fois l'opération terminée.
  • Editer le fichierPour cela, il suffit de taper "open test.txt and add 'world'" et le fichier sera modifié automatiquement.

Planification et mise en œuvre de la mission

  • déplacerAgent TARS : Saisissez une tâche complexe, telle que "Rechercher les fonctionnalités de la dernière version de Python et organiser la documentation". Agent TARS décompose la tâche : recherche de données, extraction d'informations, génération de documentation.
  • démontrerLa fenêtre de droite affiche chaque étape de l'opération, comme l'ouverture d'une page web et la copie d'un texte.
  • en fin de compteLe document organisé est ensuite généré et sauvegardé dans le répertoire spécifié.

collaboration homme-machine

  • Ajustements en temps réelPendant l'exécution de la tâche, vous pouvez ajouter des commandes à la boîte de saisie, telles que "ajouter un autre paragraphe d'exemple". L'agent TARS ajustera son fonctionnement en fonction de la nouvelle entrée.
  • Partager les résultatsCliquez sur le bouton "Partager" et sélectionnez "HTML local" pour générer un fichier journal, ou configurez une URL de serveur distant pour le téléchargement et le partage.

mise en garde

  • Exigences environnementalesLes versions Windows et Linux n'ont pas encore été publiées.
  • connexion au réseauLes services de recherche : Un réseau stable est nécessaire pour relier les modèles et les services de recherche.
  • ajuster les composants pendant les essaisSi la fonction ne fonctionne pas (par exemple, la recherche échoue), vérifiez si la clé API est correcte ou rejoignez la communauté Discord pour obtenir de l'aide (lien sur le site officiel).

Avec ces étapes, vous pouvez facilement utiliser Agent TARS pour tout, de la simple manipulation de fichiers aux tâches de recherche complexes.

 

scénario d'application

  1. automatisation du web
    Utilisez l'agent TARS pour parcourir automatiquement le web et extraire des informations sur les actualités ou les produits. Par exemple, tapez "collecter les titres de l'actualité technologique récente" et l'agent recherchera et enregistrera les résultats en vue d'une étude de marché ou d'une collecte d'informations.
  2. gestion des tâches
    Planifiez des projets complexes, tels que "planifier un voyage", il recherche des vols, des hôtels et les organise en documents. Idéal pour les assistants personnels ou la gestion de projets.
  3. Code Assist
    Tapez "Générer un script Python pour vérifier la taille du fichier" et Agent TARS écrira et enregistrera le code, ce qui permettra aux développeurs de créer rapidement des outils.
  4. l'analyse des données
    Traite les données en temps réel, par exemple "Analyse des données boursières sur une page web et enregistrement d'un tableau". Il extrait des données et génère des fichiers, adaptés à l'analyse financière ou à l'analyse des marchés.

 

QA

  1. L'agent TARS est-il gratuit ?
    Oui, il s'agit d'un projet open source qui respecte la licence Apache 2.0. Le code et l'application peuvent être téléchargés et utilisés gratuitement sur GitHub.
  2. Est-il compatible avec Windows ?
    Actuellement, seul macOS est pris en charge, les versions Windows et Linux sont encore en cours de développement, alors gardez un œil sur GitHub pour les mises à jour.
  3. Connaissances en programmation requises ?
    Ce n'est pas nécessaire. Il fonctionne en langage naturel et est accessible à l'utilisateur moyen. Mais des connaissances en programmation permettent de mieux utiliser les fonctionnalités de la ligne de commande.
  4. Comment réparer la fonction de recherche qui ne fonctionne pas ?
    Vérifiez que la clé API dans la "Configuration de la recherche" est correcte, ou que la connexion réseau fonctionne. Vous pouvez également rejoindre la communauté Discord pour faire part de vos commentaires.
© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...