Agent S : un cadre Open Source pour les corps intelligents qui utilisent les ordinateurs comme des humains

Introduction générale

Agent S est un cadre open source développé par Simular AI qui permet à des intelligences d'utiliser des ordinateurs comme des humains à travers une interface utilisateur graphique (GUI). Il utilise un modèle de macrolangage multimodal et des techniques d'apprentissage empirique pour effectuer des tâches telles que la navigation sur le web, l'édition de documents et l'utilisation de logiciels. L'article de l'agent S1 a été accepté par l'ICLR en 2025, et l'agent S2 a été publié en mars 2025, surpassant l'OpenAI et la technologie de l'ICLR. Anthropique Il est compatible avec macOS, Windows et Linux. Il est compatible avec macOS, Windows et Linux et convient aux bureaux automatisés, aux tests de logiciels et à la recherche en IA.

Agent S:像人类一样操作电脑的开源智能体框架

 

Liste des fonctions

  • Fonctionnement de l'interface utilisateur graphique (GUI)Les logiciels : souris et clavier analogiques pour interagir avec les logiciels.
  • Attribution des tâches et planificationLes tâches complexes sont divisées en petites étapes et leur exécution est automatisée.
  • Tirer les leçons de l'expérienceLes tâches de l'entreprise : Tirer des enseignements de l'historique des tâches pour accroître l'efficacité.
  • Support multiplateformeDisponible sur macOS (Paquet d'installation en un clic), Windows et Linux.
  • Entrées multimodalesLes images de l'écran et les éléments de l'interface sont combinés pour un fonctionnement précis.
  • Personnalisation de l'Open SourceLe code source et la documentation sont fournis et peuvent être librement adaptés par le développeur.
  • Mise à jour de la base de connaissancesLes données d'expérience sont mises à jour en continu lors de l'exécution afin d'améliorer l'intelligence.

 

Utiliser l'aide

L'Agent S est un outil open source pour les développeurs, dont l'installation et l'utilisation requièrent certaines bases de programmation. Vous trouverez ci-dessous les étapes détaillées et les instructions fonctionnelles pour aider les utilisateurs à démarrer rapidement.

Processus d'installation

  1. Préparation de l'environnement
    • Installez Python 3.9 à 3.12.
    • Installer Git pour télécharger le code.
    • Facultatif : préparez une machine virtuelle (telle que VMware) pour tester ou isoler l'environnement.
  2. Télécharger le code
    • Ouvrez un terminal et exécutez le programme :
      git clone https://github.com/simular-ai/Agent-S.git
      
    • Accédez au catalogue de projets :
      cd Agent-S
      
  3. Installation des dépendances
    • Créer un environnement virtuel (recommandé) :
      python -m venv venv
      source venv/bin/activate  # macOS/Linux
      venv\Scripts\activate     # Windows
      
    • Installer la bibliothèque de base :
      pip install gui-agents
      
    • Définition de variables d'environnement (par exemple, clés API) :
      export OPENAI_API_KEY=<你的密钥>
      export ANTHROPIC_API_KEY=<你的密钥>
      export HF_TOKEN=<你的Hugging Face密钥>
      
  4. Agent de départ S
    • Exécutez l'agent S1 ou S2 :
      agent_s1  # 运行 Agent S1
      agent_s2  # 运行 Agent S2
      
    • Une fois lancé, saisissez la tâche pour commencer.

Principales fonctions

Fonctionnement de l'interface utilisateur graphique (GUI)

  • Description fonctionnelleSimulation d'une opération humaine grâce à des captures d'écran et à la reconnaissance de l'interface.
  • procédure: :
    1. être en mouvement agent_s2.
    2. Entrez la tâche : "Ouvrez le Bloc-notes et tapez 'hello'".
    3. Agent S2 Localisez l'icône du bloc-notes, cliquez dessus pour l'ouvrir, puis saisissez votre texte.
    4. Appuyez sur Ctrl+C pour arrêter à tout moment.

Attribution des tâches et planification

  • Description fonctionnelleLes tâches complexes sont décomposées en petites étapes et accomplies de manière progressive.
  • procédure: :
    1. Tapez "Envoyer un courriel à un ami".
    2. L'agent S2 effectue cette opération automatiquement : il ouvre le logiciel de messagerie, crée un nouveau message, remplit le contenu et clique sur "envoyer".
    3. Les utilisateurs peuvent consulter les journaux de chaque étape sur le terminal.

Tirer les leçons de l'expérience

  • Description fonctionnelleLes opérations de suivi : enregistrer le déroulement de la tâche et optimiser les opérations de suivi.
  • procédure: :
    1. Après avoir accompli la quête, l'expérience est sauvegardée dans le fichier gui_agents/kb Dossier.
    2. L'exécution répétée de tâches similaires permet d'améliorer l'efficacité.
    3. Les développeurs peuvent consulter le document de la base de connaissances pour y trouver du contenu d'apprentissage.

Fonction en vedette Fonctionnement

Support multiplateforme

  • Description fonctionnelleLes systèmes d'exploitation : Prise en charge de trois systèmes d'exploitation majeurs.
  • procédure: :
    1. Windows requiert l'installation de pywin32 répondre en chantant pywinauto.
    2. macOS requis pyobjcutiliser pip install pyobjc Installation.
    3. Contrôle Linux pyautogui il peut être nécessaire d'ajuster les autorisations.

Entrées multimodales

  • Description fonctionnelleLes données d'image et d'interface sont combinées afin d'améliorer la précision des opérations.
  • procédure: :
    1. Tapez "Recherchez 'météo' dans votre navigateur".
    2. L'agent S2 analyse l'écran, trouve la fenêtre du navigateur et saisit un terme de recherche.
    3. Les résultats s'affichent automatiquement.

Téléchargement de la base de connaissances

  • Description fonctionnelleL'agent S2 utilise une base de connaissances pré-entraînée et peut fonctionner hors ligne.
  • procédure: :
    1. Téléchargement automatique de la base de connaissances à partir de GitHub Releases lors du premier lancement.
    2. Exemple de téléchargement de manuel :
      download_kb_data(version="s2", release_tag="v0.2.2", download_dir="kb_data", platform="linux")
      
    3. Le chemin d'accès à la base de connaissances se trouve dans la section kb_data Dossier.

Configuration avancée

Intégration Perplexica Recherche

  • Description fonctionnelle: Amélioration de la capacité de recherche de connaissances sur le web de l'agent S.
  • procédure: :
    1. Installez Docker Desktop et démarrez-le.
    2. Télécharger Perplexica :
      cd Perplexica
      git submodule update --init
      
    3. renommer sample.config.toml en raison de config.tomlSi vous n'êtes pas sûr de la clé API, indiquez-la.
    4. Démarrer le service :
      docker compose up -d
      
    5. Définir l'URL de Perplexica :
      export PERPLEXICA_URL=http://localhost:端口/api/search
      

Modèles personnalisés

  • Description fonctionnelleSupport de plusieurs grands modèles et de points d'extrémité personnalisés.
  • procédure: :
    1. utiliser Claude Modèles :
      agent_s2 --model claude-3-7-sonnet-20250219
      
    2. Utilisez le critère du visage étreint :
      agent_s2 --endpoint_provider "huggingface" --endpoint_url "<端点URL>/v1/"
      

mise en garde

  • La première exécution nécessite une connexion internet pour télécharger les dépendances et la base de connaissances.
  • Les utilisateurs de Linux évitent l'environnement Conda, qui peut interférer avec le système d'information. pyatspi.
  • Une documentation détaillée est disponible à l'adresse suivante README.md répondre en chantant models.md Au milieu.

 

scénario d'application

  1. bureautique
    L'agent S remplit automatiquement les formulaires et envoie des courriels, réduisant ainsi le travail répétitif.
  2. tests de logiciels
    Simuler les opérations des utilisateurs et tester la stabilité du logiciel sur différents systèmes.
  3. Recherche en IA
    Les chercheurs l'utilisent pour explorer les principes techniques de l'interaction intelligente entre le corps et l'ordinateur.

 

QA

  1. Quelle est la différence entre l'agent S2 et l'agent S1 ?
    S2 est une version améliorée de S1 avec plus de performances et la prise en charge d'un plus grand nombre de tests tels que OSWorld et AndroidWorld.
  2. Dois-je être connecté en permanence ?
    L'accès à Internet est nécessaire pour la première installation et le téléchargement de la base de connaissances, qui peut ensuite être exécutée hors ligne.
  3. Comment puis-je contacter le service d'assistance communautaire ?
    Rejoignez le serveur Discord (https://discord.gg/E2XfsK9fPV) ou soumettez un problème sur GitHub.

 

Annonce des détails techniques d'Agent S2 : un cadre d'IA combinatoire pour les opérations informatiques générales

Construire des intelligences capables d'utiliser les ordinateurs aussi habilement que les humains est l'un des principaux défis à relever sur la voie de l'intelligence artificielle polyvalente (AGI). Ces tâches couvrent un large éventail de scénarios allant de l'exécution de tâches numériques ouvertes à la navigation dans des applications peu familières par le biais d'interfaces utilisateur graphiques (IUG), avec des espaces de problèmes qui sont vastes, bruyants et hautement dynamiques. Récemment, un article sur Agent S2 La publication officielle du document technique de la recherche, qui propose un cadre modulaire et atteint des performances de premier plan dans plusieurs critères d'évaluation de l'utilisation de l'ordinateur.

Agent S2 Le code associé à cette version a déjà été mis en libre accès. Le document technique publié (disponible à l'adresse arXiv (Access) offre un aperçu approfondi des concepts fondamentaux et de la conception architecturale du système. Simular AI, l'équipe de recherche à l'origine du système, a également publié un article d'introduction pour les lecteurs non spécialisés.

Aperçu de l'agent S2 : conceptions intelligentes combinées

Agent S2 La philosophie de base de la conception consiste à décomposer les tâches informatiques complexes, en ne s'appuyant pas sur un seul grand modèle pour effectuer tout le travail de planification, d'action et de compréhension de l'interaction avec l'écran, mais en attribuant ces responsabilités à un module de planification généraliste et à un module d'exécution/compréhension spécialisé (spécialistes). Cette architecture combinée vise à imiter la manière dont travaillent les équipes d'experts humains : des planificateurs de haut niveau, des exécutants de bas niveau et des spécialistes de l'interaction avec l'interface travaillant en tandem.

Agent S:像人类一样操作电脑的开源智能体框架
Diagramme d'architecture de l'agent S2 : combinaison d'un planificateur générique et de modules de base spécialisés.

Agent S2 Les principales caractéristiques sont les suivantes :

  • Mélange de mise à la terre (MoG). Utiliser un ensemble de modèles experts sous-jacents (y compris l'extraction d'informations visuelles, textuelles et structurées) pour localiser avec précision les éléments de l'interface graphique. Par exemple, l'utilisation d'une feuille de calcul peut être axée sur des données structurées, tandis que le fait de cliquer sur un bouton repose sur l'orientation visuelle. Cette conception dissocie la mise à la terre de la planification, ce qui réduit effectivement la complexité du problème et l'aligne davantage sur la distribution actuelle de la formation pour les modèles d'inférence génériques et les modèles de base visuels spécialisés.
  • Planification hiérarchique proactive (PHP). Le cadre est capable d'ajuster et d'affiner ses plans de manière dynamique en fonction des réactions de l'environnement, plutôt que de suivre de manière rigide un scénario prédéterminé. Cela permet à l'intelligence de répondre avec plus de souplesse à des situations imprévues.

Résultats de l'évaluation comparative : leader en matière de performances multiplateformes

Les données de l'étude montrent que Agent S2 Dans l'ouvrage largement utilisé OSWorld Un nouveau record de performance a été établi lors des tests de référence. OSWorld Il évalue principalement la capacité des intelligences artificielles à accomplir diverses tâches telles que la gestion de fichiers, l'utilisation de logiciels et la recherche d'informations dans un environnement de système d'exploitation simulé.

Agent S:像人类一样操作电脑的开源智能体框架
Comparaison des taux de réussite aux tests de référence OSWorld.

En outre. Agent S2 Il montre également une bonne généralisation sur d'autres plateformes :

  • FenêtreAgentArena. Il s'agit d'un test de référence qui se concentre sur des tâches d'interaction complexes dans l'environnement Windows. Agent S2 La performance dans ce test a été améliorée de 52,8% par rapport au meilleur résultat ouvert précédent (SOTA).
  • AndroidWorld. Ce test mesure la capacité à effectuer des tâches sur le système d'exploitation mobile Android. Agent S2 Les performances obtenues ici sont également supérieures à celles des résultats SOTA précédents, avec une amélioration de 16,51 TP3T.

Agent S:像人类一样操作电脑的开源智能体框架
Le taux de réussite à OSWorld montre que l'agent S2 est plus performant que les méthodes précédentes.

Agent S:像人类一样操作电脑的开源智能体框架
Taux de réussite sur WindowsAgentArena.

Innovation en matière de conception : Synergies entre le gouvernement local et le PHP

Les principales difficultés rencontrées par de nombreuses intelligences informatiques existantes dans la pratique découlent d'une mauvaise compréhension des éléments de l'interface (c'est-à-dire le problème de la "base") ou de processus d'exécution de plans trop rigides. Agent S2 Ces questions sont abordées dans le cadre de ses deux conceptions de base :

  • Modélisation de base mixte (MoG). Le mécanisme MoG est capable d'acheminer intelligemment les tâches vers le modèle expert le plus approprié en fonction des exigences d'interaction actuelles. Par exemple, la reconnaissance et la manipulation d'une cellule de tableur peuvent faire appel à un expert basé sur l'analyse structurelle, tout en passant à un modèle de base visuel lorsque l'on clique sur un bouton visuellement distinctif. En séparant la compréhension de l'interaction de base de la planification des tâches de haut niveau, on décompose essentiellement un problème complexe en deux sous-problèmes relativement plus simples et plus faciles à modéliser.
  • Planification active (PHP). Le module PHP permet aux intelligences d'adapter en permanence les sous-objectifs et les plans d'action en fonction des nouvelles observations de l'environnement. Cette adaptation imite le comportement humain qui consiste à réévaluer et à réviser les plans lorsque la situation change pendant l'exécution d'une tâche.

Agent S:像人类一样操作电脑的开源智能体框架
Exemple : l'agent S2 s'autocorrige dans une interaction en passant d'un modèle de base visuel à un modèle de base textuel.

Évolutivité et récupération des erreurs

Il a été démontré que dans les tâches qui requièrent l'exécution d'opérations en séquence plus longues, la Agent S2 L'architecture combinatoire présente une meilleure évolutivité que les modèles monolithiques. Leurs capacités d'adaptation dynamique et d'autocorrection leur permettent d'ajuster leurs stratégies lorsque les actions initiales n'ont pas l'effet escompté, améliorant ainsi le taux d'achèvement des tâches complexes. Les modèles monolithiques ont tendance à échouer dans les longues tâches séquentielles en raison d'erreurs cumulatives ou de la rigidité de la planification.

Agent S:像人类一样操作电脑的开源智能体框架
Raisons pour lesquelles l'agent S2 maintient ses performances dans les tâches portant sur de longues séries temporelles : navigation adaptative, interaction et mécanismes de correction des erreurs.

Au-delà de l'environnement de bureau : performances généralisées sur la plateforme Android

(aller de l'avant et le faire) sans hésiter Agent S2 L'objectif principal du développement du projet est de développer des intelligences pour les environnements de bureau, mais la conception de son cadre a montré une bonne généralisation pour les environnements mobiles également. Dans le cadre de l AndroidWorld Les meilleures performances dans le test de référence prouvent l'adéquation de ses concepts de base, tels que MoG et PHP, à différents types d'environnements d'interface utilisateur graphique.

Agent S:像人类一样操作电脑的开源智能体框架
L'agent S2 occupe la première place dans le classement AndroidWorld sur l'utilisation des smartphones.

Progrès en matière d'intelligences modulaires

Agent S2 Les résultats de l'étude suggèrent que la conception combinatoire n'est pas seulement un choix architectural, mais qu'elle peut être un moyen efficace de construire des intelligences capables de faire fonctionner des ordinateurs d'une manière robuste et semblable à celle de l'homme. Ces travaux ouvrent de nouvelles perspectives pour la recherche future en matière de planification de l'IA, de compréhension des interactions de base (grounding) et de coordination multimodale.

Les lecteurs intéressés sont invités à consulter le rapport détaillé de la Commission européenne. Documents techniques pertinent source ouverte.

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...