Agent S : un cadre Open Source pour les corps intelligents qui utilisent les ordinateurs comme des humains

Dernières ressources sur l'IAMise à jour il y a 5 mois Cercle de partage de l'IA

11.5K 00

Introduction générale

Agent S est un cadre open source développé par Simular AI qui permet à des intelligences d'utiliser des ordinateurs comme des humains à travers une interface utilisateur graphique (GUI). Il utilise un modèle de macrolangage multimodal et des techniques d'apprentissage empirique pour effectuer des tâches telles que la navigation sur le web, l'édition de documents et l'utilisation de logiciels. L'article de l'agent S1 a été accepté par l'ICLR en 2025, et l'agent S2 a été publié en mars 2025, surpassant l'OpenAI et la technologie de l'ICLR. Anthropique Il est compatible avec macOS, Windows et Linux. Il est compatible avec macOS, Windows et Linux et convient aux bureaux automatisés, aux tests de logiciels et à la recherche en IA.

Liste des fonctions

Fonctionnement de l'interface utilisateur graphique (GUI)Les logiciels : souris et clavier analogiques pour interagir avec les logiciels.
Attribution des tâches et planificationLes tâches complexes sont divisées en petites étapes et leur exécution est automatisée.
Tirer les leçons de l'expérienceLes tâches de l'entreprise : Tirer des enseignements de l'historique des tâches pour accroître l'efficacité.
Support multiplateformeDisponible sur macOS (Paquet d'installation en un clic), Windows et Linux.
Entrées multimodalesLes images de l'écran et les éléments de l'interface sont combinés pour un fonctionnement précis.
Personnalisation de l'Open SourceLe code source et la documentation sont fournis et peuvent être librement adaptés par le développeur.
Mise à jour de la base de connaissancesLes données d'expérience sont mises à jour en continu lors de l'exécution afin d'améliorer l'intelligence.

Utiliser l'aide

L'Agent S est un outil open source pour les développeurs, dont l'installation et l'utilisation requièrent certaines bases de programmation. Vous trouverez ci-dessous les étapes détaillées et les instructions fonctionnelles pour aider les utilisateurs à démarrer rapidement.

Processus d'installation

Préparation de l'environnement
- Installez Python 3.9 à 3.12.
- Installer Git pour télécharger le code.
- Facultatif : préparez une machine virtuelle (telle que VMware) pour tester ou isoler l'environnement.
Télécharger le code
- Ouvrez un terminal et exécutez le programme :
```
git clone https://github.com/simular-ai/Agent-S.git
```
- Accédez au catalogue de projets :
```
cd Agent-S
```

Installation des dépendances

Créer un environnement virtuel (recommandé) :

python -m venv venv
source venv/bin/activate  # macOS/Linux
venv\Scripts\activate     # Windows

Installer la bibliothèque de base :
```
pip install gui-agents
```

Définition de variables d'environnement (par exemple, clés API) :

export OPENAI_API_KEY=<你的密钥>
export ANTHROPIC_API_KEY=<你的密钥>
export HF_TOKEN=<你的Hugging Face密钥>

Agent de départ S
- Exécutez l'agent S1 ou S2 :
```
agent_s1  # 运行 Agent S1
agent_s2  # 运行 Agent S2
```
- Une fois lancé, saisissez la tâche pour commencer.

Principales fonctions

Fonctionnement de l'interface utilisateur graphique (GUI)

Description fonctionnelleSimulation d'une opération humaine grâce à des captures d'écran et à la reconnaissance de l'interface.
procédure: :
1. être en mouvement agent_s2.
2. Entrez la tâche : "Ouvrez le Bloc-notes et tapez 'hello'".
3. Agent S2 Localisez l'icône du bloc-notes, cliquez dessus pour l'ouvrir, puis saisissez votre texte.
4. Appuyez sur Ctrl+C pour arrêter à tout moment.

Attribution des tâches et planification

Description fonctionnelleLes tâches complexes sont décomposées en petites étapes et accomplies de manière progressive.
procédure: :
1. Tapez "Envoyer un courriel à un ami".
2. L'agent S2 effectue cette opération automatiquement : il ouvre le logiciel de messagerie, crée un nouveau message, remplit le contenu et clique sur "envoyer".
3. Les utilisateurs peuvent consulter les journaux de chaque étape sur le terminal.

Tirer les leçons de l'expérience

Description fonctionnelleLes opérations de suivi : enregistrer le déroulement de la tâche et optimiser les opérations de suivi.
procédure: :
1. Après avoir accompli la quête, l'expérience est sauvegardée dans le fichier gui_agents/kb Dossier.
2. L'exécution répétée de tâches similaires permet d'améliorer l'efficacité.
3. Les développeurs peuvent consulter le document de la base de connaissances pour y trouver du contenu d'apprentissage.

Fonction en vedette Fonctionnement

Support multiplateforme

Description fonctionnelleLes systèmes d'exploitation : Prise en charge de trois systèmes d'exploitation majeurs.
procédure: :
1. Windows requiert l'installation de pywin32 répondre en chantant pywinauto.
2. macOS requis pyobjcutiliser pip install pyobjc Installation.
3. Contrôle Linux pyautogui il peut être nécessaire d'ajuster les autorisations.

Entrées multimodales

Description fonctionnelleLes données d'image et d'interface sont combinées afin d'améliorer la précision des opérations.
procédure: :
1. Tapez "Recherchez 'météo' dans votre navigateur".
2. L'agent S2 analyse l'écran, trouve la fenêtre du navigateur et saisit un terme de recherche.
3. Les résultats s'affichent automatiquement.

Téléchargement de la base de connaissances

Description fonctionnelleL'agent S2 utilise une base de connaissances pré-entraînée et peut fonctionner hors ligne.
procédure: :
1. Téléchargement automatique de la base de connaissances à partir de GitHub Releases lors du premier lancement.
2. Exemple de téléchargement de manuel :
```
download_kb_data(version="s2", release_tag="v0.2.2", download_dir="kb_data", platform="linux")
```
3. Le chemin d'accès à la base de connaissances se trouve dans la section kb_data Dossier.

Configuration avancée

Intégration Perplexica Recherche

Description fonctionnelle: Amélioration de la capacité de recherche de connaissances sur le web de l'agent S.
procédure: :
1. Installez Docker Desktop et démarrez-le.
2. Télécharger Perplexica :
```
cd Perplexica
git submodule update --init
```
3. renommer sample.config.toml en raison de config.tomlSi vous n'êtes pas sûr de la clé API, indiquez-la.
4. Démarrer le service :
```
docker compose up -d
```
5. Définir l'URL de Perplexica :
```
export PERPLEXICA_URL=http://localhost:端口/api/search
```

Modèles personnalisés

Description fonctionnelleSupport de plusieurs grands modèles et de points d'extrémité personnalisés.

procédure: :

utiliser Claude Modèles :

agent_s2 --model claude-3-7-sonnet-20250219

Utilisez le critère du visage étreint :

agent_s2 --endpoint_provider "huggingface" --endpoint_url "<端点URL>/v1/"

mise en garde

La première exécution nécessite une connexion internet pour télécharger les dépendances et la base de connaissances.
Les utilisateurs de Linux évitent l'environnement Conda, qui peut interférer avec le système d'information. pyatspi.
Une documentation détaillée est disponible à l'adresse suivante README.md répondre en chantant models.md Au milieu.

scénario d'application

bureautique
L'agent S remplit automatiquement les formulaires et envoie des courriels, réduisant ainsi le travail répétitif.
tests de logiciels
Simuler les opérations des utilisateurs et tester la stabilité du logiciel sur différents systèmes.
Recherche en IA
Les chercheurs l'utilisent pour explorer les principes techniques de l'interaction intelligente entre le corps et l'ordinateur.

QA

Quelle est la différence entre l'agent S2 et l'agent S1 ?
S2 est une version améliorée de S1 avec plus de performances et la prise en charge d'un plus grand nombre de tests tels que OSWorld et AndroidWorld.
Dois-je être connecté en permanence ?
L'accès à Internet est nécessaire pour la première installation et le téléchargement de la base de connaissances, qui peut ensuite être exécutée hors ligne.
Comment puis-je contacter le service d'assistance communautaire ?
Rejoignez le serveur Discord (https://discord.gg/E2XfsK9fPV) ou soumettez un problème sur GitHub.

Annonce des détails techniques d'Agent S2 : un cadre d'IA combinatoire pour les opérations informatiques générales

Construire des intelligences capables d'utiliser les ordinateurs aussi habilement que les humains est l'un des principaux défis à relever sur la voie de l'intelligence artificielle polyvalente (AGI). Ces tâches couvrent un large éventail de scénarios allant de l'exécution de tâches numériques ouvertes à la navigation dans des applications peu familières par le biais d'interfaces utilisateur graphiques (IUG), avec des espaces de problèmes qui sont vastes, bruyants et hautement dynamiques. Récemment, un article sur Agent S2 La publication officielle du document technique de la recherche, qui propose un cadre modulaire et atteint des performances de premier plan dans plusieurs critères d'évaluation de l'utilisation de l'ordinateur.

Agent S2 Le code associé à cette version a déjà été mis en libre accès. Le document technique publié (disponible à l'adresse arXiv (Access) offre un aperçu approfondi des concepts fondamentaux et de la conception architecturale du système. Simular AI, l'équipe de recherche à l'origine du système, a également publié un article d'introduction pour les lecteurs non spécialisés.

Aperçu de l'agent S2 : conceptions intelligentes combinées

Agent S2 La philosophie de base de la conception consiste à décomposer les tâches informatiques complexes, en ne s'appuyant pas sur un seul grand modèle pour effectuer tout le travail de planification, d'action et de compréhension de l'interaction avec l'écran, mais en attribuant ces responsabilités à un module de planification généraliste et à un module d'exécution/compréhension spécialisé (spécialistes). Cette architecture combinée vise à imiter la manière dont travaillent les équipes d'experts humains : des planificateurs de haut niveau, des exécutants de bas niveau et des spécialistes de l'interaction avec l'interface travaillant en tandem.

Agent S：像人类一样操作电脑的开源智能体框架
Diagramme d'architecture de l'agent S2 : combinaison d'un planificateur générique et de modules de base spécialisés.

Agent S2 Les principales caractéristiques sont les suivantes :

Mélange de mise à la terre (MoG). Utiliser un ensemble de modèles experts sous-jacents (y compris l'extraction d'informations visuelles, textuelles et structurées) pour localiser avec précision les éléments de l'interface graphique. Par exemple, l'utilisation d'une feuille de calcul peut être axée sur des données structurées, tandis que le fait de cliquer sur un bouton repose sur l'orientation visuelle. Cette conception dissocie la mise à la terre de la planification, ce qui réduit effectivement la complexité du problème et l'aligne davantage sur la distribution actuelle de la formation pour les modèles d'inférence génériques et les modèles de base visuels spécialisés.
Planification hiérarchique proactive (PHP). Le cadre est capable d'ajuster et d'affiner ses plans de manière dynamique en fonction des réactions de l'environnement, plutôt que de suivre de manière rigide un scénario prédéterminé. Cela permet à l'intelligence de répondre avec plus de souplesse à des situations imprévues.

Résultats de l'évaluation comparative : leader en matière de performances multiplateformes

Les données de l'étude montrent que Agent S2 Dans l'ouvrage largement utilisé OSWorld Un nouveau record de performance a été établi lors des tests de référence. OSWorld Il évalue principalement la capacité des intelligences artificielles à accomplir diverses tâches telles que la gestion de fichiers, l'utilisation de logiciels et la recherche d'informations dans un environnement de système d'exploitation simulé.

Agent S：像人类一样操作电脑的开源智能体框架
Comparaison des taux de réussite aux tests de référence OSWorld.

En outre. Agent S2 Il montre également une bonne généralisation sur d'autres plateformes :

FenêtreAgentArena. Il s'agit d'un test de référence qui se concentre sur des tâches d'interaction complexes dans l'environnement Windows. Agent S2 La performance dans ce test a été améliorée de 52,8% par rapport au meilleur résultat ouvert précédent (SOTA).
AndroidWorld. Ce test mesure la capacité à effectuer des tâches sur le système d'exploitation mobile Android. Agent S2 Les performances obtenues ici sont également supérieures à celles des résultats SOTA précédents, avec une amélioration de 16,51 TP3T.

Agent S：像人类一样操作电脑的开源智能体框架
Le taux de réussite à OSWorld montre que l'agent S2 est plus performant que les méthodes précédentes.

Agent S：像人类一样操作电脑的开源智能体框架
Taux de réussite sur WindowsAgentArena.

Innovation en matière de conception : Synergies entre le gouvernement local et le PHP

Les principales difficultés rencontrées par de nombreuses intelligences informatiques existantes dans la pratique découlent d'une mauvaise compréhension des éléments de l'interface (c'est-à-dire le problème de la "base") ou de processus d'exécution de plans trop rigides. Agent S2 Ces questions sont abordées dans le cadre de ses deux conceptions de base :

Modélisation de base mixte (MoG). Le mécanisme MoG est capable d'acheminer intelligemment les tâches vers le modèle expert le plus approprié en fonction des exigences d'interaction actuelles. Par exemple, la reconnaissance et la manipulation d'une cellule de tableur peuvent faire appel à un expert basé sur l'analyse structurelle, tout en passant à un modèle de base visuel lorsque l'on clique sur un bouton visuellement distinctif. En séparant la compréhension de l'interaction de base de la planification des tâches de haut niveau, on décompose essentiellement un problème complexe en deux sous-problèmes relativement plus simples et plus faciles à modéliser.
Planification active (PHP). Le module PHP permet aux intelligences d'adapter en permanence les sous-objectifs et les plans d'action en fonction des nouvelles observations de l'environnement. Cette adaptation imite le comportement humain qui consiste à réévaluer et à réviser les plans lorsque la situation change pendant l'exécution d'une tâche.

Agent S：像人类一样操作电脑的开源智能体框架
Exemple : l'agent S2 s'autocorrige dans une interaction en passant d'un modèle de base visuel à un modèle de base textuel.

Évolutivité et récupération des erreurs

Il a été démontré que dans les tâches qui requièrent l'exécution d'opérations en séquence plus longues, la Agent S2 L'architecture combinatoire présente une meilleure évolutivité que les modèles monolithiques. Leurs capacités d'adaptation dynamique et d'autocorrection leur permettent d'ajuster leurs stratégies lorsque les actions initiales n'ont pas l'effet escompté, améliorant ainsi le taux d'achèvement des tâches complexes. Les modèles monolithiques ont tendance à échouer dans les longues tâches séquentielles en raison d'erreurs cumulatives ou de la rigidité de la planification.

Agent S：像人类一样操作电脑的开源智能体框架
Raisons pour lesquelles l'agent S2 maintient ses performances dans les tâches portant sur de longues séries temporelles : navigation adaptative, interaction et mécanismes de correction des erreurs.

Au-delà de l'environnement de bureau : performances généralisées sur la plateforme Android

(aller de l'avant et le faire) sans hésiter Agent S2 L'objectif principal du développement du projet est de développer des intelligences pour les environnements de bureau, mais la conception de son cadre a montré une bonne généralisation pour les environnements mobiles également. Dans le cadre de l AndroidWorld Les meilleures performances dans le test de référence prouvent l'adéquation de ses concepts de base, tels que MoG et PHP, à différents types d'environnements d'interface utilisateur graphique.

Agent S：像人类一样操作电脑的开源智能体框架
L'agent S2 occupe la première place dans le classement AndroidWorld sur l'utilisation des smartphones.

Progrès en matière d'intelligences modulaires

Agent S2 Les résultats de l'étude suggèrent que la conception combinatoire n'est pas seulement un choix architectural, mais qu'elle peut être un moyen efficace de construire des intelligences capables de faire fonctionner des ordinateurs d'une manière robuste et semblable à celle de l'homme. Ces travaux ouvrent de nouvelles perspectives pour la recherche future en matière de planification de l'IA, de compréhension des interactions de base (grounding) et de coordination multimodale.

Les lecteurs intéressés sont invités à consulter le rapport détaillé de la Commission européenne. Documents techniques pertinent source ouverte.

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

SkyReels (ancienne version) : outil professionnel de création de bandes dessinées cohérentes avec les personnages.

Dernières ressources sur l'IA # AI génération d'images en ligne # Jeu de rôle AI

Il y a 11 mois

010.8K

Mu - Microsoft introduit un modèle de langage à petits paramètres pour soutenir Windows Intelligentsia

Dernières ressources sur l'IA

Il y a 2 mois

010.7K

TANGO : un outil pour la réalisation de portraits vidéo de gestes coordonnés générés par la voix d'une personne numérique au corps entier

Dernières ressources sur l'IA # AI Java Open Source Projecct # AI Digital Man

Il y a 8 mois

013.6K

Data Agent - Une nouvelle génération d'intelligence des données pour l'entreprise par Volcano Engine

Dernières ressources sur l'IA

Il y a 3 mois

09.4K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

Agent S : un cadre Open Source pour les corps intelligents qui utilisent les ordinateurs comme des humains

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Principales fonctions

Fonctionnement de l'interface utilisateur graphique (GUI)

Attribution des tâches et planification

Tirer les leçons de l'expérience

Fonction en vedette Fonctionnement

Support multiplateforme

Entrées multimodales

Téléchargement de la base de connaissances

Configuration avancée

Intégration Perplexica Recherche

Modèles personnalisés

mise en garde

scénario d'application

QA

Annonce des détails techniques d'Agent S2 : un cadre d'IA combinatoire pour les opérations informatiques générales

Aperçu de l'agent S2 : conceptions intelligentes combinées

Résultats de l'évaluation comparative : leader en matière de performances multiplateformes

Innovation en matière de conception : Synergies entre le gouvernement local et le PHP

Évolutivité et récupération des erreurs

Au-delà de l'environnement de bureau : performances généralisées sur la plateforme Android

Progrès en matière d'intelligences modulaires

BabelDOC : les documents PDF seront traduits dans des outils open source bilingues

Echo Memo : un outil de mise en signet qui utilise l'IA pour comprendre et rechercher le contenu des médias sociaux.

Articles connexes

SkyReels (ancienne version) : outil professionnel de création de bandes dessinées cohérentes avec les personnages.

Mu - Microsoft introduit un modèle de langage à petits paramètres pour soutenir Windows Intelligentsia

TANGO : un outil pour la réalisation de portraits vidéo de gestes coordonnés générés par la voix d'une personne numérique au corps entier

Data Agent - Une nouvelle génération d'intelligence des données pour l'entreprise par Volcano Engine

Pas de commentaires

Dernières collections

Derniers articles

Agent S : un cadre Open Source pour les corps intelligents qui utilisent les ordinateurs comme des humains

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Principales fonctions

Fonctionnement de l'interface utilisateur graphique (GUI)

Attribution des tâches et planification

Tirer les leçons de l'expérience

Fonction en vedette Fonctionnement

Support multiplateforme

Entrées multimodales

Téléchargement de la base de connaissances

Configuration avancée

Intégration Perplexica Recherche

Modèles personnalisés

mise en garde

scénario d'application

QA

Annonce des détails techniques d'Agent S2 : un cadre d'IA combinatoire pour les opérations informatiques générales

Aperçu de l'agent S2 : conceptions intelligentes combinées

Résultats de l'évaluation comparative : leader en matière de performances multiplateformes

Innovation en matière de conception : Synergies entre le gouvernement local et le PHP

Évolutivité et récupération des erreurs

Au-delà de l'environnement de bureau : performances généralisées sur la plateforme Android

Progrès en matière d'intelligences modulaires

BabelDOC : les documents PDF seront traduits dans des outils open source bilingues

Echo Memo : un outil de mise en signet qui utilise l'IA pour comprendre et rechercher le contenu des médias sociaux.

Articles connexes

SkyReels (ancienne version) : outil professionnel de création de bandes dessinées cohérentes avec les personnages.

Mu - Microsoft introduit un modèle de langage à petits paramètres pour soutenir Windows Intelligentsia

TANGO : un outil pour la réalisation de portraits vidéo de gestes coordonnés générés par la voix d'une personne numérique au corps entier

Data Agent - Une nouvelle génération d'intelligence des données pour l'entreprise par Volcano Engine

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles