Smart Spectrum GLM-PC Open Experience : Agent multimodal pour le fonctionnement autonome d'un ordinateur réaménagé

智谱GLM-PC开放体验:自主操作电脑的多模态Agent再升级

 

GLM-PC est le premier agent informatique clé en main destiné au public et basé sur le modèle multimodal CogAgent. Il peut "observer" et "faire fonctionner" l'ordinateur comme un être humain, et aider les utilisateurs à accomplir efficacement diverses tâches informatiques.

 

Depuis la sortie de GLM-PC v1.0 le 29 novembre 2024 et sa bêta ouverte, nous avons continué à l'optimiser et à l'améliorer, avec l'introduction récente du mode "Deep Thinking" et l'ajout de fonctionnalités dédiées au raisonnement logique et à la génération de code. En outre, le modeNous offrons également une assistance pour les systèmes Windows.

 

Télécharger et expérimenter : https://cogagent.aminer.cn

 

Architecture du GLM-PC

Ces dernières années, l'agent a été de plus en plus discuté au niveau du modèle et de l'architecture.

 

Les capacités d'invocation d'outils des grands modèles linguistiques (LLM) montrent pour la première fois comment les LLM peuvent être utilisés en tant qu'agents organiquement intégrés à la production humaine, avec de bonnes capacités de généralisation et d'apprentissage sur de petits échantillons, mais leur champ d'application est limité par les types d'outils accessibles au public avec lesquels il est possible d'interagir sous forme textuelle.

 

afin de CogAgent Une série d'agents d'interface graphique intelligents (GUI) basés sur le modèle du langage visuel (VLM), représentés par une série d'agents d'interface graphique, proposent de nouvelles voies pour parvenir à une interaction complète de l'espace d'interface graphique par le biais d'une perception multimodale. Ces agents d'interface graphique, semblables à des êtres humains, peuvent percevoir visuellement les éléments et les dispositions de l'interface et simuler des êtres humains pour effectuer des méta-opérations telles que le clic et la saisie au clavier, ce qui élargit considérablement les limites de l'application de l'agent dans l'espace d'interaction virtuel.

 

Dans le même temps, les systèmes multi-agents tels que SWE-agent démontrent le potentiel de la collaboration multi-agents, en incorporant les forces de différents modèles pour explorer la planification basée sur des modèles multiples, la réflexion et l'auto-itération.

 

Nous pensons que le développement des agents peut être attribué à l'amélioration de la capacité du modèle et à l'optimisation de l'architecture de collaboration.

 

Un agent complet doit remplir les conditions suivantes :

  • Au niveau de la perception, il est capable de recevoir des signaux multiples tels que du texte, des images, de la vidéo et de l'audio ;
  • Au niveau de la pensée, la capacité de penser logiquement et de planifier des tâches (similaire au cerveau gauche) et la capacité de percevoir efficacement et de fonctionner avec souplesse (similaire au cerveau droit) ;
  • Au niveau de l'exécution, la capacité d'effectuer des opérations spatiales à l'aide d'une interface graphique complète, de recevoir des informations sur l'environnement et de s'auto-corriger.

 

Sur la base de cette réflexion, nous avons introduit en 2023 le modèle open-source CogAgent, qui comble les lacunes de l'agent GUI en matière de perception multimodale ; et en novembre 2024, GLM-PC v1.0 renforce encore les capacités de perception, de planification et de création, et parvient à une autocorrection limitée.

 

La nouvelle version de GLM-PC s'appuie sur la division du travail entre le "cerveau gauche" et le "cerveau droit" de l'être humain et associe en profondeur le raisonnement logique et la cognition perceptive par la génération de code et la compréhension de l'interface graphique, ce qui lui donne la capacité de trouver un équilibre entre logique et créativité pour aider l'être humain à accomplir des tâches complexes.

 

Il s'appuie sur le modèle multimodal CogAgent et le modèle de code développé par Smart Spectrum. CodeGeex Le nouveau GLM-PC dirige les flux de travail et les invocations d'outils sous forme de code. La nouvelle version de GLM-PC commande les flux de travail et les invocations d'outils sous forme de code, et renforce la capacité de planification, de raisonnement et de réflexion en mode de réflexion approfondie, de sorte qu'il peut répondre de manière stable et efficace à des scénarios et à des tâches complexes. Au cours de l'exécution, GLM-PC est capable de percevoir un retour d'information environnemental multicouche et d'aider à la réflexion pour une autocorrection et une optimisation efficaces.

 

Il convient de mentionner que nous avons mis en libre accès le modèle entièrement amélioré CogAgent-9B-20241220 en décembre 2024 afin de faciliter la recherche sur les agents GUI pré-entraînés.

 

 

Cerveau gauche de l'agent : génération de code et exécution logique

Le "cerveau gauche" du GLM-PC est responsable du raisonnement logique rigoureux et de l'exécution des tâches. Ses principales fonctions sont les suivantes

 

1. la planification

GLM-PC est capable de développer rapidement un programme détaillé de planification des tâches basé sur les exigences de l'utilisateur. Il analyse de manière exhaustive les objectifs ainsi que les ressources disponibles, génère une feuille de route d'exécution et décompose automatiquement les tâches importantes en sous-tâches gérables afin d'établir un chemin d'exécution clair.

 

2、Looping Execution (Exécution en boucle)

À la fin de la phase de planification, le GLM-PC lance le module de génération de code pour exécuter une boucle logique qui progresse pas à pas vers l'achèvement de la tâche. Ce mécanisme de bouclage garantit une exécution précise de la tâche avec un degré élevé d'automatisation, ce qui permet d'obtenir une boucle fermée complète de l'entrée à la sortie sans intervention humaine.

 

Étude de cas : Processus d'achat à guichet unique

Si l'on prend l'exemple des informations sur les produits, GLM-PC peut extraire automatiquement les données sur les produits à partir des photos, les stocker dans Excel et ajouter automatiquement les produits au panier d'achat Taobao, réalisant ainsi un processus d'achat en une seule étape.

 

Mode d'emploi : obtenez les informations sur le produit dans l'image, créez un nouvel Excel sur le bureau pour stocker les informations, et ajoutez les informations sur le produit au panier d'achat Taobao.

 

(Quelques accélérations de la vidéo dans le texte).

 

3. les capacités de réflexion à long terme : réflexion dynamique, correction des erreurs et optimisation

La fonction "cerveau gauche" de GLM-PC ne se contente pas de générer un plan statique, mais optimise en permanence la solution en procédant à des ajustements en temps réel, à des corrections réfléchies et à des autocorrections sur la base de nouvelles informations environnementales au cours du processus d'exécution. Les performances spécifiques sont les suivantes :

  • Flexibilité face aux interruptions : lorsque le processus est interrompu par des facteurs externes, le GLM-PC reconfigure rapidement le chemin logique pour assurer le bon déroulement de la tâche.
  • Raffinement proactif des informations : lorsque des informations manquent, GLM-PC interagit activement avec l'utilisateur pour affiner le plan d'exécution de la tâche en posant des questions.

 

Étude de cas : Traitement efficace de l'information et interaction sociale

Par exemple, lorsqu'il s'agit d'aider les utilisateurs à traiter les informations relatives au "Spring Festival New Year's Movie" sur Xiaohongshu, GLM-PC peut rapidement trouver et extraire les données pertinentes, et en même temps écrire le code pour stocker les informations sur l'ordinateur. S'il y a des erreurs dans le code généré, il peut se corriger lui-même en fonction du message d'erreur.

 

Instructions : Recherchez "Spring Festival New Year's Eve Movies" dans Xiaohongshu, citez l'image du premier message graphique, envoyez l'image au groupe de discussion {GGG} sur WeChat, et demandez-leur quel film ils aimeraient voir.

 

 

Cerveau droit de l'agent : images et cognition de l'interface graphique

Le "cerveau droit" du GLM-PC se concentre sur la perception de la profondeur et l'expérience interactive. Ses principales fonctions sont les suivantes

  • Compréhension des images de l'interface graphique : identifier avec précision les éléments de l'interface graphique (boutons, icônes, dispositions, etc.) et comprendre leur fonction et leur logique d'interaction.
  • Cognition du comportement de l'utilisateur : en combinant l'apprentissage de l'interface utilisateur et la compréhension des informations historiques sur les opérations, il fournit à l'utilisateur des recommandations d'opérations intelligentes pour l'interface actuelle.
  • Analyse sémantique d'images : analyse sémantique approfondie d'images complexes afin d'extraire des informations clés telles que du texte, des identifiants, des tendances et des indicateurs dans des graphiques de visualisation de données.
  • Fusion d'informations multimodales : fusion d'informations textuelles et d'images pour obtenir un résultat de perception complet. Par exemple, reconnaître à la fois la position des boutons et les étiquettes de texte dans l'interface utilisateur, afin d'aider le "cerveau gauche" à formuler des plans d'opération précis.

 

Démonstration : Organisation et archivage efficaces des données

Par exemple, GLM-PC a pu rechercher et extraire le contenu graphique lié au "classement de l'IA" dans Xiaohongshu. Par la suite, grâce au code auto-écrit, les informations sur l'entreprise sont stockées dans le fichier Excel nouvellement créé sur le bureau, et le contenu textuel des messages est enregistré dans le document Word spécifié, ce qui garantit une organisation et un archivage efficaces des données de l'utilisateur et améliore l'efficacité de la gestion de l'information.

 

Mode d'emploi : rechercher "new energy car list" dans la première image et le premier texte postés sur Xiaohongshu, citer le contenu de l'image et le contenu du texte du premier post, obtenir la liste des informations dans l'image et la stocker dans le nouveau bureau Excel, et mettre le contenu du texte du post dans un nouveau document Word appelé new-energy. et placer le texte du message dans un nouveau document Word appelé new-energy sur le bureau.

 

 

Agent des agents : collaboration entre le cerveau gauche et le cerveau droit

Ce modèle, qui s'appuie sur la collaboration entre les cerveaux gauche et droit, permet à GLM-PC non seulement de traiter des tâches logiques complexes, mais aussi de faire preuve d'une plus grande capacité d'adaptation, de créativité et de généralisation sur des problèmes ouverts. Grâce à l'optimisation dynamique et à la prise en compte du contexte, GLM-PC peut aider les utilisateurs à explorer des solutions plus efficaces, en particulier dans le traitement des tâches cycliques, l'exécution de raisonnements en plusieurs étapes et la gestion des tâches à long terme.

 

Étude de cas : aide à l'étude du vocabulaire anglais en 6e année

GLM-PC, en tant qu'assistant d'apprentissage du vocabulaire anglais de 6e année, peut automatiquement extraire des mots de vocabulaire de 6e année à partir de sites Web désignés, faire des phrases basées sur ces mots et enregistrer automatiquement les mots de vocabulaire et leurs phrases dans un nouveau document Word intitulé "Apprentissage du vocabulaire anglais de 6e année".

 

Trouvez 3 mots de vocabulaire dans ce vocabulaire de 6e année "https://www.dxsbb.com/news/277.html", puis faites une phrase pour chaque mot. Collez les mots de vocabulaire et les phrases correspondantes dans un nouveau document Word et enregistrez-le sous le nom "Grade 6 English Vocabulary Study" (Étude du vocabulaire anglais de 6e année).

 

 

Démonstration : envoi groupé d'images personnalisées de bénédictions WeChat et de félicitations pour le Nouvel An

GLM-PC est capable de personnaliser automatiquement les vœux du Nouvel An chinois et les images/vidéos de félicitations pour les amis du groupe WeChat et de les envoyer en tant que groupe en un seul clic, complétant ainsi les vœux de fête de manière efficace.

 

Instruction : Citez la liste des membres du groupe "GGG" sur WeChat, et envoyez à chacun d'eux un message de vœux pour le Nouvel An chinois 2025 ainsi qu'une photo sur le thème de l'année du serpent.

 

 

Démonstration : demande et programmation intelligente des vols

GLM-PC peut fournir aux utilisateurs des informations rapides sur les vols, sélectionner les billets d'avion les plus économiques et se synchroniser avec le calendrier de rappel de Flybook afin d'offrir un service complet, de la demande de renseignements sur les vols à la planification, en passant par la sélection des billets.

 

Instructions : Aidez-moi à trouver le billet d'avion le moins cher de Shanghai à Pékin le 21 janvier sur Ctrip ; Aidez-moi à établir un calendrier Flybook pour 6 heures avant le vol, avec un thème de départ vers l'aéroport et une durée d'une demi-heure.

 

Vitrine : PDF Questions de mathématiques Processus d'extraction et d'organisation

GLM-PC ouvre automatiquement les fichiers PDF, extrait le contenu spécifié, rassemble et stocke les informations dans un document Word.

 

Instruction : Aidez-moi à ouvrir le fichier desktop Permutation and Binomial Theorem Exercise.pdf, à citer les premières questions de mathématiques qui résument l'interface actuelle, et à les placer dans un nouveau document word sur le bureau.

 

 

de collaboration

Nous envisageons une coopération approfondie avec des fabricants de PC renommés tels que Lenovo et Asus afin de promouvoir conjointement l'innovation et le développement de l'AIPC (ordinateur personnel d'IA).

 

L'AIPC n'est pas seulement un ordinateur, mais aussi une nouvelle application de l'agent d'intelligence artificielle dans l'informatique personnelle, qui peut offrir aux utilisateurs une expérience de travail et de vie plus efficace et plus intelligente.

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...