Smart Spectrum lance AutoGLM, un agent autonome d'exécution de tâches : cette fois, l'agent peut faire fonctionner activement toutes sortes d'appareils pour exécuter des tâches.
On assiste à un changement de paradigme dans la manière dont les humains interagissent avec les machines. Cela est dû à l'évolution d'un chatbot uniquement axé sur le dialogue vers un agent autonome doté de mains, d'un cerveau et d'yeux.
Smart Spectrum, qui a été l'une des premières grandes entreprises de modélisation à explorer l'agent, apporte aujourd'hui plusieurs nouveautés :
AutoGLM peut effectuer de manière autonome de longues étapes de plus de 50 actions, et peut également effectuer des tâches dans plusieurs applications.
AutoGLM ouvre une nouvelle expérience Internet "entièrement automatisée", prenant en charge des dizaines de sites Web et plus encore sans personnel.
GLM-PC pour faire fonctionner les ordinateurs comme des humains Lancement de tests internes et exploration de techniques pour la mise en œuvre d'agents à usage général basés sur des modèles multimodaux visuels
Lors de l'Agent OpenDay, AutoGLM a envoyé "un paquet rouge WeChat de l'IA" à des centaines d'invités et a commandé à distance des ordinateurs pour envoyer automatiquement des fichiers à partir de téléphones portables.
Le PDG de Wisdom Spectrum, Zhang Peng, n'a plus qu'à donner une simple commande vocale sur place. Il s'agissait à l'origine d'opérations très complexes pour la machine, qui sont aujourd'hui entièrement réalisées par l'agent produit Smart Spectrum.
Nouvelle mise à jour d'AutoGLM : le défi devient plus complexe
L'AutoGLM nouvellement mis à jour peut être mis au défi d'accomplir des tâches complexes :
Plus long : comprendre des instructions très longues et effectuer des tâches très longues. Par exemple, dans l'exemple de l'achat d'ingrédients pour un hotpot, AutoGLM effectue de manière autonome 54 étapes sans interruption. De plus, AutoGLM est plus performant qu'un opérateur humain pour cette tâche longue, cyclique et à plusieurs étapes.
Inter-applications : AutoGLM prend en charge l'exécution de tâches inter-applications. Les utilisateurs s'habitueront au traitement automatique de l'IA au lieu de passer d'une application à l'autre. Étant donné que la forme actuelle d'AutoGLM s'apparente davantage à une couche de programmation pour l'exécution d'APP entre les utilisateurs et les applications, la capacité inter-applications constitue une étape très importante.
Phrases courtes : AutoGLM peut prendre en charge des phrases personnalisées pour les tâches longues. Aujourd'hui, au lieu de donner à AutoGLM de longues commandes comme "Achetez-moi un café, latte de noix de coco brute, magasin Wudaokou, grand, chaud, sucre léger", vous pouvez simplement dire "Commandez un café".
Casual Mode : Nous avons tous peur de faire des choix, et aujourd'hui AutoGLM peut vous aider activement à prendre des décisions. En mode décontracté, l'IA décide de toutes les étapes et vous réserve une surprise sous la forme d'une boîte aveugle. Voulez-vous goûter le café que l'IA commande pour vous ?
AutoGLM a également annoncé le lancement du programme "1 Billion APPs Free Auto Upgrade", invitant les partenaires App à explorer ensemble leurs propres nouveaux scénarios Auto.
Les API des spécimens AutoGLM qui prennent en charge les scénarios et les applications de base seront disponibles à l'essai sur la plateforme ouverte Smart Spectrum maas (bigmodel.cn) dans les deux semaines à venir.
Le terminal Web ouvre une nouvelle expérience de navigation "entièrement automatisée" : à partir de maintenant, le plug-in AutoGLM de Wisdom Spectrum est mis en ligne, prenant en charge la conduite sans pilote de dizaines de sites web tels que Baidu search, Weibo, Zhihu, Github et ainsi de suite. Lors de la démonstration sur site, le plugin AutoGLM a automatiquement complété le processus de "recherche de Mango tv dans Baidu, ouverture de Little Alley House, lecture du dernier épisode et envoi de pop-ups pour terminer". L'ensemble du processus s'est déroulé sans intervention humaine.

GLM-PC Invitation à tester : une exploration technologique pour des ordinateurs "sans conducteur".
GLM-PC est une technologie explorée par l'équipe GLM pour des PC "sans conducteur", basée sur le modèle multimodal de Wisdom Spectrum, CogAgent. la première phase de scénarios de tests internes est actuellement ouverte, y compris :
Les substituts de réunion : aident les utilisateurs à réserver des réunions et à y participer, et envoient des résumés de réunion.
Traitement des documents : aide au téléchargement et à l'envoi de documents, compréhension et synthèse de documents.
Recherche sur le web et résumé : recherche de mots-clés spécifiques sur les plateformes désignées (par exemple WeChat, Zhihu, Xiaohongshu, etc.) pour compléter la lecture et le résumé.
Fonctionnement à distance et temporisé : le téléphone portable envoie des commandes à distance, GLM-PC peut compléter de manière autonome le fonctionnement de l'ordinateur ; fixer une heure future pour exécuter des tâches régulièrement dans l'état d'amorçage.
Écran invisible : pendant que l'utilisateur travaille, le GLM-PC peut effectuer son travail de manière autonome sur l'écran invisible, libérant ainsi l'utilisation de l'écran.
Le GLM-PC utilise un ordinateur presque exactement de la même manière qu'un humain - en regardant des graphiques et du texte avec les yeux, en planifiant avec le cerveau, puis en utilisant les mains pour effectuer des opérations telles que cliquer, double-cliquer, taper, etc. C'est pourquoi le GLM-PC est théoriquement capable d'exécuter n'importe quelle application conçue pour les humains une fois qu'il l'a apprise. Il s'agit d'une capacité au niveau du système, multiplateforme, qui ne dépend pas de HTML ou d'API, et dont le plafond de capacité est plus élevé.
Cependant, en raison de la complexité du PC et du fait que presque tout ce que tout le monde fait sur le PC est une tâche complexe, les capacités des grands modèles d'aujourd'hui sont encore loin d'être un véritable substitut pour tout le monde dans le bureau.
L'"invitation à l'expérience" GLM-PC a été ouverte. Nous continuerons à travailler dur pour mettre le produit à la disposition de tous les utilisateurs dès que possible une fois qu'il aura été perfectionné, et nous espérons également explorer avec d'autres vendeurs la possibilité d'une entreprise commune.
AutoGLM et GLM-PC sont nos principales tentatives pour évoluer vers un système d'exploitation intelligent. Ils sont nés de l'accumulation par Wiseplan de technologies dans le domaine des grands modèles de langage, des modèles multimodaux, du raisonnement logique et de l'utilisation d'outils. Depuis AgentBench en avril 23 jusqu'au modèle CogAgent en août, le travail de développement de Wiseplan pour AutoGLM et le modèle de GLM-PC, CogAgent, a duré un an et demi.
Contrairement à OpenAI, Smart Spectrum définit cinq étapes dans le développement du Big Model : L1 Compétence linguistique, L2 Compétence logique (compétence multimodale), L3 Capacité à utiliser des outils, L4 Compétence d'auto-apprentissage, L5 Exploration des lois scientifiques.
Jusqu'à présent, le Big Model a été doté de certaines des capacités d'interaction humaine avec le monde physique réel. "L'agent améliorera considérablement la capacité de L3 à utiliser des outils, tout en ouvrant la voie à l'exploration de la capacité d'auto-apprentissage de L4". a déclaré Zhang Peng.

Zhang Peng a déclaré que l'équipe GLM continuerait à accélérer le développement de produits de modèles d'agents à l'avenir, en espérant que le paradigme de l'exploitation d'ordinateurs et de téléphones mobiles en une seule phrase se concrétisera le plus rapidement possible.
Les grands modèles du chat à l'acte
Aujourd'hui, la technologie des grands modèles modifie la manière dont les machines et les personnes interagissent, sur la base de la compréhension des besoins, de la planification et de la prise de décision, de l'exécution d'actions et de l'autoréflexion, l'agent apportera une interaction intuitive entre l'homme et la machine - de l'adaptation des personnes aux machines à l'adaptation des machines aux personnes.
Des entreprises telles que Apple Intelligence, Anthropic (Computer Use), Google (Jarvis) et OpenAI (Operator) ont également identifié l'IA agentique comme une priorité majeure pour 2025. Gartner a récemment classé l'IA agentique parmi les 10 principales tendances technologiques pour 2025 et prédit qu'au moins 15% décisions professionnelles quotidiennes seront prises de manière autonome par l'IA agentique en 2028, contre zéro en 2024.
Contrairement à la GenAI, les agents sont guidés par des objectifs, capables d'exécuter entièrement des flux de travail, de s'adapter, d'apprendre, d'itérer, de collaborer avec d'autres systèmes et des humains, et d'accomplir des tâches de bout en bout. Selon Zhang Peng, l'agent peut être considéré comme le prototype du LLM-OS, le système d'exploitation général du grand modèle.
"À ce stade, AutoGLM équivaut à ajouter une couche d'ordonnancement de l'exécution entre les humains et les applications, ce qui modifie considérablement la forme de l'interaction homme-machine. Plus important encore, nous voyons la possibilité d'un LLM-OS, basé sur de grandes capacités d'intelligence de modèle (de L1 à L4 et au-delà), qui a l'opportunité de permettre une interaction homme-machine native à l'avenir. Le paradigme de l'interaction homme-machine passe à la vitesse supérieure".
Un nouveau paradigme pour les appareils intelligents à l'ère de l'IA
Alors que les capacités des grands modèles continuent d'évoluer, nous voyons lentement l'IA se doter d'un cerveau, d'yeux et de mains. Non seulement l'intelligence continue de croître, mais les capacités perceptives et la largeur de bande d'interaction sont enrichies et étendues, de même que l'exécution accélérée qu'apporte désormais l'agent.
Zhang Fan, directeur de l'exploitation de Smart Spectrum, a déclaré que les appareils intelligents allaient bénéficier de nouvelles opportunités grâce au soutien des grands modèles. Les téléphones mobiles + IA deviendront des assistants personnels intelligents, les PC + IA deviendront de nouveaux outils de productivité, et les voitures + IA feront de la voiture le troisième espace de vie intelligent des gens. Bien entendu, le grand modèle n'offrira pas seulement des opportunités aux téléphones mobiles, aux ordinateurs et aux voitures, mais profitera également à tous les types d'appareils intelligents. L'évolution continue du grand modèle a jeté des bases solides pour que l'agent transforme l'expérience de l'interaction entre l'homme et le véhicule.

Avec l'amélioration continue des performances et de la puissance de calcul côté utilisateur, les modèles adaptés aux appareils natifs de l'IA et l'émergence d'une architecture collaborative avec homologie de nuage d'extrémité, l'agent transforme non seulement l'expérience de l'utilisateur sur les systèmes d'exploitation et les applications, mais l'étend également à toutes sortes d'appareils intelligents, des téléphones mobiles aux ordinateurs en passant par les voitures, les lunettes, les maisons et toutes sortes d'appareils périphériques, tous les types d'appareils natifs de l'IA se bousculent pour émerger.
Wang Zuo-jian, directeur technique de l'IA chez Glory, Zhong Huai-sheng, responsable de l'écologie intelligente chez ASUS AIPC, Lian Lei, responsable de la voix intelligente et des activités intelligentes chez Xiaopeng Automobile Cockpit, Wan Satellite, responsable de la technologie des produits d'IA de Qualcomm en Chine, et Gao Yu, directeur général du département technologique d'Intel en Chine, en tant que clients et partenaires de Smart Spectrum, ont fait part de leurs pratiques et de leurs perspectives concernant les terminaux intelligents, respectivement, à partir de différents scénarios.
Le développement du Big Model et de l'agent n'apporte pas seulement aux utilisateurs un nouveau paradigme d'appareils intelligents à l'ère de l'IA, mais signifie également un espace d'atterrissage plus large pour la technologie du Big Model. Des appareils intelligents aux réseaux intelligents, dans un avenir proche, nous verrons l'interconnectivité et les possibilités infinies des appareils natifs de l'IA. Dans ce processus, Smart Spectrum fournira également une série de produits et de capacités pour aider les appareils intelligents à adopter les grands modèles et à accélérer l'avènement d'une nouvelle ère d'appareils natifs de l'IA.

Adresse de l'application AutoGLM

© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...