AutoGLM-Web Plugin : Plus que l'utilisation d'un ordinateur, le moment de l'utilisation du téléphone par l'IA est arrivé !

Par rapport aux ordinateurs, les téléphones portables, qui ne peuvent être posés, nous accompagnent plus longtemps et sont plus proches de notre vie.
Si "Computer Use" ouvre un nouveau paradigme d'interaction entre l'homme et l'ordinateur, "Phone Use" va encore plus loin, en débloquant davantage de possibilités d'application et en permettant à l'IA de profiter réellement à tous.
Aujourd'hui, sur la base des efforts et des conclusions de l'équipe technique de GLM en matière de modélisation linguistique, de modélisation multimodale et d'utilisation d'outils, nous lançons le premier corps intelligent (agent) produit par GLM - AutoGLM, qui peut simuler le fonctionnement humain d'un téléphone portable et vous aider en recevant simplement des commandes textuelles ou vocales :
Aimer et écrire des commentaires sur le cercle d'amis de votre patron" sur WeChat ......
Sur Taobao, "achetez un certain produit en commande historique" ......
Réservez des hôtels sur Ctrip ......
Acheter des billets de train sur 12306 ......
Commandez un plat à emporter sur Meituan ......
En théorie, avec une compréhension approfondie des interfaces graphiques, AutoGLM peut faire tout ce qu'un humain peut faire sur un appareil électronique visuel (ordinateur, téléphone portable, tablette ......).

Le moment de l'utilisation du téléphone par l'IA nous a permis de faire un petit pas de plus sur la voie de l'intelligence artificielle généralisée (AGI).
Il ne se limite pas à des scénarios de tâches simples ou à des appels d'API, et n'exige pas des utilisateurs qu'ils élaborent manuellement des flux de travail complexes et fastidieux ; la logique de fonctionnement est similaire à celle des humains, et assiste véritablement les humains dans leur vie et leur travail quotidiens.
Adresse du projet : https://xiao9905.github.io/AutoGLM
Cette fois-ci, nous n'affichons toujours pas de "futur", vous pouvez donc passer votre tour :
Chrome ou Edge pour découvrir AutoGLM-Web en installant le plugin "Wisdom Spectrum", un assistant de navigation qui simule la visite d'un utilisateur sur une page web, clique sur une page web et effectue automatiquement une recherche avancée, un résumé et une génération de contenu sur un site web en fonction des commandes de l'utilisateur dans un grand modèle.
En ce qui concerne les téléphones portables, le premier lot est ouvert à certains utilisateurs de Qingyin (seul le système Android est pris en charge pour le moment), et vous êtes invités à soumettre des demandes pour des tests internes. Il convient de mentionner que nous avons également établi une coopération étroite avec des fabricants de téléphones portables tels que Honor, sur la base d'AutoGLM.
Technologie AutoGLM
AutoGLM est basé sur l'"Interface intermédiaire découplée pour les intelligences de base" et le "Cadre d'apprentissage par renforcement de cours en ligne auto-évolutif" développés par Smart Spectrum, qui surmontent les défis de la recherche et des applications intelligentes tels que l'antagonisme des capacités, la rareté des tâches et des données d'entraînement, la rareté des signaux de retour et la dérive des distributions de stratégies dans la planification des tâches et l'exécution des actions des intelligences à grand modèle, couplés à la stratégie d'apprentissage adaptatif, et sont capables d'une amélioration continue au cours du processus d'itération, d'améliorer continuellement et de manière stable ses performances. Tout comme une personne, dans le processus de croissance, acquiert constamment de nouvelles compétences.
AutoGLM relève deux défis majeurs lorsque de grands modèles sont utilisés comme intelligences :
Défi 1 : "exécution de l'action" insuffisamment précise
L'un des principaux défis de la formation de modèles intelligents de grande taille consiste à faire en sorte que le modèle apprenne à manipuler avec précision les éléments affichés à l'écran. La formation de bout en bout visant à former conjointement les capacités d'"exécution des actions" et de "planification des tâches" est limitée par le coût élevé de l'acquisition des données de trajectoire et la grave pénurie de données totales, ce qui entraîne une formation inadéquate des capacités d'exécution des actions qui nécessitent une grande précision.
Afin de résoudre ce problème, AutoGLM introduit la conception d'une "interface intermédiaire découplée de l'intelligence de base", qui découple les deux phases de "planification des tâches" et d'"exécution des actions" par le biais d'une interface intermédiaire en langage naturel, ce qui permet d'améliorer considérablement la capacité de l'intelligence. Par exemple, lorsque l'on commande un plat à emporter sur un téléphone portable et que l'on clique sur le bouton "soumettre la commande", la comparaison entre le schéma traditionnel et le schéma de l'"interface intermédiaire" est la suivante :

Défi 2 : Manque de flexibilité dans la "planification de la mission".
Un autre défi majeur est que les intelligences GUI disposent de données extrêmement limitées et coûteuses sur les trajectoires d'entraînement. En outre, les intelligences doivent avoir la flexibilité de planifier et de corriger à la volée lorsqu'elles sont confrontées à des tâches complexes et à des environnements réels. Cette flexibilité ne peut pas être facilement obtenue par les méthodes traditionnelles de formation de grands modèles telles que l'apprentissage par imitation et le réglage fin supervisé (SFT). À cette fin, nous avons mis au point un "cadre d'apprentissage par renforcement auto-évolutif de cours en ligne" pour apprendre et améliorer les capacités des intelligences à grand modèle à partir de zéro dans des environnements en ligne réels, à la fois sur le Web et sur le téléphone, en utilisant les navigateurs Web comme environnements expérimentaux. En introduisant une stratégie d'apprentissage auto-évolutif, le modèle s'examine, se stimule et s'améliore en permanence. Grâce à la méthode d'apprentissage par renforcement, le cadre ajuste dynamiquement la difficulté de la tâche d'apprentissage en fonction du niveau de capacité de l'intelligence dans les cycles d'itération actuels, afin de maximiser le potentiel du modèle. Grâce à la mise à jour de la politique de contrôle de la dispersion de KL et à la lecture de l'expérience de confiance du corps intelligent, nous atténuons et évitons le problème de l'oubli par le modèle de la tâche précédemment apprise au cours de la formation itérative. La version open-source de GLM-4-9B entraînée selon cette méthode peut alors améliorer de plus de 160% par rapport à GPT-4o dans le benchmark d'évaluation WebArena-Lite, atteignant un taux de réussite global de 43%.
AutoGLM réalise des améliorations de performance significatives à la fois dans l'utilisation du téléphone et dans l'utilisation du navigateur Web grâce à l'application combinée de la stratégie propre à Wiseplan de "découplage de l'interface intermédiaire des intelligences de base" et du "cadre d'apprentissage par renforcement de cours en ligne auto-évolutif". Par exemple, AutoGLM surpasse de manière significative GPT-4o et Claude-3.5-Sonnet sur les benchmarks AndroidLab. Dans le benchmark WebArena-Lite, AutoGLM améliore les performances d'environ 200% par rapport à GPT-4o, ce qui réduit considérablement l'écart entre les intelligences humaines et les intelligences de grands modèles en termes de réussite de la manipulation de l'interface graphique.
AutoGLM prend désormais en charge l'exécution automatisée de tâches sur plusieurs applications sur de vrais téléphones Android au moyen d'une application Android. AutoGLM fonctionne de manière satisfaisante lors de l'évaluation manuelle de tâches simples.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...