AutoGLM-Web Plugin : Plus que l'utilisation d'un ordinateur, le moment de l'utilisation du téléphone par l'IA est arrivé !

Nouvelles de l'IAMise à jour il y a 9 mois Cercle de partage de l'IA

12.2K 00

AutoGLM-Web插件：不止 Computer Use，AI 的「Phone Use」时刻也来了

Par rapport aux ordinateurs, les téléphones portables, qui ne peuvent être posés, nous accompagnent plus longtemps et sont plus proches de notre vie.

Si "Computer Use" ouvre un nouveau paradigme d'interaction entre l'homme et l'ordinateur, "Phone Use" va encore plus loin, en débloquant davantage de possibilités d'application et en permettant à l'IA de profiter réellement à tous.

GLM-PC (Smart Spectrum Bull) est officiellement disponible en téléchargement interne, l'IA qui peut réellement contrôler l'ordinateur.

Aujourd'hui, sur la base des efforts et des conclusions de l'équipe technique de GLM en matière de modélisation linguistique, de modélisation multimodale et d'utilisation d'outils, nous lançons le premier corps intelligent (agent) produit par GLM - AutoGLM, qui peut simuler le fonctionnement humain d'un téléphone portable et vous aider en recevant simplement des commandes textuelles ou vocales :

Aimer et écrire des commentaires sur le cercle d'amis de votre patron" sur WeChat ......
Sur Taobao, "achetez un certain produit en commande historique" ......
Réservez des hôtels sur Ctrip ......
Acheter des billets de train sur 12306 ......
Commandez un plat à emporter sur Meituan ......

En théorie, avec une compréhension approfondie des interfaces graphiques, AutoGLM peut faire tout ce qu'un humain peut faire sur un appareil électronique visuel (ordinateur, téléphone portable, tablette ......).

Le moment de l'utilisation du téléphone par l'IA nous a permis de faire un petit pas de plus sur la voie de l'intelligence artificielle généralisée (AGI).

Il ne se limite pas à des scénarios de tâches simples ou à des appels d'API, et n'exige pas des utilisateurs qu'ils élaborent manuellement des flux de travail complexes et fastidieux ; la logique de fonctionnement est similaire à celle des humains, et assiste véritablement les humains dans leur vie et leur travail quotidiens.
Adresse du projet : https://xiao9905.github.io/AutoGLM

Cette fois-ci, nous n'affichons toujours pas de "futur", vous pouvez donc passer votre tour :
Chrome ou Edge pour découvrir AutoGLM-Web en installant le plugin "Wisdom Spectrum", un assistant de navigation qui simule la visite d'un utilisateur sur une page web, clique sur une page web et effectue automatiquement une recherche avancée, un résumé et une génération de contenu sur un site web en fonction des commandes de l'utilisateur dans un grand modèle.
En ce qui concerne les téléphones portables, le premier lot est ouvert à certains utilisateurs de Qingyin (seul le système Android est pris en charge pour le moment), et vous êtes invités à soumettre des demandes pour des tests internes. Il convient de mentionner que nous avons également établi une coopération étroite avec des fabricants de téléphones portables tels que Honor, sur la base d'AutoGLM.

Technologie AutoGLM

AutoGLM est basé sur l'"Interface intermédiaire découplée pour les intelligences de base" et le "Cadre d'apprentissage par renforcement de cours en ligne auto-évolutif" développés par Smart Spectrum, qui surmontent les défis de la recherche et des applications intelligentes tels que l'antagonisme des capacités, la rareté des tâches et des données d'entraînement, la rareté des signaux de retour et la dérive des distributions de stratégies dans la planification des tâches et l'exécution des actions des intelligences à grand modèle, couplés à la stratégie d'apprentissage adaptatif, et sont capables d'une amélioration continue au cours du processus d'itération, d'améliorer continuellement et de manière stable ses performances. Tout comme une personne, dans le processus de croissance, acquiert constamment de nouvelles compétences.

AutoGLM relève deux défis majeurs lorsque de grands modèles sont utilisés comme intelligences :

Défi 1 : "exécution de l'action" insuffisamment précise

L'un des principaux défis de la formation de modèles intelligents de grande taille consiste à faire en sorte que le modèle apprenne à manipuler avec précision les éléments affichés à l'écran. La formation de bout en bout visant à former conjointement les capacités d'"exécution des actions" et de "planification des tâches" est limitée par le coût élevé de l'acquisition des données de trajectoire et la grave pénurie de données totales, ce qui entraîne une formation inadéquate des capacités d'exécution des actions qui nécessitent une grande précision.
Afin de résoudre ce problème, AutoGLM introduit la conception d'une "interface intermédiaire découplée de l'intelligence de base", qui découple les deux phases de "planification des tâches" et d'"exécution des actions" par le biais d'une interface intermédiaire en langage naturel, ce qui permet d'améliorer considérablement la capacité de l'intelligence. Par exemple, lorsque l'on commande un plat à emporter sur un téléphone portable et que l'on clique sur le bouton "soumettre la commande", la comparaison entre le schéma traditionnel et le schéma de l'"interface intermédiaire" est la suivante :

Défi 2 : Manque de flexibilité dans la "planification de la mission".

Un autre défi majeur est que les intelligences GUI disposent de données extrêmement limitées et coûteuses sur les trajectoires d'entraînement. En outre, les intelligences doivent avoir la flexibilité de planifier et de corriger à la volée lorsqu'elles sont confrontées à des tâches complexes et à des environnements réels. Cette flexibilité ne peut pas être facilement obtenue par les méthodes traditionnelles de formation de grands modèles telles que l'apprentissage par imitation et le réglage fin supervisé (SFT). À cette fin, nous avons mis au point un "cadre d'apprentissage par renforcement auto-évolutif de cours en ligne" pour apprendre et améliorer les capacités des intelligences à grand modèle à partir de zéro dans des environnements en ligne réels, à la fois sur le Web et sur le téléphone, en utilisant les navigateurs Web comme environnements expérimentaux. En introduisant une stratégie d'apprentissage auto-évolutif, le modèle s'examine, se stimule et s'améliore en permanence. Grâce à la méthode d'apprentissage par renforcement, le cadre ajuste dynamiquement la difficulté de la tâche d'apprentissage en fonction du niveau de capacité de l'intelligence dans les cycles d'itération actuels, afin de maximiser le potentiel du modèle. Grâce à la mise à jour de la politique de contrôle de la dispersion de KL et à la lecture de l'expérience de confiance du corps intelligent, nous atténuons et évitons le problème de l'oubli par le modèle de la tâche précédemment apprise au cours de la formation itérative. La version open-source de GLM-4-9B entraînée selon cette méthode peut alors améliorer de plus de 160% par rapport à GPT-4o dans le benchmark d'évaluation WebArena-Lite, atteignant un taux de réussite global de 43%.
AutoGLM réalise des améliorations de performance significatives à la fois dans l'utilisation du téléphone et dans l'utilisation du navigateur Web grâce à l'application combinée de la stratégie propre à Wiseplan de "découplage de l'interface intermédiaire des intelligences de base" et du "cadre d'apprentissage par renforcement de cours en ligne auto-évolutif". Par exemple, AutoGLM surpasse de manière significative GPT-4o et Claude-3.5-Sonnet sur les benchmarks AndroidLab. AutoGLM-Web插件：不止 Computer Use，AI 的「Phone Use」时刻也来了 Dans le benchmark WebArena-Lite, AutoGLM améliore les performances d'environ 200% par rapport à GPT-4o, ce qui réduit considérablement l'écart entre les intelligences humaines et les intelligences de grands modèles en termes de réussite de la manipulation de l'interface graphique.
AutoGLM-Web插件：不止 Computer Use，AI 的「Phone Use」时刻也来了 AutoGLM prend désormais en charge l'exécution automatisée de tâches sur plusieurs applications sur de vrais téléphones Android au moyen d'une application Android. AutoGLM fonctionne de manière satisfaisante lors de l'évaluation manuelle de tâches simples.
AutoGLM-Web插件：不止 Computer Use，AI 的「Phone Use」时刻也来了

Nouvelles de l'IA

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Baidu a le coeur amer... ...Wenxin Yiyin sera totalement gratuit à partir du 1er avril, et la fonction de recherche approfondie en ligne

Nouvelles de l'IA

Il y a 7 mois

08.6K

SiliconCloud lance le modèle vidéo accéléré Mochi-1-Preview

Nouvelles de l'IA

Il y a 9 mois

08K

Deep Research：一款深度探索知识并生成报告的新工具，Google给出的主题知识研究新范式

Deep Research : un nouvel outil pour explorer les connaissances en profondeur et générer des rapports, un nouveau paradigme pour la recherche de connaissances sur un sujet donné, proposé par Google.

Nouvelles de l'IA

Il y a 8 mois

010.6K

人工智能系统首次通过图灵测试：GPT-4.5与LLaMa-3.1-405B的突破性表现

Un système d'intelligence artificielle réussit pour la première fois le test de Turing : percée de GPT-4.5 avec LLaMa-3.1-405B

Nouvelles de l'IA

il y a 5 mois

09.2K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

AutoGLM-Web Plugin : Plus que l'utilisation d'un ordinateur, le moment de l'utilisation du téléphone par l'IA est arrivé !

Technologie AutoGLM

Modèle de génération vidéo Mochi 1 : SOTA dans les modèles de génération vidéo open source

La mise à jour de l'évaluation comparative de Claude 3.5 Sonnet Chinese est disponible ! La capacité de codage dépasse le GPT-4o, le raisonnement d'ordre supérieur n'est pas aussi bon que l'o1

Articles connexes

Baidu a le coeur amer... ...Wenxin Yiyin sera totalement gratuit à partir du 1er avril, et la fonction de recherche approfondie en ligne

SiliconCloud lance le modèle vidéo accéléré Mochi-1-Preview

Deep Research : un nouvel outil pour explorer les connaissances en profondeur et générer des rapports, un nouveau paradigme pour la recherche de connaissances sur un sujet donné, proposé par Google.

Un système d'intelligence artificielle réussit pour la première fois le test de Turing : percée de GPT-4.5 avec LLaMa-3.1-405B

Pas de commentaires

Dernières collections

Derniers articles

AutoGLM-Web Plugin : Plus que l'utilisation d'un ordinateur, le moment de l'utilisation du téléphone par l'IA est arrivé !

Technologie AutoGLM

Modèle de génération vidéo Mochi 1 : SOTA dans les modèles de génération vidéo open source

La mise à jour de l'évaluation comparative de Claude 3.5 Sonnet Chinese est disponible ! La capacité de codage dépasse le GPT-4o, le raisonnement d'ordre supérieur n'est pas aussi bon que l'o1

Articles connexes

Baidu a le coeur amer... ...Wenxin Yiyin sera totalement gratuit à partir du 1er avril, et la fonction de recherche approfondie en ligne

SiliconCloud lance le modèle vidéo accéléré Mochi-1-Preview

Deep Research : un nouvel outil pour explorer les connaissances en profondeur et générer des rapports, un nouveau paradigme pour la recherche de connaissances sur un sujet donné, proposé par Google.

Un système d'intelligence artificielle réussit pour la première fois le test de Turing : percée de GPT-4.5 avec LLaMa-3.1-405B

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles