Wu Enda propose quatre types d'intelligentsia : les flux de travail de l'intelligentsia de l'IA mènent les nouvelles tendances de l'intelligence artificielle.

Base de connaissances sur l'IAPosté il y a 1 an Cercle de partage de l'IA

8.9K 00

Texte original :Agents généralement capables dans des mondes ouverts [S62816]

1. l'intelligence réflexive
Possibilité de vérifier et de modifier le code ou le contenu généré, et de l'optimiser de manière itérative
L'autoréflexion et la révision permettent d'obtenir des résultats de meilleure qualité.
Il s'agit d'une technologie robuste et efficace qui convient à un large éventail d'applications.
2. utilisation des intelligences instrumentales
Capacité à utiliser une variété d'outils pour collecter des informations, analyser et prendre des mesures, en élargissant l'éventail des applications.
Les premières recherches sur l'utilisation d'outils ont été menées principalement dans le domaine de la vision par ordinateur, où les modèles de langage n'étaient pas encore capables de traiter des images.
3. la planification de l'intelligence
Démontre une capacité étonnante à élaborer et à exécuter de manière autonome des plans basés sur les objectifs de la tâche.
En cas d'échec d'une étape, la capacité de changer d'itinéraire pour éviter l'échec, avec un certain degré d'autonomie et d'adaptabilité.
Il n'est pas encore tout à fait fiable, mais lorsqu'il fonctionne, il est tout à fait étonnant.
4. la multi-intelligence collaborative
En confiant à des intelligences différentes des rôles différents et en les laissant travailler ensemble pour accomplir des tâches, elles peuvent montrer des capacités plus fortes que celles d'une seule intelligence.
Les intelligences multiples peuvent s'engager dans un dialogue approfondi et une division du travail pour accomplir des tâches complexes de développement ou de création.
Il est également possible de faire débattre les intelligences multiples, ce qui est un moyen efficace d'améliorer les performances du modèle.

J'ai hâte de partager mes découvertes sur les intelligences artificielles, qui constituent selon moi une tendance passionnante que toute personne impliquée dans le développement de l'intelligence artificielle devrait suivre de près. Je me réjouis également de toutes les "tendances futures" qui seront présentées.

Parlons donc de l'intelligence artificielle. La façon dont la plupart d'entre nous utilisent la modélisation du langage est la suivante : par le biais d'un flux de travail sans intelligence, nous saisissons une invite et générons ensuite une réponse. C'est un peu comme lorsqu'on demande à quelqu'un d'écrire un article sur un certain sujet, et je dis qu'il faut s'asseoir devant le clavier et le taper en une seule fois, comme si le retour en arrière n'était pas autorisé. Malgré la difficulté de cette tâche, le modèle de langage étendu est étonnamment performant.

En revanche, un flux de travail avec des intelligences IA pourrait ressembler à ce qui suit. Demandez à une IA ou à un grand modèle de langage de rédiger les grandes lignes d'un article. Vous avez besoin de rechercher quelque chose en ligne ? Si vous en avez besoin, faites-le. Rédigez ensuite une première version, puis relisez la première version que vous avez rédigée vous-même et réfléchissez aux parties qui doivent être modifiées. Puis révisez votre premier jet et continuez. Ce flux de travail est donc itératif : vous pouvez faire appel au grand modèle linguistique pour réfléchir, puis réviser l'article, puis réfléchir à nouveau, et ainsi de suite. Peu de gens réalisent que les résultats sont meilleurs de cette manière. J'ai été moi-même surpris par les résultats des flux de travail de ces intelligences artificielles.

Je vais faire une étude de cas. Mon équipe a analysé certaines données à l'aide d'un test de programmation appelé Human Evaluation Benchmark, publié par OpenAI il y a quelques années. Ce test consiste en des problèmes de programmation tels que la recherche de la somme de tous les éléments impairs ou des éléments en position impaire, à partir d'une liste non vide d'entiers. La réponse peut être un extrait de code comme celui-ci. Bon nombre d'entre nous utiliseront des indices à zéro échantillon, c'est-à-dire que nous dirons à l'IA d'écrire le code et lui demanderons de l'exécuter en une seule fois. Qui programmerait de la sorte ? Personne. Nous nous contentons d'écrire le code et de l'exécuter. C'est peut-être ce que vous faites. Moi, je ne peux pas.

En fait, si vous utilisez le GPT 3.5 pour le cueing zéro échantillon, il obtient 481 TP3 T. Le GPT-4 fait beaucoup mieux, avec 671 TP3 T. Mais si vous construisez un flux de travail d'intelligences IA au-dessus du GPT 3.5, il peut faire encore mieux que le GPT-4. Si vous appliquez ce flux de travail au GPT-4, les résultats sont également très bons. Vous remarquerez que le GPT 3.5 avec le flux de travail AI Intelligentsia est en fait meilleur que le GPT-4, ce qui signifie qu'il va avoir un impact important sur la façon dont nous créons des applications.

Le terme d'intelligence artificielle est largement débattu et de nombreux rapports de consultants traitent de l'intelligence artificielle, de l'avenir de l'intelligence artificielle, etc. J'aimerais partager avec vous, de manière plus substantielle, certains des modèles de conception courants que j'observe dans les intelligences de l'IA. Il s'agit d'un domaine complexe et déroutant qui fait l'objet de nombreuses recherches et de nombreux projets open source. Il y a beaucoup de choses qui se passent. Mais j'essaie de donner un aperçu plus pertinent de ce qui se passe dans le domaine des intelligences artificielles.

La réflexion est un outil que la plupart d'entre nous devraient utiliser. Elle fonctionne. Je pense qu'elle devrait être plus largement utilisée. C'est vraiment une technique très robuste. Lorsque je l'utilise, je parviens toujours à la faire fonctionner. Quant à la planification et à la collaboration multi-intelligence, je pense qu'il s'agit d'un domaine émergent. Lorsque je les utilise, je suis parfois surpris par leur efficacité. Mais, du moins pour le moment, je ne suis pas sûr de pouvoir les faire fonctionner de manière cohérente. Permettez-moi donc de passer en revue ces quatre modèles de conception plus en détail dans les prochaines pages de diapositives. Si l'un d'entre vous retourne les essayer pour lui-même, ou si vous demandez à vos ingénieurs de les utiliser, je pense que vous constaterez très rapidement des gains de productivité.

En ce qui concerne la réflexion, voici un exemple. Supposons que je demande à un système de coder une tâche pour moi. Nous disposons alors d'une intelligence de programmation qui l'invite à coder la tâche, par exemple en définissant une fonction qui exécute la tâche, en écrivant une fonction de ce type. Un exemple d'autoréflexion est que vous pouvez demander au grand modèle de langage de faire ceci. Voici un morceau de code écrit pour une tâche particulière. Présentez-lui ensuite exactement le même code qu'il vient de générer. Demandez-lui ensuite d'examiner ce code pour voir s'il est correct, efficace et bien structuré, en posant des questions de ce type. Les résultats montrent que le même grand modèle de langage que vous avez utilisé pour le code précédent pourrait être en mesure de repérer un problème tel que le bogue à la ligne 5 et de le corriger. Et ainsi de suite. Si vous lui présentez à nouveau son propre retour d'information, il est possible qu'il crée une deuxième version du code, qui sera peut-être plus performante que la première. Il n'y a aucune garantie, mais dans la plupart des cas, cette approche vaut la peine d'être essayée dans de nombreuses applications. En révélant cela à l'avance, si vous lui demandez d'exécuter des tests unitaires, et s'il ne réussit pas les tests unitaires, vous pouvez alors lui demander pourquoi il n'a pas réussi les tests unitaires. En ayant ce dialogue, nous pourrons peut-être comprendre pourquoi il n'a pas réussi les tests unitaires, vous devriez donc essayer de changer quelque chose et de générer une version V3 du code. D'ailleurs, pour ceux d'entre vous qui veulent en savoir plus sur ces techniques, je suis très enthousiaste. Pour chaque partie de la présentation, j'ai inclus quelques lectures recommandées au bas de la page pour, je l'espère, fournir plus de références.

Encore une fois, pour donner un aperçu du système de corps multi-intelligent, je décris un corps intelligent programmant que l'on peut inciter à dialoguer avec lui-même. L'évolution naturelle de cette idée est qu'au lieu d'avoir une seule intelligence de programmation, on pourrait mettre en place deux intelligences, l'une de programmation et l'autre de révision. Elles pourraient toutes être basées sur le même grand modèle de langage, mais avec des manières différentes de fournir nos signaux. À l'une des parties, nous dirions : "Vous êtes un expert en programmation, écrivez du code". À l'autre partie, nous dirions : vous êtes un expert en révision de code, veuillez réviser ce code. Il s'agit en fait d'un flux de travail très facile à mettre en œuvre. Je pense qu'il s'agit d'une technique très polyvalente qui peut être adaptée à une grande variété de flux de travail. Elle améliorera considérablement les performances du grand modèle linguistique.

Le deuxième modèle de conception est l'utilisation d'outils. Beaucoup d'entre vous ont pu voir comment les systèmes basés sur de grands modèles de langage utilisent des outils. À gauche, une capture d'écran du copilote, et à droite, une partie de ce que j'ai extrait de GPT-4. Cependant, si vous demandez à un grand modèle linguistique actuel de répondre à une question telle que "Quelle est la meilleure photocopieuse pour une recherche sur le web", il générera et exécutera du code. En fait, il existe de nombreux outils différents utilisés par de nombreuses personnes pour effectuer des analyses, recueillir des informations, prendre des mesures et améliorer leur efficacité personnelle.

La plupart des premières recherches sur l'utilisation d'outils ont été menées par la communauté des spécialistes de la vision par ordinateur. En effet, avant l'avènement des grands modèles de langage, ceux-ci ne pouvaient pas traiter les images. La seule option consistait donc à faire en sorte que le grand modèle de langage génère une fonction capable de manipuler des images, comme la génération d'images ou la détection d'objets. Si vous regardez de près la littérature, vous verrez qu'une grande partie de la recherche sur l'utilisation d'outils semble provenir du domaine de la vision, parce qu'avant l'avènement de GPT-4 et LLaVA, etc. C'est là que l'utilisation d'outils entre en jeu et élargit la gamme d'applications des grands modèles de langage.

Le point suivant est la planification. Pour ceux d'entre vous qui ne se sont pas encore penchés sur les algorithmes de planification, je pense que beaucoup de gens parleront de l'algorithme de planification. ChatGPT Le moment de choc, la sensation de quelque chose que l'on n'a jamais vu auparavant. Je pense que vous n'avez probablement pas utilisé d'algorithmes de planification. Beaucoup de gens s'exclameront : "Wow, je ne pensais pas que les intelligences artificielles pouvaient être aussi performantes". J'ai assisté à des démonstrations en direct où, en cas d'échec, l'intelligence artificielle replanifie la trajectoire pour éviter l'échec. En fait, à plusieurs reprises, j'ai été époustouflé par l'autonomie de mes propres systèmes d'intelligence artificielle.

J'ai adapté un exemple tiré d'un article sur les modèles GPT, dans lequel vous pourriez faire générer une image d'une fille lisant un livre, avec la même pose que le garçon dans l'image, par exemple example.jpeg, et ensuite décrire le garçon dans la nouvelle image. En utilisant les intelligences artificielles existantes, vous pourriez décider de déterminer d'abord la pose du garçon, puis de trouver un modèle approprié, éventuellement sur la plateforme HuggingFace, pour extraire la pose. Ensuite, vous devez trouver un modèle qui post-traite l'image, synthétise une image de la fille conformément aux instructions, puis utilise des techniques de conversion d'image en texte et enfin de conversion de texte en parole.

Nous disposons actuellement d'un certain nombre d'intelligences artificielles et, bien qu'elles ne soient pas toujours fiables, qu'elles soient parfois un peu encombrantes et qu'elles ne fonctionnent pas toujours, lorsqu'elles fonctionnent, les résultats sont assez étonnants. Grâce à ce type de cycle corporel intelligent, nous pouvons même parfois nous remettre d'échecs antérieurs. J'ai commencé à utiliser des intelligences de recherche comme celle-ci dans certains de mes travaux, lorsque j'ai besoin d'une recherche, mais que je ne veux pas passer beaucoup de temps à la chercher moi-même. Je confie la tâche à l'intelligence de recherche et je reviens un peu plus tard pour voir ce qu'elle a trouvé. Parfois, elle trouve des résultats valables, parfois non. Quoi qu'il en soit, cela fait désormais partie de mon flux de travail personnel.

Le dernier modèle de conception est la collaboration multi-intelligence. Ce modèle peut sembler étrange, mais il fonctionne mieux que vous ne le pensez. À gauche se trouve une capture d'écran d'un document appelé "Chat Dev", un projet complètement ouvert et en fait open source. Nombre d'entre vous ont peut-être déjà vu ces communiqués de presse tape-à-l'œil sur les médias sociaux appelés "Devin"La démo de "Chat Dev" est disponible sur mon ordinateur portable". Chat Dev" est un exemple de système multi-intelligence dans lequel vous pouvez configurer un Grand Modèle de Langage (LLM) pour qu'il joue le rôle du PDG, du concepteur, du chef de produit ou du testeur d'une société d'ingénierie logicielle. Tout ce que vous avez à faire est de dire au LLM que vous êtes maintenant le PDG et que vous êtes maintenant un ingénieur logiciel, et ils commenceront à collaborer et à avoir un dialogue approfondi. Si vous leur demandez de développer un jeu, comme le jeu GoMoki, ils passeront quelques minutes à écrire du code, à tester, à itérer et à générer des programmes étonnamment complexes. Cela ne fonctionne pas toujours, et j'ai eu ma part d'échecs, mais il est parfois étonnant de voir à quel point les résultats sont bons, et la technologie s'améliore sans cesse. Un autre modèle de conception consiste à laisser les différentes intelligences débattre, vous pouvez avoir plusieurs intelligences différentes comme ChatGPT et Gémeaux L'organisation d'un débat est également un moyen efficace d'améliorer les performances. Ainsi, la collaboration de plusieurs intelligences artificielles simulées s'est avérée être un modèle de conception très puissant.

Dans l'ensemble, il s'agit des modèles de conception que j'ai observés et je pense que si nous pouvons les appliquer dans notre travail, nous pourrons améliorer les résultats de l'IA plus rapidement. Je pense que le modèle de conception Intelligent Body Reasoning constituera un développement important.

Voici ma dernière diapositive. Je m'attends à ce que les tâches que l'IA peut accomplir augmentent considérablement cette année, en raison de l'impact des flux de travail intelligents du corps. Il y a une chose que les gens ont peut-être du mal à accepter : lorsque nous envoyons un signal au LLM, nous nous attendons à une réponse immédiate. En fait, lors d'une discussion que j'ai eue chez Google il y a dix ans, intitulée "Big Box Search", nous avons saisi des invites très longues. Je n'ai pas réussi à faire avancer cette idée parce que lorsque vous faites une recherche sur le web, vous voulez une réponse en une demi-seconde, c'est dans la nature humaine. Nous aimons avoir un retour d'information instantané. Mais pour de nombreux flux de travail intelligents, je pense que nous devons apprendre à déléguer des tâches à des intelligences IA et à être patients et à attendre quelques minutes, voire quelques heures, pour obtenir une réponse. Tout comme je vois beaucoup de managers novices qui délèguent des tâches puis vérifient cinq minutes plus tard, ce qui n'est pas efficace, nous devons faire la même chose avec certaines intelligences artificielles, même si c'est très difficile. J'ai cru entendre des rires.

En outre, la génération rapide de jeton Les LLM lisent et génèrent des jetons pour eux-mêmes, et le fait de pouvoir générer des jetons plus rapidement que n'importe qui d'autre est une excellente chose. Je pense que la possibilité de générer plus de jetons rapidement, même à partir de LLM de qualité légèrement inférieure, peut donner de bons résultats, par opposition à la génération lente de jetons à partir de LLM de meilleure qualité, qui peut ne pas être aussi bonne. Cette idée peut être un peu controversée, car elle peut vous donner quelques tours supplémentaires dans le processus, comme les résultats que j'ai montrés sur la première diapositive pour GPT-3 et l'architecture du corps intelligent.

Franchement, je m'en réjouis. Claude 4, GPT-5, Gemini 2.0 et tous les autres modèles merveilleux en cours de construction. Il me semble que si vous êtes impatient de mener votre projet sur l'apprentissage à zéro échantillon du GPT-5, vous pourriez découvrir qu'en utilisant l'intelligentsia et l'inférence sur les premiers modèles, vous pourriez approcher les niveaux de performance du GPT-5 plus tôt que prévu. Je pense qu'il s'agit d'une tendance importante.

En toute honnêteté, le chemin vers l'IA généralisée est plus un voyage qu'une destination, mais je pense que ce flux de travail sur le corps intelligent peut nous aider à faire un petit pas sur ce très long chemin.

Nous vous remercions.