Agent AI : Exploring the Frontier World of Multimodal Interaction [Fei-Fei Li - Classic Must Reads] (en anglais)

Base de connaissances sur l'IAMise à jour il y a 8 mois Cercle de partage de l'IA

16.6K 00

Agent AI : Surveying the Horizons of Multimodal Interaction.

Original : https://ar5iv.labs.arxiv.org/html/2401.03568

résumés

Les systèmes d'IA multimodaux sont susceptibles d'être omniprésents dans notre vie quotidienne. Une approche prometteuse pour rendre ces systèmes plus interactifs consiste à les mettre en œuvre en tant qu'intelligences dans des environnements physiques et virtuels. Actuellement, les systèmes utilisent les modèles de base existants comme éléments constitutifs de base pour créer des intelligences incarnées. L'intégration d'intelligences dans de tels environnements contribue à la capacité du modèle à traiter et à interpréter les données visuelles et contextuelles, ce qui est essentiel pour créer des systèmes d'IA plus complexes et plus sensibles au contexte. Par exemple, un système capable de détecter le comportement de l'utilisateur, le comportement humain, les objets de l'environnement, les représentations audio et l'émotion collective d'une scène peut être utilisé pour informer et guider la réponse d'un corps intelligent dans un environnement donné. Afin d'accélérer l'étude des intelligences basées sur l'intelligence multimodale, nous définissons l'"IA agent" comme une classe de systèmes interactifs capables de percevoir des stimuli visuels, des données linguistiques et d'autres données environnementales, et de produire des comportements incarnés significatifs. En particulier, nous explorons les systèmes qui visent à améliorer la prédiction des intelligences sur la base du prochain comportement incarné en intégrant les connaissances externes, les entrées multisensorielles et le retour d'information humain. Nous soutenons que l'illusion des grands modèles de base et leur tendance à produire des résultats incorrects sur le plan environnemental peuvent également être atténuées par le développement de systèmes d'IA corporelle intelligente dans des environnements ancrés. Le domaine émergent de l'"IA agent" couvre les aspects corporels et intelligents plus larges de l'interaction multimodale. Outre les intelligences qui agissent et interagissent dans le monde physique, nous envisageons un avenir dans lequel les gens pourront facilement créer n'importe quel scénario de réalité virtuelle ou de simulation et interagir avec des intelligences intégrées dans l'environnement virtuel.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 1 : Vue d'ensemble d'un système d'IA agent capable de percevoir et d'agir dans une variété de domaines et d'applications.L'IA agent apparaît comme une voie prometteuse vers l'intelligence artificielle générale (AGI).La formation à l'IA agent a démontré la capacité d'effectuer une compréhension multimodale dans le monde physique. Elle fournit un cadre pour la formation indépendante de la réalité en tirant parti de l'IA générative et de multiples sources de données indépendantes. Lorsqu'ils sont formés sur des données inter-réalités, les grands modèles de base formés pour les intelligences et les tâches liées à l'action peuvent être appliqués à la fois aux mondes physique et virtuel. Nous présentons une vue d'ensemble d'un système d'IA agent qui peut percevoir et agir dans de nombreux domaines et applications différents, servant potentiellement de voie d'accès à l'AGI en utilisant le paradigme du corps intelligent.

répertoire (sur le disque dur de l'ordinateur)

1 introductif
1. 1.1 locomotive
2. 1.2 contextes
3. 1.3 esquissée
2 Intégration de l'IA des agents
1. 2.1 L'intelligence artificielle à l'infini
2. 2.2 L'IA des agents à l'aide d'un grand modèle de base
  1. 2.2.1 le fruit de l'imagination
  2. 2.2.2 Préjugés et inclusion
  3. 2.2.3 Confidentialité et utilisation des données
  4. 2.2.4 Interprétabilité et descriptivité
  5. 2.2.5 Amélioration du raisonnement
  6. 2.2.6 de surveillance
3. 2.3 L'IA des agents pour les capacités émergentes
3 Paradigme de l'IA agent
1. 3.1 Grands modèles de langage et modèles de langage visuels
2. 3.2 Définition du transformateur de corps intelligent
3. 3.3 Création d'un transformateur de corps intelligent
4 Apprentissage de l'IA par les agents
1. 4.1 Stratégies et mécanismes
  1. 4.1.1 Apprentissage par renforcement (RL)
  2. 4.1.2 Apprentissage par imitation (IL)
  3. 4.1.3 RVB conventionnel
  4. 4.1.4 Apprentissage situationnel
  5. 4.1.5 Optimisation des systèmes corporels intelligents
2. 4.2 Systèmes corporels intelligents (zéro et quelques niveaux d'échantillonnage)
  1. 4.2.1 Module du corps intelligent
  2. 4.2.2 Infrastructure du corps intelligent
3. 4.3 Modèle de base du corps intelligent (niveaux de préformation et de perfectionnement)
5 Classification de l'IA des agents
1. 5.1 Champ général de l'organisme intelligent
2. 5.2 l'intelligence incarnée
  1. 5.2.1 intelligence mobile
  2. 5.2.2 l'intelligence en interaction
3. 5.3 Simulation et intelligences environnementales
4. 5.4 intelligence générative
  1. 5.4.1 AR/VR/Réalité mixte Corps intelligent
5. 5.5 Intelligence intellectuelle et raisonnement logique
  1. 5.5.1 Unité d'intelligence intellectuelle (KIU)
  2. 5.5.2 intelligence logique
  3. 5.5.3 Intelligentsia pour le raisonnement émotionnel
  4. 5.5.4 Unité d'intelligence neurosymbolique (NSI)
6. 5.6 Modélisation du langage large et modélisation du langage visuel Intelligentsia
6 Tâches d'application de l'IA des agents
1. 6.1 Des corps intelligents pour les jeux
  1. 6.1.1 Comportement des PNJ
  2. 6.1.2 Interaction entre l'homme et le PNJ
  3. 6.1.3 Analyse intelligente du jeu basée sur le corps
  4. 6.1.4 Pour la composition de scènes de jeu
  5. 6.1.5 Expériences et résultats
2. 6.2 Robotique
  1. 6.2.1 Modèle de langage large/modèle de langage visuel intelligents pour la robotique.
  2. 6.2.2 Expériences et résultats.
3. 6.3 soins de santé
  1. 6.3.1 Capacité actuelle en matière de soins de santé
4. 6.4 intelligence multimodale
  1. 6.4.1 Compréhension et génération d'images et de langages
  2. 6.4.2 Compréhension et génération de vidéos et de langues
  3. 6.4.3 Expériences et résultats
5. 6.5 Vidéo - Expérience linguistique
6. 6.6 Intelligentsia pour le traitement du langage naturel
  1. 6.6.1 Big Language Modelling Intelligence (BLMI)
  2. 6.6.2 Intelligence universelle de modélisation des langues (ULM)
  3. 6.6.3 Modèle de grande langue à suivi de commande Intelligentsia
  4. 6.6.4 Expériences et résultats
7 L'IA des agents à travers les modalités, les domaines et les réalités
1. 7.1 Intelligentsia pour la compréhension multimodale
2. 7.2 Intelligentsia pour la compréhension inter-domaines
3. 7.3 Intelligentsia interactive pour la multimodalité et la réalité croisée
4. 7.4 Migration de la simulation à la réalité
8 Amélioration continue et autonome de l'IA des agents
1. 8.1 Données basées sur l'interaction humaine
2. 8.2 Données générées par le modèle de base
9 Jeux de données et classements de Smartbody
1. 9.1 L'ensemble de données "CuisineWorld" pour les jeux à intelligence multiple
  1. 9.1.1 norme de référence
  2. 9.1.2 mandats
  3. 9.1.3 Indicateurs et jugements
  4. 9.1.4 évaluation
2. 9.2 Ensemble de données de pré-entraînement audio-vidéo-langues.
10 Déclaration d'impact plus large
11 considérations éthiques
12 Déclaration sur la diversité
A GPT-4V Alerte corporelle intelligente Détails
B GPT-4V pour Bleeding Edge
C GPT-4V pour Microsoft Flight Simulator
D GPT-4V pour Assassin's Creed Odyssey
E GPT-4V pour GEARS of WAR 4
F GPT-4V pour Starfield

1 Introduction

1.1 Motivation

Historiquement, les systèmes d'IA ont été définis lors de la conférence de Dartmouth en 1956 comme des "formes de vie artificielles" capables de recueillir des informations sur l'environnement et d'interagir avec lui de manière utile. Inspiré par cette définition, le groupe de Minsky au MIT a construit en 1970 un système robotique appelé Replica Demonstration, qui observait un scénario de "monde de blocs" et reconstruisait avec succès la structure de blocs polyédriques observée. Le système comprenait des modules d'observation, de planification et de manipulation, révélant que chacun de ces sous-problèmes était extrêmement difficile et nécessitait des recherches supplémentaires. Le domaine de l'IA est fragmenté en sous-domaines spécialisés qui ont fait de grands progrès dans la résolution de ces problèmes et d'autres, mais une simplification excessive obscurcit les objectifs globaux de la recherche en IA.

Afin de dépasser le statu quo, il est nécessaire de revenir aux fondements de l'IA basés sur le holisme aristotélicien. Heureusement, les récentes révolutions dans le domaine de la modélisation du langage étendu (LLM/Modèle du langage étendu) et de la modélisation du langage visuel (VLM/Modèle du langage visuel) ont permis de créer de nouveaux types d'intelligences IA conformes aux idéaux holistiques. Saisissant cette opportunité, cet article explore des modèles qui intègrent la compétence linguistique, la cognition visuelle, la mémoire contextuelle, le raisonnement intuitif et l'adaptabilité. Il étudie les possibilités d'utiliser des modèles linguistiques de grande taille et des modèles linguistiques visuels pour réaliser cette synthèse holistique. Dans notre exploration, nous revisitons également la conception de systèmes basés sur la "cause intentionnelle" d'Aristote, c'est-à-dire la "raison d'être" téléologique du système, qui a peut-être été négligée dans les développements antérieurs de l'IA.

La renaissance du traitement du langage naturel et de la vision par ordinateur a été catalysée par l'émergence de puissants modèles linguistiques pré-entraînés et de modèles linguistiques visuels. Les grands modèles de langage démontrent aujourd'hui une capacité étonnante à déchiffrer les nuances des données linguistiques du monde réel, égalant souvent, voire dépassant, l'expertise humaine OpenAI (2023). Récemment, des chercheurs ont montré que les grands modèles de langage peuvent être étendus pour agir dans une variété d'environnements commecorps intelligentqui exécutent des actions et des tâches complexes lorsqu'elles sont associées à des connaissances et à des modules spécifiques à un domaine Xi et al. (2023). Ces scénarios se caractérisent par un raisonnement complexe, la compréhension des rôles des intelligences et de leurs environnements, et une planification en plusieurs étapes, testant la capacité des intelligences à prendre des décisions très nuancées et complexes dans les contraintes de leurs environnements Wu et al. (2023) ; Meta Fundamental AI Research Diplomacy Team et al. (2022) Meta Fundamental AI Research (FAIR) Diplomacy Team, Bakhtin, Brown, Dinan, Farina, Flaherty, Fried, Goff, Gray, Hu, et al. (FAIR).

S'appuyant sur ces efforts initiaux, la communauté de l'IA est à l'aube d'un changement de paradigme majeur : elle s'éloigne de la création de modèles d'IA destinés à être utilisés dans des tâches passives et structurées pour se tourner vers des modèles capables d'assumer le rôle de corps dynamiques et intelligents dans des environnements diversifiés et complexes. Dans ce contexte, le présent document étudie le potentiel considérable de l'utilisation de grands modèles linguistiques et de modèles linguistiques visuels en tant qu'intelligences, en mettant l'accent sur les modèles qui combinent les compétences linguistiques, la cognition visuelle, la mémoire contextuelle, le raisonnement intuitif et la capacité d'adaptation. L'utilisation de grands modèles de langage et de modèles de langage visuels en tant qu'intelligibles, en particulier dans des domaines tels que les jeux, la robotique et les soins de santé, fournit non seulement une plateforme rigoureuse pour l'évaluation des systèmes d'IA de pointe, mais préfigure également l'impact transformateur que l'IA centrée sur les intelligibles aura sur la société et l'industrie. Lorsqu'ils sont pleinement utilisés, les modèles corporels intelligents peuvent redéfinir l'expérience humaine et relever les normes opérationnelles. Le potentiel d'automatisation totale de ces modèles annonce un changement radical de l'industrie et de la dynamique socio-économique. Ces progrès seront liés à des tableaux de bord à multiples facettes, non seulement sur le plan technologique, mais aussi sur le plan éthique, comme nous l'expliquons dans la section 11. Nous nous penchons sur les domaines qui se chevauchent dans ces sous-domaines de l'intelligence artificielle du corps intelligent et illustrons leur interconnexion dans la figure 1.

1.2 Contexte

Nous allons maintenant présenter des documents de recherche pertinents qui étayent le concept, le contexte théorique et les applications modernes de l'intelligence artificielle pour les corps intelligents.

Modèles de base à grande échelle.

Les grands modèles de langage et les modèles de langage visuels ont été à l'origine d'efforts visant à développer des machines intelligentes à usage général (Bubeck et al., 2023 ; Mirchandani et al., 2023). Bien qu'ils soient formés à l'aide de grands corpus de textes, leurs capacités supérieures de résolution de problèmes ne se limitent pas au domaine canonique du traitement du langage. Les grands modèles de langage ont le potentiel de traiter des tâches complexes que l'on pensait jusqu'à présent être le domaine exclusif des experts humains ou des algorithmes spécifiques à un domaine, allant du raisonnement mathématique (Imani et al., 2023 ; Wei et al., 2022 ; Zhu et al., 2022) à la réponse à des questions juridiques spécialisées (Blair-Stanek et al., 2023 ; Choi et al., 2023 ; Nay, 2022). 2023 ; Nay, 2022). Des recherches récentes ont montré qu'il est possible d'utiliser de grands modèles de langage pour générer des plans complexes pour la robotique et les IA de jeu (Liang et al., 2022 ; Wang et al., 2023a, b ; Yao et al., 2023a ; Huang et al., 2023a), ce qui marque une étape importante dans l'utilisation de grands modèles de langage en tant qu'intelligences intelligentes à usage général.

L'IA incarnée.

Certains travaux ont utilisé de grands modèles de langage pour planifier des tâches (Huang et al., 2022a ; Wang et al., 2023b ; Yao et al., 2023a ; Li et al., 2023a), en particulier la connaissance du domaine à l'échelle du World Wide Web et les capacités incarnées émergentes à zéro échantillon des grands modèles de langage pour planifier des tâches et raisonner de manière complexe. Des recherches récentes en robotique ont également utilisé de grands modèles de langage pour planifier des tâches (Ahn et al., 2022a ; Huang et al., 2022b ; Liang et al., 2022) en décomposant les commandes en langage naturel en une série de sous-tâches (soit en langage naturel, soit sous forme de code Python), qui sont ensuite exécutées à l'aide d'un contrôleur de bas niveau. En outre, ils intègrent un retour d'information sur l'environnement pour améliorer l'exécution des tâches (Huang et al., 2022b), (Liang et al., 2022), (Wang et al., 2023a), et (Ikeuchi et al., 2023).

Apprentissage interactif :

Les intelligences artificielles conçues pour l'apprentissage interactif fonctionnent en combinant des techniques d'apprentissage automatique et l'interaction avec l'utilisateur. Au départ, les intelligences artificielles sont formées sur un vaste ensemble de données. Cet ensemble de données contient différents types d'informations, selon la fonction prévue des intelligences. Par exemple, une IA conçue pour une tâche linguistique sera entraînée sur un vaste corpus de données textuelles. La formation implique l'utilisation d'algorithmes d'apprentissage automatique, qui peuvent inclure des modèles d'apprentissage profond (par exemple, des réseaux neuronaux). Ces modèles d'apprentissage permettent à l'IA de reconnaître des modèles, de faire des prédictions et de générer des réponses sur la base des données sur lesquelles elle est formée. Les intelligences artificielles peuvent également apprendre des interactions en temps réel avec les utilisateurs. Cet apprentissage interactif peut se faire de plusieurs manières : 1) Apprentissage basé sur le retour d'information : l'IA ajuste ses réponses en fonction du retour d'information direct de l'utilisateur Li et al. (2023b) ; Yu et al. (2023a) ; Parakh et al. (2023) ; Zha et al. (2023) ; Wake et al. (2023a, b, c). Par exemple, si l'utilisateur corrige la réponse de l'IA, l'IA peut utiliser cette information pour améliorer ses futures réponses Zha et al. (2023) ; Liu et al. (2023a). 2) Apprentissage par observation : l'IA observe les interactions de l'utilisateur et apprend de manière implicite. Par exemple, si un utilisateur pose fréquemment des questions similaires ou interagit avec l'IA d'une manière particulière, l'IA peut adapter ses réponses pour mieux correspondre à ces modèles. Les intelligences artificielles peuvent ainsi comprendre et traiter le langage humain, les contextes multimodaux, interpréter les situations inter-réalités et générer des réponses de la part des utilisateurs humains. Au fil du temps, les performances des intelligences artificielles continuent généralement à s'améliorer grâce à l'interaction et au retour d'information de l'utilisateur. Ce processus est généralement supervisé par un opérateur ou un développeur humain qui s'assure que l'IA apprend correctement et ne développe pas de biais ou de modèles incorrects.

1.3 Vue d'ensemble

L'IA des agents multimodaux (MAA/Multimodal Agent AI) est un ensemble de systèmes qui génèrent des actions efficaces dans un environnement donné sur la base de la compréhension d'entrées sensorielles multimodales. Avec l'émergence du modèle de langage étendu (LLM/modèle de langage étendu) et du modèle de langage visuel (VLM/modèle de langage visuel), un certain nombre de systèmes d'IA d'agents multimodaux ont été proposés dans des domaines allant de la recherche fondamentale aux applications. Bien que ces domaines de recherche évoluent rapidement grâce à l'intégration de techniques traditionnelles dans chaque domaine (par exemple, le questionnement visuel et la navigation dans le langage visuel), ils partagent des intérêts communs tels que la collecte de données, l'évaluation comparative et les perspectives éthiques. Dans cet article, nous nous concentrons sur quelques domaines de recherche représentatifs de l'IA pour les intelligences multimodales, à savoir la multimodalité, les jeux (VR/AR/MR), la robotique et les soins de santé, et notre objectif est de fournir des connaissances complètes sur les préoccupations communes discutées dans ces domaines. Par conséquent, nous voulons apprendre les bases de l'IA pour les intelligences multimodales et acquérir des connaissances pour faire avancer leur recherche. Les résultats d'apprentissage spécifiques sont les suivants :

Une vue d'ensemble de l'intelligence artificielle pour l'intelligence multimodale : un examen approfondi de ses principes et de son rôle dans les applications contemporaines, fournissant aux chercheurs une compréhension complète de son importance et de ses utilisations.
MÉTHODOLOGIE : des études de cas dans les domaines du jeu, de la robotique et des soins de santé montrent comment les modèles de macrolangage et de langage visuel peuvent améliorer l'intelligence artificielle des intelligences multimodales.
Évaluation des performances : un guide pour évaluer l'IA des intelligences multimodales à l'aide d'ensembles de données pertinents, en se concentrant sur leur efficacité et leurs capacités de généralisation.
Considérations éthiques : une discussion sur les implications sociales et les classements éthiques du déploiement de l'IA corporelle intelligente, mettant en évidence les pratiques de développement responsables.
Tendances émergentes et graphiques pour l'avenir : classe les derniers développements dans chaque domaine et examine les orientations futures.

L'action informatisée et les intelligences généralistes (AG/agents généralistes) sont utiles pour de nombreuses tâches. Pour qu'un corps intelligent généraliste soit vraiment utile à ses utilisateurs, il doit pouvoir interagir naturellement et être généralisé à un large éventail de contextes et de modalités. Notre objectif est de favoriser un écosystème de recherche dynamique au sein de la communauté de l'IA du corps intelligent et de créer un sens commun de l'identité et de l'objectif. L'IA multimodale du corps intelligent a le potentiel d'être appliquée à un large éventail de contextes et de modalités, y compris les données fournies par les humains. Nous pensons donc que ce domaine de l'IA du corps intelligent peut attirer une grande variété de chercheurs, favorisant ainsi une communauté dynamique de l'IA du corps intelligent et des objectifs communs. Dirigé par des experts renommés du monde universitaire et de l'industrie, ce document devrait constituer une expérience interactive et informative, comprenant des tutoriels sur le corps intelligent, des études de cas, des sessions de travail et des discussions expérimentales, garantissant ainsi une expérience d'apprentissage complète et attrayante pour tous les chercheurs.

L'objectif de ce document est de fournir des informations générales et complètes sur la recherche actuelle dans le domaine de l'intelligence artificielle pour Intelligentsia. À cette fin, le reste du document est organisé comme suit. La section 2 explique comment l'intelligence artificielle pour les corps intelligents peut bénéficier de l'intégration avec les technologies émergentes pertinentes, en particulier les modèles de base à grande échelle. La section 3 décrit le nouveau paradigme et le cadre que nous proposons pour la formation de l'IA du corps intelligent. La section 4 donne un aperçu des méthodes largement utilisées pour la formation de l'IA du corps intelligent. La section 5 classifie et discute les différents types de corps intelligents. La section 6 décrit les applications de l'IA du corps intelligent dans les jeux, la robotique et les soins de santé. La section 7 explore les efforts de la communauté des chercheurs pour développer une IA corporelle intelligente polyvalente pouvant être appliquée à une variété de modalités et de domaines, et combler le fossé entre la simulation et la réalité. La section 8 examine le potentiel d'une IA corporelle intelligente qui ne s'appuie pas uniquement sur des modèles de base pré-entraînés, mais qui apprend et s'améliore en permanence en exploitant les interactions avec l'environnement et l'utilisateur. La section 9 décrit notre nouvel ensemble de données conçu pour l'entraînement de l'IA multimodale du corps intelligent. La section 11 aborde le sujet brûlant de l'intelligence artificielle, de ses limites et des considérations éthiques sur les implications sociales de notre article.

2 Corps intelligent Intégration de l'intelligence artificielle

Comme le suggèrent des études antérieures, les modèles sous-jacents basés sur des modèles de macrolangage et des modèles de langage visuel présentent encore des performances limitées dans le domaine de l'IA incarnée, en particulier en ce qui concerne la compréhension, la génération, l'édition et l'interaction dans des environnements ou des scènes invisibles Huang et al. (2023a) ; Zeng et al. (2023). En conséquence, ces limitations conduisent à des résultats sous-optimaux de la part des intelligences de l'IA. Les approches actuelles de la modélisation de l'IA centrée sur l'intelligence se concentrent sur des données directement accessibles et bien définies (par exemple, des représentations textuelles ou de chaînes de caractères de l'état du monde) et utilisent généralement des modèles indépendants du domaine et de l'environnement appris lors de leur pré-entraînement à grande échelle pour prédire les résultats des actions pour chaque environnement Xi et al. (2023) ; Wang et al. (2023c) ; Gong et al. (2023a) ; Wu et al. (2023). Dans (Huang et al., 2023a), nous étudions la tâche de collaboration guidée par les connaissances et la génération de scènes interactives en combinant de grands modèles de base, et nous obtenons des résultats prometteurs suggérant que les intelligences basées sur les connaissances de grands modèles de langage peuvent améliorer les performances de la compréhension, de la génération et de l'édition de scènes 2D et 3D, ainsi que d'autres interactions homme-machine Huang et al. (2023a). ). En intégrant le cadre d'IA du corps intelligent, le grand modèle de base est capable de comprendre plus profondément les données de l'utilisateur, ce qui permet de créer des systèmes d'interaction homme-machine complexes et adaptatifs. Les capacités émergentes des grands modèles de langage et des modèles de langage visuels jouent un rôle inédit dans l'interaction homme-machine pour l'IA générative, l'IA incarnée, l'augmentation des connaissances pour l'apprentissage multimodal, la génération de réalité mixte, l'édition texte-vision et la simulation 2D/3D dans les jeux ou les tâches robotiques. Les progrès récents dans la modélisation fondamentale de l'IA du corps intelligent constituent un catalyseur imminent pour débloquer l'intelligence générique dans les intelligences incarnées. Les modèles d'action à grande échelle ou les modèles de langage visuel des intelligences ouvrent de nouvelles possibilités pour les systèmes incarnés génériques, tels que la planification, la résolution de problèmes et l'apprentissage dans des environnements complexes. L'IA incarnée intelligente fait progresser le méta-univers et ouvre la voie aux premières versions de l'IA à usage général.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Fig. 2 : L'IA multimodale du corps intelligent pour la génération et l'édition d'interactions incarnées en 2D/3D dans la réalité.

2.1 Une intelligence artificielle infinie

Les intelligences artificielles ont la capacité d'interpréter, de prédire et de réagir en fonction de leur formation et des données d'entrée. Bien que ces capacités soient avancées et s'améliorent, il est important de reconnaître leurs limites et l'impact des données sous-jacentes sur lesquelles elles sont formées. Les systèmes d'intelligence artificielle ont généralement les capacités suivantes : 1) Modélisation prédictive : les systèmes d'intelligence artificielle peuvent prédire des résultats probables ou suggérer des étapes ultérieures sur la base de données et de tendances historiques. Par exemple, elles peuvent prédire la suite d'un texte, la réponse à une question, la prochaine action d'un robot ou la solution d'un scénario. 2) Prise de décision : dans certaines applications, les intelligences IA peuvent prendre des décisions sur la base de leurs déductions. En règle générale, les intelligences prennent des décisions en fonction de ce qui est le plus susceptible d'atteindre l'objectif spécifié. Pour les applications d'IA telles que les systèmes de recommandation, les intelligences peuvent décider quels produits ou contenus recommander sur la base de leurs déductions concernant les préférences des utilisateurs.3) Traitement de l'ambiguïté : les intelligences d'IA peuvent souvent traiter des entrées ambiguës en déduisant l'interprétation la plus probable sur la base du contexte et de l'entraînement. Toutefois, leur capacité à le faire est limitée par la portée de leurs données d'apprentissage et de leurs algorithmes.4) Amélioration continue : si certaines intelligences artificielles ont la capacité d'apprendre à partir de nouvelles données et interactions, de nombreux modèles de langage de grande taille ne mettent pas continuellement à jour leur base de connaissances ou leurs représentations internes après l'apprentissage. Leurs déductions ne reposent généralement que sur les données disponibles lors de la dernière mise à jour de leur formation.

La figure 2 présente des intelligences interactives augmentées pour une intégration multimodale et agnostique avec des mécanismes émergents. Les intelligences artificielles intelligibles nécessitent la collecte de grandes quantités de données d'entraînement pour chaque nouvelle tâche, ce qui peut être coûteux ou impossible pour de nombreux domaines. Dans cette étude, nous développons un corps intelligent infini qui apprend à transférer des informations en mémoire à partir d'un modèle de base à usage général (par exemple, GPT-X, DALL-E) vers de nouveaux domaines ou scénarios pour la compréhension, la génération et l'édition interactive de scénarios dans un monde physique ou virtuel.

Une application de ces intelligences infinies en robotique est RoboGen Wang et al. (2023d). Dans cette étude, les auteurs présentent un pipeline permettant d'exécuter de manière autonome des cycles de suggestion de tâches, de génération d'environnement et d'apprentissage de compétences.RoboGen est un effort pour transférer à la robotique des connaissances intégrées dans des modèles à grande échelle.

2.2 Intelligence artificielle pour Intelligentsia avec de grands modèles de base

Des recherches récentes ont montré que les modèles de base à grande échelle jouent un rôle crucial dans la création de données qui servent de référence pour déterminer les actions d'un corps intelligent dans le cadre des contraintes imposées par l'environnement. Les exemples incluent l'utilisation de modèles de base pour la manipulation de robots Black et al. (2023) ; Ko et al. (2023) et la navigation Shah et al. (2023a) ; Zhou et al. (2023a). Pour illustrer, Black et al. utilisent un modèle d'édition d'images comme planificateur de haut niveau pour générer des images de sous-buts futurs afin de guider la stratégie de bas niveau Black et al. (2023). Pour la navigation robotique, Shah et al. proposent un système qui utilise un modèle de macrolangage pour reconnaître des points de repère dans un texte et un modèle de langage visuel pour associer ces points de repère à des entrées visuelles, améliorant ainsi la navigation par le biais de commandes en langage naturel Shah et al. (2023a).

La génération de mouvements humains conditionnés, adaptés à des facteurs linguistiques et environnementaux, suscite également un intérêt croissant. Plusieurs systèmes d'IA ont été proposés pour générer des mouvements et des actions personnalisés en fonction de commandes linguistiques spécifiques Kim et al. (2023) ; Zhang et al. (2022) ; Tevet et al. (2022) et adaptés à une variété de scènes 3D Wang et al. (2022a). Ces recherches mettent en évidence la capacité croissante des modèles génératifs à améliorer l'adaptabilité et la réactivité des intelligences IA dans une variété de scénarios.

2.2.1 Hallucinations

Les intelligences qui génèrent du texte sont souvent sujettes à des hallucinations, c'est-à-dire des situations où le texte généré n'a pas de sens ou ne correspond pas au contenu source fourni Raunak et al. (2021) ; Maynez et al. (2020). Les illusions peuvent être divisées en deux catégories.illusion intérieurerépondre en chantantillusion extérieure Ji et al. (2023). Les illusions intrinsèques sont celles qui contredisent le matériel source, tandis que les illusions extrinsèques sont les cas où le texte généré contient des informations supplémentaires qui ne figuraient pas initialement dans le matériel source.

Certaines voies prometteuses pour réduire le taux d'illusions dans la génération de langage comprennent l'utilisation de la récupération pour améliorer la génération Lewis et al. (2020) ; Shuster et al. (2021) ou d'autres approches qui soutiennent la production de langage naturel par la récupération de connaissances externes Dziri et al. (2021) ; Peng et al. (2023). Généralement, ces approches visent à améliorer la génération de langage en récupérant d'autres documents sources et en fournissant des mécanismes pour vérifier les contradictions entre la réponse générée et le document source.

Dans le contexte des systèmes corporels intelligents multimodaux, il a également été démontré que les modèles de langage visuel produisaient des hallucinations Zhou et al. (2023b). Une cause fréquente d'hallucinations dans la génération de langage basée sur le visuel est une dépendance excessive à la cooccurrence d'objets et d'indices visuels dans les données d'entraînement Rohrbach et al. (2018). Les intelligences IA qui s'appuient exclusivement sur des modèles de macrolangage ou de langage visuel pré-entraînés et qui utilisent une mise au point contextuelle limitée peuvent être particulièrement sujettes aux hallucinations parce qu'elles s'appuient sur la base de connaissances interne du modèle pré-entraîné pour générer des actions et peuvent ne pas comprendre avec précision la dynamique de l'état du monde dans lequel elles sont déployées.

2.2.2 Préjugés et inclusion

Les intelligences artificielles basées sur de grands modèles linguistiques (LLM) ou de grands modèles multimodaux (LMM) sont biaisées en raison de multiples facteurs inhérents à leur conception et à leur processus de formation. Lors de la conception de ces intelligences artificielles, nous devons être attentifs à l'inclusivité et aux besoins de tous les utilisateurs finaux et parties prenantes. Dans le contexte des intelligences artificielles, lesnon-exclusivité désigne les mesures et les principes adoptés pour garantir que les réponses et les interactions de l'intelligentsia sont inclusives, respectueuses et sensibles à un large éventail d'utilisateurs d'origines diverses. Nous présentons ci-dessous les principaux aspects de la partialité et de l'inclusivité de l'intelligentsia.

Données d'entraînementLe modèle sous-jacent est entraîné sur une grande quantité de données textuelles collectées sur l'internet, y compris des livres, des articles, des sites web et d'autres sources textuelles. Ces données reflètent souvent des préjugés qui existent dans la société humaine et que le modèle peut apprendre et reproduire par inadvertance. Il s'agit notamment de stéréotypes, de préjugés et de points de vue biaisés liés à la race, au sexe, à l'origine ethnique, à la religion et à d'autres attributs personnels. En particulier, en s'entraînant sur des données Internet et en n'utilisant souvent que des textes en anglais, les modèles apprennent implicitement les normes culturelles des sociétés occidentales, éduquées, industrialisées, riches et démocratiques (WEIRD) Henrich et al. (2010), qui ont une présence disproportionnée sur l'Internet. Cependant, il est important de reconnaître que les ensembles de données créés par l'homme ne peuvent pas être totalement exempts de préjugés, car ils reflètent souvent les préjugés de la société ainsi que ceux des individus qui ont initialement généré et/ou compilé les données.
Préjugés historiques et culturelsLes modèles d'IA sont formés sur de vastes ensembles de données provenant de contenus divers. Ainsi, les données d'entraînement comprennent souvent des textes historiques ou des documents issus de différentes cultures. En particulier, les données d'entraînement provenant de sources historiques peuvent contenir un langage offensant ou désobligeant qui représente les normes culturelles, les attitudes et les préjugés d'une société particulière. Il peut en résulter des modèles qui perpétuent des stéréotypes dépassés ou qui ne parviennent pas à comprendre pleinement les changements et nuances culturels contemporains.
Contraintes linguistiques et contextuellesLes modèles linguistiques peuvent avoir des difficultés à comprendre et à représenter avec précision les nuances du langage, telles que l'ironie, l'humour ou les allusions culturelles. Cela peut conduire à des malentendus ou à des réponses biaisées dans certains cas. En outre, de nombreux aspects du langage parlé ne sont pas pris en compte par les données textuelles, ce qui entraîne un décalage potentiel entre la façon dont les humains comprennent le langage et la façon dont les modèles le comprennent.
Politiques et lignes directricesLes intelligences artificielles fonctionnent selon des politiques et des lignes directrices strictes afin de garantir l'équité et l'inclusion. Par exemple, lors de la création d'images, il existe des règles visant à diversifier la représentation des personnages et à éviter les stéréotypes associés à la race, au sexe et à d'autres attributs.
généralisation excessiveCes modèles ont tendance à générer des réponses basées sur des modèles observés dans les données d'apprentissage. Cela peut conduire à une généralisation excessive et les modèles peuvent générer des réponses qui semblent stéréotyper certains groupes ou formuler des hypothèses générales.
Contrôle et mise à jour continusLe système d'IA est continuellement contrôlé et mis à jour afin de traiter tout problème émergent de partialité ou d'inclusivité. Le retour d'information des utilisateurs et les recherches en cours sur l'éthique de l'IA jouent un rôle essentiel dans ce processus.
Amplifier le point de vue du grand publicLes données d'apprentissage contenant généralement plus de contenu provenant de la culture ou du groupe dominant, le modèle peut être davantage biaisé en faveur de ces points de vue et donc sous-estimer ou déformer les points de vue des groupes minoritaires.
Conception éthique et inclusiveLes outils d'IA devraient être conçus en tenant compte de considérations éthiques et de l'inclusion en tant que principes fondamentaux. Il s'agit notamment de respecter les différences culturelles, de promouvoir la diversité et de veiller à ce que l'IA ne perpétue pas de stéréotypes préjudiciables.
Guide de l'utilisateurLes utilisateurs reçoivent également des instructions sur la manière d'interagir avec l'IA de manière à promouvoir l'inclusion et le respect. Il s'agit notamment d'éviter les demandes susceptibles d'aboutir à des résultats biaisés ou inappropriés. En outre, cela peut contribuer à atténuer les situations dans lesquelles le modèle apprend des éléments préjudiciables à partir des interactions avec l'utilisateur.

Malgré ces mesures, les biais dans les intelligences de l'IA persistent. Les efforts en cours dans le domaine de la recherche et du développement de l'IA se concentrent sur la réduction de ces biais et sur l'amélioration de l'inclusivité et de l'équité des systèmes d'IA pour les intelligences. Efforts de réduction des biais :

Des données de formation diversifiées et inclusivesLes efforts sont faits pour inclure des sources plus diversifiées et inclusives dans les données de formation.
Détection et correction des biaisLes recherches en cours se concentrent sur la détection et la correction des biais dans les réponses des modèles.
Lignes directrices et politiques éthiquesLes modèles sont souvent liés par des lignes directrices et des politiques éthiques conçues pour atténuer les préjugés et garantir des interactions respectueuses et inclusives.
Représentation diversifiéeLes intelligences de l'IA doivent : veiller à ce que le contenu généré ou les réponses fournies par les intelligences de l'IA représentent un large éventail d'expériences, de cultures, d'ethnies et d'identités humaines. Ceci est particulièrement important dans des scénarios tels que la génération d'images ou la construction de récits.
Atténuation des biaisLes réponses de l'IA : Travailler activement à la réduction des préjugés dans les réponses de l'IA. Cela inclut les préjugés liés à la race, au sexe, à l'âge, au handicap, à l'orientation sexuelle et à d'autres caractéristiques personnelles. L'objectif est de fournir une réponse juste et équilibrée, et non de perpétuer des stéréotypes ou des préjugés.
Sensibilité culturelleLes conceptions d'AI sont sensibles à la culture, reconnaissant et respectant la diversité des normes, des pratiques et des valeurs culturelles. Il s'agit notamment de comprendre les références et les nuances culturelles et d'y répondre de manière appropriée.
l'accessibilitéVeiller à ce que les intelligences artificielles soient accessibles aux utilisateurs ayant des capacités différentes, y compris ceux qui souffrent d'un handicap. Il peut s'agir d'intégrer des caractéristiques qui facilitent l'interaction des personnes souffrant de déficiences visuelles, auditives, motrices ou cognitives.
Inclusion basée sur la langueLes langues et les dialectes : Fournir un support pour plusieurs langues et dialectes pour une base d'utilisateurs mondiale et être sensible aux nuances et variations intra-langues Liu et al. ( 2023b ).
Interaction éthique et respectueuseL'intelligence est programmée pour interagir de manière éthique et respectueuse avec tous les utilisateurs, en évitant les réponses qui pourraient être considérées comme offensantes, nuisibles ou irrespectueuses.
Retour d'information et adaptation des utilisateursIntégrer le retour d'information des utilisateurs pour améliorer en permanence l'inclusivité et l'efficacité des intelligences artificielles. Il s'agit notamment de tirer des enseignements des interactions pour mieux comprendre et servir une base d'utilisateurs diversifiée.
Respect des lignes directrices en matière d'intégrationRespecter les lignes directrices et les normes établies en matière d'inclusivité des intelligences artificielles, qui sont souvent définies par des groupes industriels, des comités d'éthique ou des organismes de réglementation.

Malgré ces efforts, il est important d'être conscient de la possibilité de biais dans les réponses et de réfléchir de manière critique à leur interprétation. Les améliorations continues de la technologie de l'intelligence artificielle et des pratiques éthiques visent à réduire ces biais au fil du temps. Corps intelligents L'un des principaux objectifs de l'inclusion de l'IA est de créer un corps intelligent respectueux et accessible à tous les utilisateurs, quels que soient leurs antécédents ou leur identité.

2.2.3 Confidentialité et utilisation des données

L'une des principales considérations éthiques concernant les intelligences artificielles consiste à comprendre comment ces systèmes traitent, stockent et éventuellement récupèrent les données des utilisateurs. Nous en abordons les principaux aspects ci-dessous :

Collecte, utilisation et finalité des données.

Lorsqu'ils utilisent les données des utilisateurs pour améliorer les performances des modèles, les développeurs de modèles ont accès aux données collectées par les intelligences artificielles en production et lorsqu'elles interagissent avec les utilisateurs. Certains systèmes permettent aux utilisateurs de consulter leurs données par l'intermédiaire de leur compte utilisateur ou en adressant une demande à un fournisseur de services. Il est important de savoir quelles données sont collectées par les intelligences artificielles au cours de ces interactions. Il peut s'agir de données textuelles, de schémas d'utilisation, de préférences personnelles et parfois d'informations personnelles plus sensibles. Les utilisateurs doivent également comprendre comment les données collectées lors de leurs interactions sont utilisées. Si, pour une raison quelconque, l'IA détient des informations erronées sur une personne ou un groupe particulier, il doit exister un mécanisme permettant à l'utilisateur de corriger l'erreur une fois qu'elle a été détectée. C'est important pour la précision et le respect de tous les utilisateurs et de tous les groupes. Les utilisations courantes de la récupération et de l'analyse des données des utilisateurs comprennent l'amélioration de l'interaction avec l'utilisateur, la personnalisation des réponses et l'optimisation des systèmes. Il est important que les développeurs veillent à ce que les données ne soient pas utilisées à des fins auxquelles les utilisateurs n'ont pas consenti (par exemple, marketing non sollicité).

Stockage et sécurité.

Les développeurs doivent savoir où sont stockées les données d'interaction avec l'utilisateur et quelles sont les mesures de sécurité mises en place pour les protéger contre un accès ou une divulgation non autorisés. Ces mesures comprennent le cryptage, les serveurs sécurisés et les protocoles de protection des données. Il est important de déterminer si et dans quelles conditions les données du corps intelligent sont partagées avec des tiers. Cela doit être transparent et nécessite généralement le consentement de l'utilisateur.

Effacement et conservation des données.

Il est également important que les utilisateurs comprennent combien de temps les données des utilisateurs sont stockées et comment les utilisateurs peuvent demander que leurs données soient supprimées. De nombreuses lois sur la protection des données donnent aux utilisateurs le droit d'être oubliés, ce qui signifie qu'ils peuvent demander que leurs données soient supprimées.AI Intelligentsia doit se conformer aux lois sur la protection des données telles que le GDPR de l'UE ou le CCPA de Californie. Ces lois régissent les pratiques de traitement des données et les droits des utilisateurs sur leurs données personnelles.

Politique de portabilité des données et de respect de la vie privée.

En outre, les développeurs doivent élaborer une politique de confidentialité pour les intelligences artificielles afin de documenter et d'expliquer aux utilisateurs comment leurs données seront traitées. Cette politique doit détailler la collecte, l'utilisation et le stockage des données, ainsi que les droits des utilisateurs. Les développeurs doivent veiller à obtenir le consentement de l'utilisateur pour la collecte des données, en particulier pour les informations sensibles. Les utilisateurs peuvent généralement refuser ou restreindre les données qu'ils fournissent. Dans certaines juridictions, les utilisateurs peuvent même avoir le droit de demander une copie de leurs données dans un format qui peut être transféré à un autre fournisseur de services.

Anonymisation.

Les données utilisées dans le cadre d'une analyse plus large ou d'une formation à l'IA devraient idéalement être rendues anonymes afin de protéger les identités individuelles. Les développeurs doivent comprendre comment leurs intelligences IA récupèrent et utilisent les données historiques des utilisateurs au cours des interactions. Il peut s'agir de personnalisation ou d'amélioration de la pertinence d'une réponse.

En résumé, la compréhension de la confidentialité des données pour les intelligences artificielles implique de comprendre comment les données des utilisateurs sont collectées, utilisées, stockées et protégées, et de s'assurer que les utilisateurs sont conscients de leurs droits en matière d'accès, de correction et de suppression de leurs données. Il est également essentiel de comprendre les mécanismes d'extraction des données des utilisateurs et des intelligences artificielles pour appréhender pleinement la question de la confidentialité des données.

2.2.4 Interprétabilité et descriptivité

Apprentissage par imitation → découplage

Les intelligences sont généralement formées à l'aide de boucles de rétroaction continues dans le cadre de l'apprentissage par renforcement (RL) ou de l'apprentissage par imitation (IL), en commençant par une stratégie initialisée de manière aléatoire. Toutefois, cette approche se heurte à des goulets d'étranglement lorsqu'il s'agit d'obtenir des récompenses initiales dans des environnements peu familiers, en particulier lorsque les récompenses sont rares ou ne sont disponibles qu'à la fin d'interactions à long terme. Par conséquent, une solution supérieure consiste à utiliser des intelligences à mémoire infinie formées par l'apprentissage par imitation, qui peuvent apprendre des stratégies à partir de données d'experts, ce qui permet d'améliorer l'exploration et l'utilisation de l'espace environnemental inconnu, ainsi que des infrastructures émergentes, comme le montre la figure 3. Avec des caractéristiques d'expert pour aider les intelligences à mieux explorer et exploiter les espaces environnementaux invisibles. L'IA du corps intelligent peut apprendre des stratégies et de nouveaux processus paradigmatiques directement à partir de données d'experts.

L'apprentissage par imitation traditionnel permet aux intelligences d'apprendre des stratégies en imitant le comportement d'un démonstrateur expert. Cependant, l'apprentissage direct des stratégies d'un expert n'est pas toujours la meilleure approche, car le corps intelligent peut ne pas bien s'adapter à des situations inédites. Pour résoudre ce problème, nous proposons d'apprendre à un corps intelligent des indices contextuels ou des fonctions de récompense implicites qui capturent des aspects clés du comportement de l'expert, comme le montre la figure 3. Les intelligences à mémoire infinie sont ainsi dotées de données comportementales du monde physique tirées de démonstrations d'experts pour l'exécution de tâches. Cela permet de surmonter les inconvénients de l'apprentissage par imitation existant, tels que la nécessité de disposer de grandes quantités de données d'experts et le risque d'erreur dans les tâches complexes. L'idée maîtresse de l'IA du corps intelligent comporte deux éléments : 1) le corps intelligent infini, qui recueille les démonstrations d'experts du monde physique sous forme de paires état-action, et 2) l'environnement virtuel du générateur de corps intelligent d'imitation. Le corps intelligent d'imitation génère des actions qui imitent le comportement de l'expert, tandis que le corps intelligent apprend une politique de correspondance entre les états et les actions en réduisant la fonction de perte de la différence entre les actions de l'expert et les actions générées par la politique d'apprentissage.

Découplage → Généralisation

Au lieu de s'appuyer sur des fonctions de récompense spécifiques à une tâche, l'organisme intelligent apprend à partir de démonstrations d'experts qui fournissent un ensemble varié de paires état-action couvrant divers aspects de la tâche. L'organisme intelligent apprend alors des stratégies pour mettre en correspondance les états et les actions en imitant le comportement de l'expert. Le découplage dans l'apprentissage par imitation fait référence à la séparation du processus d'apprentissage de la fonction de récompense spécifique à la tâche, ce qui permet aux stratégies de se généraliser à différentes tâches sans dépendre explicitement de la fonction de récompense spécifique à la tâche. Grâce au découplage, un être intelligent peut s'inspirer des démonstrations d'experts et apprendre une stratégie qui peut être adaptée à une variété de situations. Le découplage permet l'apprentissage par transfert, dans lequel une stratégie apprise dans un domaine peut être adaptée à d'autres domaines avec un ajustement minimal. En apprenant une stratégie généralisée qui n'est pas liée à une fonction de récompense spécifique, un corps intelligent peut utiliser les connaissances qu'il a acquises dans une tâche pour obtenir de bons résultats dans d'autres tâches connexes. Comme l'organisme intelligent ne dépend pas d'une fonction de récompense spécifique, il peut s'adapter aux changements de la fonction de récompense ou de l'environnement sans avoir besoin d'un réentraînement important. Les stratégies apprises sont donc plus robustes et généralisables à différents environnements. Dans ce contexte, le découplage fait référence à la séparation de deux tâches dans le processus d'apprentissage : l'apprentissage de la fonction de récompense et l'apprentissage de la politique optimale.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 3 : Exemple d'un mécanisme d'interaction émergent utilisant des intelligences pour identifier un texte lié à une image à partir d'un texte candidat. La tâche consiste à intégrer des informations sur le monde extérieur à l'aide d'intelligences multimodales du réseau et d'échantillons d'interaction de connaissances étiquetés manuellement.

Généralisation → comportement émergent

La généralisation explique comment des propriétés ou des comportements émergents peuvent apparaître à partir de composants ou de règles plus simples. L'idée clé est d'identifier les éléments ou règles de base qui contrôlent le comportement du système, tels que les neurones individuels ou les algorithmes de base. Il s'agit ensuite d'observer comment ces éléments ou règles simples interagissent les uns avec les autres. Les interactions de ces composants conduisent souvent à l'émergence de comportements complexes qui ne peuvent être prédits en examinant uniquement les composants individuels. La généralisation à différents niveaux de complexité permet au système d'apprendre des principes génériques qui s'appliquent à ces niveaux, conduisant à des propriétés émergentes. Cela permet au système de s'adapter à de nouvelles situations, démontrant l'émergence de comportements plus complexes à partir de règles plus simples. En outre, la capacité de généralisation à différents niveaux de complexité facilite le transfert de connaissances d'un domaine à l'autre, ce qui contribue à l'émergence de comportements complexes dans de nouveaux environnements au fur et à mesure que le système s'adapte.

2.2.5 Amélioration du raisonnement

Les capacités de raisonnement des intelligences artificielles résident dans leur aptitude à interpréter, prédire et réagir sur la base de données d'entraînement et d'entrée. Bien que ces capacités soient avancées et s'améliorent, il est important de reconnaître leurs limites et l'impact des données sous-jacentes sur lesquelles elles sont formées. En particulier, dans le contexte des grands modèles de langage (LLM), il s'agit de leur capacité à tirer des conclusions, à faire des prédictions et à générer des réponses sur la base des données sur lesquelles ils sont formés et des entrées qu'ils reçoivent.L'augmentation du raisonnement dans les intelligences IA fait référence à l'utilisation d'outils, de techniques ou de données supplémentaires pour augmenter les capacités de raisonnement naturel d'une IA afin d'améliorer ses performances, sa précision et son utilité. Cela est particulièrement important dans les scénarios de prise de décision complexes ou lorsqu'il s'agit de traiter des contenus nuancés ou spécialisés. Nous énumérons ci-dessous des sources particulièrement importantes d'amélioration du raisonnement :

Richesse des données.

L'intégration de sources de données supplémentaires (souvent externes) pour fournir plus de contexte peut aider les intelligences artificielles à faire des déductions plus éclairées, en particulier dans les domaines où leurs données de formation peuvent être limitées. Par exemple, les intelligences artificielles peuvent déduire le sens du contexte d'un dialogue ou d'un texte. Elles analysent les informations données et les utilisent pour comprendre l'intention et les détails pertinents de la requête d'un utilisateur. Ces modèles sont capables de reconnaître des modèles dans les données. Ils utilisent cette capacité pour déduire des informations sur le langage, le comportement de l'utilisateur ou d'autres phénomènes pertinents, sur la base des modèles appris au cours de la formation.

Amélioration algorithmique.

Améliorer les algorithmes sous-jacents de l'IA pour un meilleur raisonnement. Il peut s'agir d'utiliser des modèles d'apprentissage automatique plus avancés, d'intégrer différents types d'IA (par exemple, en combinant le traitement du langage naturel (NLP) et la reconnaissance d'images) ou de mettre à jour les algorithmes pour mieux gérer les tâches complexes. Le raisonnement dans la modélisation du langage implique la compréhension et la génération du langage humain. Il s'agit notamment de saisir le ton, l'intention et les nuances des différentes structures linguistiques.

L'homme dans la boucle (HITL).

L'intervention de l'homme pour compléter le raisonnement de l'IA peut s'avérer particulièrement utile dans les domaines où le jugement humain est essentiel (par exemple, considérations éthiques, tâches créatives ou scénarios ambigus). Les humains peuvent fournir des conseils, corriger des erreurs ou offrir des perspectives que l'intelligence ne peut pas déduire seule.

Intégration du retour d'information en temps réel.

L'utilisation d'un retour d'information en temps réel de l'utilisateur ou de l'environnement pour améliorer le raisonnement est une autre approche prometteuse pour améliorer les performances pendant le raisonnement. Par exemple, l'IA peut ajuster ses recommandations en fonction des réponses de l'utilisateur en temps réel ou de l'évolution des conditions dans un système dynamique. Par ailleurs, si l'IA entreprend une action qui enfreint certaines règles dans un environnement simulé, un retour d'information peut être fourni dynamiquement à l'IA pour l'aider à se corriger.

Transfert de connaissances interdisciplinaires.

L'utilisation des connaissances ou des modèles d'un domaine pour améliorer le raisonnement dans un autre domaine est particulièrement utile lorsqu'il s'agit de produire des résultats dans des disciplines spécialisées. Par exemple, les techniques développées pour la traduction des langues peuvent être appliquées à la génération de codes, ou les connaissances en matière de diagnostic médical peuvent améliorer la maintenance prédictive des machines.

Personnalisation pour des cas d'utilisation spécifiques.

Adapter les capacités de raisonnement d'une IA à une application ou à un secteur spécifique peut impliquer de former l'IA à des ensembles de données spécialisés ou d'affiner son modèle pour mieux l'adapter à une tâche particulière, telle que l'analyse juridique, le diagnostic médical ou les prévisions financières. Étant donné que le langage ou les informations spécifiques d'un domaine peuvent contraster avec le langage d'autres domaines, il peut être utile d'adapter les intelligences aux connaissances spécifiques du domaine.

Considérations éthiques et de partialité.

Il est important de veiller à ce que le processus d'amélioration n'introduise pas de nouveaux biais ou de nouveaux problèmes éthiques. Cela implique un examen attentif de l'impact sur l'équité et la transparence des sources de données supplémentaires ou des nouveaux algorithmes d'amélioration du raisonnement. Les intelligences artificielles doivent parfois répondre à des considérations éthiques lorsqu'elles raisonnent, en particulier sur des sujets sensibles. Il s'agit notamment d'éviter les stéréotypes nuisibles, de respecter la vie privée et de garantir l'équité.

Apprentissage et adaptation continus.

Mettre à jour et affiner régulièrement les capacités de l'IA pour s'adapter aux nouveaux développements, à l'évolution des données et aux besoins changeants des utilisateurs.

En résumé, l'augmentation du raisonnement dans les intelligences IA implique des méthodes permettant d'accroître leurs capacités de raisonnement naturel avec des données supplémentaires, des algorithmes améliorés, des données humaines et d'autres techniques. Selon le cas d'utilisation, ces améliorations sont souvent essentielles pour gérer des tâches complexes et garantir la précision des résultats des intelligences.

2.2.6 Règlement

Récemment, des progrès significatifs ont été réalisés dans le domaine de l'IA du corps intelligent et son intégration avec les systèmes incarnés a ouvert de nouvelles possibilités d'interaction avec les corps intelligents par le biais d'expériences plus immersives, plus dynamiques et plus engageantes. Afin d'accélérer ce processus et d'alléger les tâches fastidieuses liées au développement de l'IA du corps intelligent, nous proposons le développement d'un pipeline d'interaction avec le corps intelligent basé sur l'IA de nouvelle génération. Développer un système de collaboration homme-machine qui permette aux humains et aux machines de communiquer et d'interagir de manière significative. Le système pourrait exploiter les capacités de conversation et le large éventail d'actions d'un modèle de langage étendu (LLM) ou d'un modèle de langage visuel (VLM) pour dialoguer avec les acteurs humains et identifier leurs besoins. Il effectuera ensuite les actions appropriées pour aider le joueur humain, le cas échéant.

Lors de l'utilisation de grands modèles de langage (LLM) ou de modèles de langage visuels (VLM) pour les systèmes collaboratifs homme-robot, il est important de noter que ces modèles fonctionnent comme des boîtes noires et produisent des résultats imprévisibles. Cette incertitude peut devenir critique dans des environnements physiques (par exemple, lors de l'utilisation d'un robot réel). L'un des moyens de relever ce défi consiste à limiter l'attention du modèle de langage étendu (LLM)/modèle de langage visuel (VLM) grâce à l'ingénierie des indices. Par exemple, lors de la planification de tâches robotiques basées sur des instructions, il a été rapporté que la fourniture d'informations environnementales sous forme d'indices produisait des résultats plus stables que si l'on s'appuyait uniquement sur le texte Gramopadhye et Szafir (2022). Ce rapport est étayé par la théorie du cadre de l'IA de Minsky Minsky (1975), qui suggère que l'espace du problème à résoudre par un modèle de langage étendu (LLM)/modèle de langage visuel (VLM) est défini par un message-guide donné. Une autre approche consiste à concevoir des messages-guides de telle sorte que le modèle de langage étendu (LLM)/modèle de langage visuel (VLM) contienne un texte explicatif permettant à l'utilisateur de comprendre ce sur quoi le modèle se concentre ou ce qu'il reconnaît. En outre, la mise en œuvre d'un niveau supérieur permettant une validation et une modification de la pré-exécution guidées par l'homme peut faciliter le fonctionnement des systèmes qui fonctionnent sous cette direction (figure 4).

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 4 : Système d'enseignement de la robotique développé dans Wake et al. (2023c). (Gauche) Flux de travail du système. Le processus se compose de trois étapes : la planification des tâches, qui ChatGPT Planification des tâches du robot sur la base de commandes et d'informations environnementales ; Démonstration, où l'utilisateur démontre visuellement des séquences d'action. Toutes les étapes sont passées en revue par l'utilisateur, et si une étape échoue ou présente des défauts, les étapes précédentes peuvent être revues si nécessaire. (à droite) Une application web qui permet de télécharger des données de démonstration et d'interagir entre l'utilisateur et ChatGPT.

2.3 Intelligentsia AI pour les capacités émergentes

Malgré l'adoption croissante des systèmes d'intelligence interactive, la plupart des approches proposées sont encore confrontées à des défis en termes de performance de généralisation dans des environnements ou des scénarios inédits. Les pratiques de modélisation actuelles exigent des développeurs qu'ils préparent de grands ensembles de données pour chaque domaine afin d'affiner/pré-entraîner les modèles ; cependant, ce processus est coûteux ou même impossible si le domaine est nouveau. Pour résoudre ce problème, nous avons construit des intelligences interactives qui utilisent la mémoire de connaissances des modèles de base génériques (ChatGPT, Dall-E, GPT-4, etc.) pour de nouveaux scénarios, en particulier pour générer des espaces de collaboration entre les humains et les intelligences. Nous identifions un mécanisme émergent - que nous appelons réalité mixte avec interactions connaissance-raisonnement - qui facilite la collaboration avec les humains pour résoudre des tâches difficiles dans des environnements réels complexes, et la capacité d'explorer des environnements inédits pour s'adapter à la réalité virtuelle. Pour ce mécanisme, les intelligences apprennent i) des micro-réponses à travers les modalités : en collectant des connaissances individuelles pertinentes pour chaque tâche d'interaction à partir de sources de réseau explicites (par exemple, pour comprendre des scénarios inédits) et en les déduisant implicitement des sorties de modèles pré-entraînés ; ii) des macro-comportements de manière indépendante de la réalité : en affinant les dimensions et les modèles d'interaction dans les domaines linguistique et multimodal et en raisonnant sur le rôle des représentations, sur certaines variables cibles, sur la réalité mixte et sur la diversité d'influence de l'information collaborative dans le grand réseau de connaissances. d'influence de l'information collaborative dans le grand modèle linguistique (LLM). Nous étudions la tâche des synergies d'interaction guidées par la connaissance pour la génération de scénarios en collaboration avec divers modèles OpenAI et montrons comment le système Interactive Intelligentsia peut encore améliorer les résultats prometteurs pour les modèles de base à grande échelle dans notre configuration. Il intègre et améliore la profondeur de généralisation, la conscience et l'interprétabilité des systèmes d'IA adaptatifs complexes.

3 Paradigme de l'IA du corps intelligent

Dans cette section, nous discutons d'un nouveau paradigme et d'un nouveau cadre pour la formation de l'IA aux intelligences. Nous espérons atteindre plusieurs objectifs avec le cadre proposé :

-
En utilisant les modèles et les stratégies de pré-entraînement existants, nos intelligences sont efficacement guidées pour comprendre les modalités importantes, telles que les entrées textuelles ou visuelles.
-
Soutenir une capacité adéquate de planification des missions à long terme.
-
Introduire un cadre mnémotechnique qui permet d'encoder l'apprentissage et de le retrouver ultérieurement.
-
Permet d'utiliser le retour d'information sur l'environnement pour former efficacement les intelligences afin qu'elles apprennent les actions à entreprendre.

La figure 5 présente un diagramme de haut niveau de new intelligensia, qui décrit les principaux sous-modules d'un tel système.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Fig. 5 : Le nouveau paradigme du corps intelligent que nous proposons pour les intelligences multimodales à usage général. Comme indiqué, il existe cinq modules principaux : 1) environnement et perception, y compris la planification des tâches et l'observation des compétences ; 2) apprentissage du corps intelligent ; 3) mémoire ; 4) action du corps intelligent ; et 5) cognition.

3.1 Grands modèles linguistiques et modèles linguistiques visuels

Nous pouvons utiliser un grand modèle de langage (LLM) ou un modèle de langage visuel (VLM) pour amorcer les composants d'un corps intelligent, comme le montre la figure 5. En particulier, il a été démontré que les grands modèles de langage sont performants dans la planification des tâches Gong et al. (2023a), qu'ils contiennent une grande quantité de connaissances sur le monde Yu et al. (2023b) et qu'ils présentent un raisonnement logique impressionnant Creswell et al. (2022). En outre, les modèles de langage visuel comme CLIP Radford et al. (2021) fournissent un codeur visuel générique aligné sur le langage, ainsi que des capacités de reconnaissance visuelle à zéro échantillon. Par exemple, les modèles multimodaux open-source de pointe tels que LLaVA Liu et al. (2023c) et InstructBLIP Dai et al. (2023) s'appuient sur le modèle CLIP figé en tant que codeur visuel.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 6 : Nous présentons le paradigme actuel de création d'intelligences IA multimodales en combinant de grands modèles linguistiques (LLM) avec de grands modèles visuels (LVM). En règle générale, ces modèles reçoivent des données visuelles ou linguistiques et utilisent des modèles visuels et linguistiques pré-entraînés et figés pour apprendre à connecter et à relier des sous-réseaux de modalités plus petits. Parmi les exemples, citons Flamingo Alayrac et al. (2022), BLIP-2 Li et al. (2023c), InstructBLIP Dai et al. (2023), et LLaVA Liu et al.

3.2 Définition du transformateur de corps intelligent

Outre l'utilisation de modèles de macrolangage gelés et de modèles de langage visuel en tant qu'intelligences d'IA, une seule intelligence peut être utilisée Transformateur modèle, qui combine l'aspect visuel et l'aspect Jeton et un jeton linguistique comme entrées, à l'instar de Gato Reed et al. (2022). En plus des entrées visuelles et linguistiques, nous ajoutons un troisième type d'entrée générique, que nous désignons commecorps intelligent Jeton : conceptuellement, un jeton d'organisme intelligent est utilisé pour réserver un sous-espace spécifique aux comportements de l'organisme intelligent dans l'espace d'entrée et de sortie d'un modèle. Pour les robots ou les jeux, ce sous-espace peut être représenté comme l'espace d'action d'entrée du contrôleur. Le jeton de corps intelligent peut également être utilisé pour former un corps intelligent à l'utilisation d'un outil spécifique, tel qu'un modèle de génération ou d'édition d'images, ou pour d'autres appels d'API, comme le montre la figure 7, où nous pouvons combiner le jeton de corps intelligent avec le jeton visuel et linguistique pour générer une interface unifiée pour la formation à l'IA de corps intelligents multimodaux. L'utilisation du transformateur de corps intelligent présente plusieurs avantages par rapport à l'utilisation d'un grand modèle linguistique propriétaire comme corps intelligent. Tout d'abord, le modèle peut être facilement adapté à des tâches très spécifiques du corps intelligent qui peuvent être difficiles à représenter en langage naturel (par exemple, les entrées du contrôleur ou d'autres actions spécifiques). Ainsi, les intelligences peuvent apprendre des interactions environnementales et des données spécifiques à un domaine afin d'améliorer leurs performances. Deuxièmement, en accédant aux probabilités des jetons d'un corps intelligent, il peut être plus facile de comprendre pourquoi un modèle entreprend ou non une action particulière. Troisièmement, certains domaines (par exemple, les soins de santé et le droit) ont des exigences strictes en matière de confidentialité des données. Enfin, un transformateur de corps intelligent relativement petit peut être beaucoup moins cher qu'un modèle de langage propriétaire plus important.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 7 : Modèle de transformateur multimodal unifié pour l'intelligentsia. Au lieu de connecter des sous-modules gelés et d'utiliser des modèles de base existants comme blocs de construction, nous proposons un paradigme de formation unifié de bout en bout pour les systèmes corporels intelligents. Nous pouvons toujours initialiser les sous-modules en utilisant le grand modèle de langage et le grand modèle de vision de la figure 6, mais nous pouvons également utiliser les jetons SmartBody, qui sont des jetons spécialisés utilisés pour former les modèles à effectuer des comportements SmartBody dans des domaines spécifiques (par exemple, la robotique). Pour plus de détails sur les jetons SmartBody, voir la section 3.2.

3.3 Création d'un transformateur

Comme le montre la figure 5 ci-dessus, nous pouvons utiliser le nouveau paradigme du corps intelligent avec des corps intelligents guidés par de grands modèles de langage et des modèles de langage visuel, et utiliser les données générées par le grand modèle de base pour former le modèle de transformateur du corps intelligent afin qu'il apprenne à atteindre des objectifs spécifiques. Au cours de ce processus, les modèles de corps intelligents sont formés pour être adaptés spécifiquement à des tâches et à des domaines particuliers. Cette approche vous permet d'exploiter les caractéristiques et les connaissances acquises à partir de modèles de base préexistants. Nous présentons ci-dessous un aperçu simplifié du processus en deux étapes :

Définir des objectifs dans le domaine.

Pour former un transformateur de corps intelligent, l'espace d'action et d'objectif du corps intelligent dans chaque environnement particulier doit être défini de manière explicite, ce qui implique d'identifier les tâches ou actions spécifiques que les intelligences doivent effectuer et d'attribuer des jetons d'intelligences uniques à chaque tâche ou action. En outre, toute règle ou procédure automatisée pouvant être utilisée pour reconnaître l'accomplissement réussi d'une tâche peut augmenter de manière significative la quantité de données disponibles pour la formation. Sinon, les données générées par le modèle de base ou les données annotées manuellement seront nécessaires pour former le modèle. Une fois que les données sont collectées et que les performances des intelligences peuvent être évaluées, le processus d'amélioration continue peut commencer.

Amélioration continue.

Le contrôle continu des performances du modèle et la collecte des informations en retour sont des étapes fondamentales du processus. Le retour d'information doit être utilisé pour affiner et mettre à jour le modèle. Il est également essentiel de veiller à ce que le modèle ne perpétue pas des résultats biaisés ou contraires à l'éthique. Pour ce faire, il convient d'examiner minutieusement les données d'apprentissage, de vérifier régulièrement si les résultats sont biaisés et, le cas échéant, de former le modèle à l'identification et à la prévention des biais. Une fois que le modèle a atteint des performances satisfaisantes, il peut être déployé dans l'application prévue. Le contrôle continu reste essentiel pour s'assurer que le modèle fonctionne comme prévu et pour faciliter les ajustements nécessaires. Voir la section 8 pour plus de détails sur ce processus, les sources de données de formation et l'apprentissage continu de l'IA pour les intelligences.

4 Corps de l'intelligence Apprentissage de l'IA

4.1 Stratégies et mécanismes

Les stratégies d'IA interactive dans différents domaines étendent le paradigme de l'utilisation d'intelligences formées qui cherchent activement à recueillir les commentaires de l'utilisateur, les informations sur les actions, les connaissances utiles pour la génération et l'interaction afin d'invoquer de grands modèles de base. Parfois, il n'est pas nécessaire de réentraîner le grand modèle linguistique/modèle linguistique visuel, et nous améliorons les performances des intelligences en leur fournissant des indices contextuels améliorés au moment du test. D'autre part, il s'agit toujours de modéliser les interactions connaissance/raisonnement/sens commun/raisonnement par le biais d'une combinaison de systèmes ternaires - un système effectue l'extraction de connaissances à partir de requêtes multi-modèles, le second effectue la génération d'interactions à partir d'intelligences pertinentes, et le dernier effectue un entraînement auto-supervisé ou un pré-entraînement nouveau et riche en informations d'une manière améliorée, y compris l'apprentissage par renforcement ou l'apprentissage par imitation.

4.1.1 Apprentissage par renforcement (RL)

L'utilisation de l'apprentissage par renforcement (RL) pour former des intelligences interactives au comportement intelligent ne date pas d'hier. L'apprentissage par renforcement est une méthode qui permet d'apprendre la relation optimale entre les états et les actions en fonction des récompenses (ou des punitions) reçues pour leurs actions. L'apprentissage par renforcement est un cadre hautement évolutif qui a été appliqué à un large éventail d'applications, y compris la robotique, mais il est généralement confronté à plusieurs problèmes de classement et les grands modèles de langage/modèles de langage visuel ont montré qu'ils pouvaient atténuer ou surmonter certaines de ces difficultés :

Conception des récompensesL'efficacité de l'apprentissage de stratégies dépend fortement de la conception de la fonction de récompense. La conception d'une fonction de récompense nécessite non seulement une compréhension de l'algorithme d'apprentissage par renforcement, mais aussi une connaissance approfondie de la nature de la tâche, et donc généralement une conception de la fonction basée sur l'expérience d'un expert. Plusieurs études ont exploré l'utilisation de grands modèles de langage/modèles de langage visuel pour concevoir des fonctions de récompense. Yu et al. (2023a) ; Katara et al. (2023) ; Ma et al.
Collecte des données et efficacité Compte tenu de sa nature exploratoire, l'apprentissage de stratégies basé sur l'apprentissage par renforcement nécessite de grandes quantités de données Padalkar et al. (2023). Le besoin de grandes quantités de données devient particulièrement évident lorsque la stratégie implique la gestion de longues séquences ou l'intégration d'opérations complexes. En effet, ces scénarios nécessitent une prise de décision plus nuancée et un apprentissage à partir d'un plus grand nombre de situations. Dans des études récentes, des efforts ont été déployés pour améliorer la génération de données afin de soutenir l'apprentissage des stratégies Kumar et al. En outre, dans certaines études, ces modèles ont été intégrés dans des fonctions de récompense pour améliorer l'apprentissage de stratégies Sontakke et al. (2023). Parallèlement à ces développements, une autre étude s'est concentrée sur l'efficacité des paramètres dans le processus d'apprentissage à l'aide de modèles de langage visuels Tang et al. (2023) ; Li et al. (2023d) et d'un grand modèle de langage Shi et al. (2023).
marche longitudinale En ce qui concerne l'efficacité des données, l'apprentissage par renforcement devient plus difficile à mesure que la longueur des séquences d'actions augmente. Cela est dû à la relation floue entre les actions et les récompenses (connue sous le nom de problème d'allocation de crédit), ainsi qu'à l'augmentation du nombre d'états à explorer, ce qui nécessite une quantité importante de temps et de données. Une approche typique pour les tâches longues et complexes consiste à les décomposer en une série de sous-objectifs et à appliquer des stratégies pré-entraînées pour résoudre chaque sous-objectif (par exemple, Takamatsu et al. (2022)). Cette idée fait partie du cadre de planification des tâches et des mouvements (TAMP) de Garrett et al. (2021). La planification des tâches et des mouvements se compose de deux éléments principaux : la planification des tâches, qui consiste à identifier des séquences d'opérations de haut niveau, et la planification des mouvements, qui consiste à trouver des trajectoires physiquement cohérentes et exemptes de collisions pour atteindre les objectifs du plan de tâches. Les grands modèles de langage sont bien adaptés à la planification des tâches et des mouvements, et les recherches récentes ont généralement adopté l'approche selon laquelle la planification des tâches de haut niveau est effectuée à l'aide de grands modèles de langage, tandis que le contrôle de bas niveau est résolu par des stratégies basées sur l'apprentissage par renforcement. Les caractéristiques avancées des grands modèles de langage leur permettent de décomposer efficacement les instructions abstraites en sous-buts Wake et al. (2023c), contribuant ainsi à améliorer la compréhension du langage dans les systèmes robotiques.

4.1.2 Apprentissage par imitation (IL)

Alors que l'apprentissage par renforcement vise à former des stratégies basées sur l'exploration des comportements et la maximisation des récompenses liées à l'interaction avec l'environnement, l'apprentissage par imitation vise à utiliser des données d'experts pour imiter les comportements d'intelligences expérimentées ou d'experts. Par exemple, l'un des principaux cadres de l'apprentissage par imitation en robotique est le clonage comportemental (BC). Le clonage comportemental est une méthode de formation d'un robot à l'imitation des actions d'un expert par copie directe. Dans cette approche, les actions d'un expert dans l'exécution d'une tâche spécifique sont enregistrées et le robot est entraîné à reproduire ces actions dans des situations similaires. Les approches récentes basées sur le clonage comportemental combinent généralement des techniques issues du modèle de langage étendu/modèle de langage visuel, ce qui permet d'obtenir des modèles de bout en bout plus avancés. Par exemple, Brohan et al. présentent RT-1 Brohan et al. (2022) et RT-2 Brohan et al. (2023), des modèles basés sur Transformer qui prennent une série d'images et de langage comme entrées et produisent des séquences d'actions de base et de bras. Ces modèles sont signalés comme montrant une performance de généralisation élevée en raison de leur entraînement sur une grande quantité de données d'entraînement.

4.1.3 RVB traditionnel

L'apprentissage d'un comportement corporel intelligent à l'aide d'une image est un sujet d'intérêt depuis de nombreuses années. Mnih et al. (2015). Le défi inhérent à l'utilisation de l'entrée RVB est la catastrophe de la dimensionnalité. Pour résoudre ce problème, les chercheurs ont soit utilisé plus de données Jang et al. (2022) ; Ha et al. (2023), soit introduit un biais inductif dans la conception du modèle pour améliorer l'efficacité de l'échantillon. En particulier, les auteurs intègrent des structures 3D dans l'architecture du modèle utilisé pour la manipulation Zeng et al. (2021) ; Shridhar et al. (2023) ; Goyal et al. (2023) ; James et Davison (2022). Pour la navigation des robots, les auteurs Chaplot et al. (2020a, b) utilisent des cartes comme représentation. Les cartes peuvent être apprises par des réseaux neuronaux agrégeant toutes les entrées RVB précédentes, ainsi que par des méthodes de reconstruction 3D telles que les champs de radiation neuronaux Rosinol et al. (2022).

Pour obtenir davantage de données, les chercheurs ont utilisé des simulateurs graphiques pour synthétiser des données synthétiques Mu et al. (2021) ; Gong et al. (2023b) et ont tenté de combler l'écart sim2réel Tobin et al. (2017) ; Sadeghi et Levine (2016) ; Peng et al. (2018). Récemment, des efforts concertés ont été déployés pour conserver des ensembles de données à grande échelle dans le but de remédier à la pénurie de données Padalkar et al. (2023) ; Brohan et al. (2018) ; Sadeghi et Levine (2016). D'autre part, les techniques d'enrichissement des données ont également fait l'objet d'études approfondies afin d'accroître la complexité des échantillons Zeng et al. (2021) ; Rao et al. (2020) ; Haarnoja et al. (2023) ; Lifshitz et al.

4.1.4 Apprentissage contextuel

L'apprentissage contextuel s'est avéré être une méthode efficace pour résoudre les tâches de traitement du langage naturel à l'aide de grands modèles de langage tels que GPT-3 Brown et al. (2020) ; Min et al. (2022). En fournissant des exemples de tâches dans le contexte des messages-guides des grands modèles de langage, on peut constater que les messages-guides sans échantillon sont un moyen efficace de contextualiser la sortie du modèle dans une variété de tâches de traitement du langage naturel. Des facteurs tels que la variété des exemples et la qualité des exemples présentés dans le contexte peuvent améliorer la qualité des résultats du modèle An et al. (2023) ; Dong et al. (2022). Dans le contexte des modèles de base multimodaux, lorsque seul un petit nombre d'exemples est donné, des modèles comme Flamingo et BLIP-2 Alayrac et al. (2022) ; Li et al. (2023c) se sont révélés efficaces dans une grande variété de tâches de compréhension visuelle. L'apprentissage contextuel des intelligences dans l'environnement peut être encore amélioré en intégrant un retour d'information spécifique au contexte lorsque certaines actions sont effectuées Gong et al. (2023a).

4.1.5 Optimisation des systèmes corporels intelligents

L'optimisation des systèmes de corps intelligents peut être divisée en aspects spatiaux et temporels. L'optimisation spatiale porte sur la manière dont les corps intelligents opèrent dans l'espace physique pour accomplir des tâches. Cela inclut la coordination entre les robots, l'allocation des ressources et le maintien d'un espace organisé.

Afin d'optimiser efficacement les systèmes d'IA de corps intelligents, en particulier ceux dans lesquels un grand nombre d'intelligences fonctionnent en parallèle, les travaux antérieurs se sont concentrés sur l'utilisation de l'apprentissage par renforcement à haut volume Shacklett et al. (2023). Étant donné que les ensembles de données d'interaction de corps multi-intelligents spécifiques à une tâche sont rares, l'apprentissage par renforcement en auto-jeu permet aux équipes de corps intelligents de s'améliorer au fil du temps. Cependant, cela peut également conduire à des intelligences très fragiles qui ne peuvent fonctionner que dans le cadre de l'auto-jeu et non avec des humains ou d'autres intelligences indépendantes parce qu'elles s'adaptent trop au paradigme d'entraînement de l'auto-jeu. Pour résoudre ce problème, nous pouvons plutôt découvrir un ensemble de conventions différentes Cui et al. (2023) ; Sarkar et al. (2023) et former une intelligence qui comprend les différentes conventions. Le modèle de base peut en outre aider à établir des conventions avec les humains ou d'autres intelligences indépendantes, permettant ainsi une coordination harmonieuse avec de nouvelles intelligences.

D'autre part, l'optimisation temporelle se concentre sur la manière dont les intelligences exécutent des tâches dans le temps. Il s'agit notamment de la programmation des tâches, de leur enchaînement et de l'efficacité de la chronologie. Par exemple, l'optimisation de la trajectoire d'un bras robotique est un exemple d'optimisation efficace du mouvement entre des tâches successives Zhou et al. (2023c). Au niveau de l'ordonnancement des tâches, des algorithmes tels que LLM-DP Dagan et al. (2023) et ReAct Des approches telles que celle de Yao et al. (2023a) traitent de la planification efficace des tâches en intégrant de manière interactive les facteurs environnementaux.

4.2 Systèmes d'agents (zéro et quelques niveaux d'échantillonnage)

4.2.1 Module agent

Notre exploration initiale du paradigme de l'agent a impliqué le développement de "modules" d'IA pour des agents multimodaux interactifs utilisant soit le modèle du grand langage (LLM), soit le modèle du langage visuel (VLM). Nos premiers modules d'agents contribuent à la formation ou à l'apprentissage contextuel et ont une conception minimaliste visant à démontrer la capacité d'un agent à planifier et à coordonner efficacement. Nous avons également exploré les techniques initiales de mémorisation basées sur des repères qui aident à mieux planifier et à informer les futures méthodes d'action sur le terrain. Pour illustrer cela, notre infrastructure "MindAgent" se compose de 5 modules principaux : 1) Conscience de l'environnement avec planification des tâches, 2) Apprentissage de l'agent, 3) Mémoire, 4) Prédiction des actions de l'agent générique et 5) Cognition, comme le montre la figure 5.

4.2.2 Infrastructure des agents

L'IA basée sur des agents est une communauté importante et en pleine expansion dans les domaines du divertissement, de la recherche et de l'industrie. Le développement de modèles de base à grande échelle a considérablement amélioré les performances des systèmes d'IA à base d'agents. Cependant, la création d'agents de cette manière est limitée par la quantité croissante de travail et le coût global requis pour créer des ensembles de données de haute qualité. Chez Microsoft, la mise en place d'une infrastructure d'agents de haute qualité a eu un impact significatif sur le co-pilotage multimodal des agents grâce à l'utilisation de matériel avancé, de diverses sources de données et de bibliothèques logicielles robustes. Microsoft continuant à repousser les limites de la technologie des agents, la plateforme d'agents d'IA devrait continuer à être une force dominante dans l'intelligence multimodale pour les années à venir. Néanmoins, l'interaction entre l'agent et l'IA reste actuellement un processus complexe qui nécessite une combinaison de compétences. Les progrès récents dans le domaine de la modélisation générative à grande échelle de l'IA pourraient réduire considérablement les coûts et les délais élevés actuellement nécessaires pour le contenu interactif, tant pour les grands studios que pour les créateurs de contenu indépendants plus modestes, en leur donnant la possibilité de concevoir des expériences de haute qualité dépassant leurs capacités actuelles. Agents multimodaux à l'intérieur Les systèmes actuels d'IHM sont largement basés sur des règles. Ils ont des comportements intelligents qui réagissent aux actions de l'homme ou de l'utilisateur et ont un certain degré de connaissance du réseau. Cependant, ces interactions sont souvent limitées par le coût du développement logiciel, qui empêche la mise en œuvre de comportements spécifiques dans le système. En outre, les modèles actuels ne sont pas conçus pour aider les utilisateurs à atteindre leurs objectifs dans les situations où ils ne sont pas en mesure d'effectuer une tâche spécifique. Par conséquent, une infrastructure de système d'IA agent est nécessaire pour analyser le comportement de l'utilisateur et fournir un soutien approprié en cas de besoin.

4.3 Modèles de base basés sur des agents (niveaux de pré-entraînement et de réglage fin)

L'utilisation de modèles de base pré-entraînés offre des avantages significatifs en termes de large applicabilité dans une variété de cas d'utilisation. L'intégration de ces modèles permet de développer des solutions personnalisées pour un large éventail d'applications, ce qui évite de devoir préparer de grands ensembles de données étiquetées pour chaque tâche spécifique.

Un exemple notable dans le domaine de la navigation est le système LM-Nav de Shah et al. (2023a), qui combine GPT-3 et CLIP dans une nouvelle approche. Il utilise efficacement les points de repère textuels générés par un modèle de langage, en les ancrant dans les images acquises par le robot pour la navigation. Cette approche démontre la fusion transparente de données textuelles et visuelles, améliorant de manière significative la capacité du robot à naviguer tout en conservant une large applicabilité.

La combinaison de LLM et de détecteurs d'objets de haut niveau (par exemple, Detic Zhou et al. (2022)) peut aider à comprendre les commandes humaines tout en situant les informations textuelles dans les informations de la scène Parakh et al. (2023) ). En outre, des avancées récentes démontrent le potentiel de l'utilisation de l'ingénierie des indices en conjonction avec des modèles multimodaux avancés tels que GPT-4V(ision) Wake et al. (2023b). Cette technique ouvre la voie à la planification de tâches multimodales, soulignant la polyvalence et l'adaptabilité des modèles pré-entraînés dans une variété d'environnements.

5 Classification de l'IA des agents

5.1 Domaine de l'agent générique

Les actions informatisées et les agents généralisés (AG) sont utiles pour de nombreuses tâches. Les progrès récents dans le domaine des modèles de base à grande échelle et de l'IA interactive ont donné de nouvelles possibilités aux AG. Cependant, pour que les AG soient vraiment utiles à leurs utilisateurs, ils doivent être faciles à utiliser et à généraliser à un large éventail d'environnements et de modalités. Nous étendons les principaux chapitres sur l'IA basée sur les agents dans la section 6 avec une grande qualité, en particulier dans les domaines liés à ces sujets en général :

Multimodal Agent AI (MMA) est un forum à venir ^1^^^1^ URL actuelle : https://multimodalagentai.github.io/ pour nos communautés de recherche et d'industrie afin d'interagir les uns avec les autres et avec la communauté plus large de la recherche et de la technologie de l'IA des agents. Les avancées récentes dans le domaine des modèles fondamentaux à grande échelle et de l'IA interactive ont permis de nouvelles capacités pour les agents à usage général (GA), telles que la prédiction du comportement de l'utilisateur et la planification des tâches dans des environnements contraints (par exemple, MindAgent Gong et al. (2023a), la compréhension vidéo multimodale à grain fin Luo et al. (2022), la robotique Ahn et al. ( (2022b) ; Brohan et al. (2023)), ou en fournissant aux utilisateurs des compagnons de conversation qui contiennent un retour d'information (par exemple, un support client basé sur le web pour les systèmes de soins de santé Peng et al. (2023)). Des informations plus détaillées sur les travaux représentatifs et récents sont présentées ci-dessous. Nous espérons discuter de notre vision de l'avenir de la MAA et inspirer les futurs chercheurs à travailler dans ce domaine. Ce document et notre forum couvrent les principaux sujets suivants, mais ne s'y limitent pas :

Thèmes principaux : Agent AI multimodal, agent AI générique
Thème secondaire : Agents incarnés, agents de mouvement, agents basés sur le langage, agents visuels et linguistiques, agents de connaissance et de raisonnement, agents pour les jeux, la robotique, les soins de santé, etc.
Thème étendu : Navigation visuelle, environnements simulés, réarrangement, modèles basés sur des agents, RV/AR/MR, vision et langage incarnés.

Ensuite, nous énumérons les catégories d'agents représentatives suivantes :

5.2 Agent possessif

Notre cerveau biologique existe dans notre corps, et notre corps se déplace dans un monde en constante évolution. L'objectif de l'IA incarnée est de créer des agents, tels que des robots, qui apprennent à résoudre de manière créative des tâches difficiles nécessitant une interaction avec l'environnement. Bien qu'il s'agisse d'un défi de taille, les avancées majeures en matière d'apprentissage profond et la disponibilité croissante de grands ensembles de données tels que ImageNet ont permis d'obtenir des performances surhumaines pour un large éventail de tâches d'IA qui étaient auparavant considérées comme difficiles à gérer. La vision artificielle, la reconnaissance vocale et le traitement du langage naturel ont connu des révolutions transformatrices dans les tâches d'entrée-sortie passives telles que la traduction linguistique et la catégorisation d'images, tandis que l'apprentissage par renforcement a atteint des performances de classe mondiale dans les tâches interactives telles que les jeux. Ces avancées donnent un élan puissant à l'IA incarnée, permettant à de plus en plus d'utilisateurs d'évoluer rapidement vers des agents intelligents capables d'interagir avec les machines.

5.2.1 Agent d'action

Les agents d'action sont des agents qui doivent effectuer des actions physiques dans un environnement physique simulé ou dans le monde réel ; en particulier, ils doivent être activement impliqués dans des activités avec l'environnement. Nous classons les agents d'action dans deux catégories différentes en fonction de leurs domaines d'application : l'IA des jeux et la robotique.

Dans l'IA de jeu, l'agent interagit avec l'environnement du jeu et d'autres entités indépendantes. Dans ce contexte, le langage naturel permet une communication fluide entre l'agent et les humains. Selon le jeu, il peut y avoir une tâche spécifique à accomplir qui fournit un signal de récompense réel. Par exemple, dans un jeu de diplomatie compétitif, l'entraînement d'un modèle linguistique utilisant des données de dialogue humain et des stratégies d'action avec apprentissage par renforcement peut permettre un jeu de niveau humain Meta Fundamental AI Research Diplomacy Team et al. (2022) Meta Fundamental AI Research (FAIR ) Diplomacy Team, Bakhtin, Brown, Dinan, Farina, Flaherty, Fried, Goff, Gray, Hu, et al. (FAIR).

Dans certains cas, les agents se comporteront comme des habitants ordinaires d'une ville Park et al. (2023a) sans essayer d'optimiser pour des objectifs spécifiques. Les modèles de base sont utiles dans ces contextes car ils peuvent simuler des interactions plus naturelles en imitant le comportement humain. Lorsqu'ils sont enrichis d'une mémoire externe, ils produisent des agents convaincants capables de tenir des conversations, de planifier des activités quotidiennes, de nouer des relations et d'avoir une vie virtuelle.

5.2.2 Agent interactif

Les agents interactifs désignent simplement les agents qui peuvent interagir avec le monde, ce qui constitue une catégorie d'agents plus large que les agents d'action.physiothérapieLes agents interactifs ne sont pas des actions, mais ils peuvent transmettre des informations à l'utilisateur ou modifier l'environnement. Par exemple, un agent incarné et interactif pourrait répondre aux questions d'un utilisateur sur un sujet par le biais d'un dialogue ou aider l'utilisateur à analyser des informations existantes, à l'instar d'un chatbot. En étendant les capacités de l'agent au partage d'informations, la conception et les algorithmes de base de l'IA agent peuvent être efficacement adaptés à une série d'applications, telles que les diagnostics Lee et al. (2023) et l'agent de recherche de connaissances Peng et al.

5.3 Agent de simulation et d'environnement

Un moyen efficace pour un agent d'IA d'apprendre à agir dans un environnement est l'expérience d'essais répétés d'interaction avec l'environnement. Une approche représentative est l'apprentissage par renforcement (RL), qui nécessite un grand nombre d'échecs pour former l'agent.Bien qu'il existe des méthodes qui utilisent des agents physiques Kalashnikov et al. (2018), l'utilisation d'agents physiques est à la fois longue et coûteuse. En outre, lorsque les échecs dans les environnements réels peuvent être dangereux (par exemple, la conduite autonome, les véhicules sous-marins), la formation dans des environnements physiques n'est souvent pas réalisable. Par conséquent, l'utilisation de simulateurs pour apprendre des stratégies est une approche courante.

Un certain nombre de plateformes de simulation ont été proposées pour la recherche sur l'IA incarnée, allant de la navigation Tsoi et al. (2022) ; Deitke et al. (2020) ; Kolve et al. (2017) à la manipulation d'objets Wang et al. (2023d) ; Mees et al. (2022) ; Yang et al. (2023a) ; Ehsani et al. (2021). Un exemple est Habitat Savva et al. (2019) ; Szot et al. (2021), qui fournit un environnement intérieur en 3D dans lequel des agents humains et robotiques peuvent effectuer une variété de tâches telles que la navigation, le suivi des commandes et la réponse aux questions. Une autre plateforme de simulation représentative est VirtualHome Puig et al. (2018), qui permet aux avatars humains de manipuler des objets dans un environnement intérieur en 3D. Dans le domaine des jeux, Carroll et al. ont présenté "Overcooked-AI", un environnement de référence conçu pour étudier les tâches coopératives entre les humains et l'IA Carroll et al. (2019). De même, certains travaux visent à intégrer une véritable intervention humaine au-delà de l'interaction agent-environnement Puig et al. (2023) ; Li et al. (2021a) ; Srivastava et al. (2022). Ces simulateurs facilitent l'apprentissage de politiques dans des environnements réels impliquant des interactions agent-robot, ainsi que l'apprentissage de politiques basé sur l'IL à l'aide d'actions de démonstration humaines.

Dans certains cas, le processus d'apprentissage des stratégies peut nécessiter l'intégration de fonctionnalités spécialisées dans le simulateur. Par exemple, lors de l'apprentissage de stratégies basées sur l'image, un rendu réaliste est souvent nécessaire pour faciliter l'adaptation aux environnements réels Mittal et al. (2023) ; Zhong et al. (2023). L'utilisation d'un moteur de rendu réaliste est efficace pour générer des images qui reflètent une variété de conditions (par exemple, des environnements lumineux). En outre, les simulateurs utilisant des moteurs physiques sont nécessaires pour simuler les interactions physiques avec les objets Liu et Negrut (2021). L'intégration de moteurs physiques dans les simulations s'est avérée utile pour l'acquisition de compétences applicables à des scénarios réalistes Saito et al. (2023).

5.4 Agent génératif

Les progrès récents dans le domaine des modèles d'IA générative à grande échelle pourraient permettre de réduire considérablement les coûts et les délais élevés actuellement nécessaires pour le contenu interactif, tant pour les grands studios de jeux que pour les petits studios indépendants, afin de créer des expériences de haute qualité qui dépassent leurs capacités actuelles. En outre, l'intégration de modèles d'IA à grande échelle dans des environnements de type "bac à sable" permettra aux utilisateurs de créer leurs propres expériences et d'exprimer leur créativité d'une manière qui n'est pas possible actuellement.

L'objectif de cet agent n'est pas seulement d'ajouter un contenu 3D interactif à la scène :

Ajouter des règles de comportement et d'interaction arbitraires aux objets, permettant aux utilisateurs de créer leurs propres règles de RV avec un minimum d'instructions.
Toute la géométrie du niveau est générée à partir de croquis sur papier en utilisant des modèles multimodaux GPT4-v, ainsi que d'autres chaînes de modèles impliquant des modèles visuels d'IA.
Retexturation du contenu d'une scène à l'aide d'un modèle de diffusion
Créer des shaders et des effets visuels personnalisés à l'aide d'invites simples pour l'utilisateur

Une application potentielle à court terme est la création d'outils de storyboard/prototypage de RV qui permettent à un seul utilisateur de créer une ébauche (mais entièrement fonctionnelle) d'une expérience/d'un jeu à une vitesse beaucoup plus rapide que ce qui est actuellement possible. Un tel prototype pourrait ensuite être étendu et amélioré à l'aide de ces outils.

5.4.1 Agent AR/VR/Réalité mixte

Les environnements AR/VR/Mixed Reality (collectivement XR) requièrent actuellement des artistes et des animateurs qualifiés pour créer des personnages, des environnements et des objets afin de simuler les interactions dans le monde virtuel, ce qui constitue un processus coûteux impliquant la conception artistique, la modélisation 3D, la texturation, la fixation et l'animation. Il s'agit d'un processus coûteux qui comprend l'art conceptuel, la modélisation 3D, la texturation, la fixation et l'animation. XR Agent peut contribuer à ce processus en facilitant les interactions entre les créateurs et en créant des outils qui aident à construire l'environnement virtuel final.

Nos premières expériences ont montré que les modèles GPT peuvent être utilisés (sans aucun réglage fin supplémentaire) dans un exemple de mécanisme moins dans le moteur Unity pour invoquer des méthodes spécifiques au moteur, en utilisant des appels API pour télécharger des modèles 3D à partir d'Internet et les placer dans la scène, et en leur attribuant un comportement et une animation dans un arbre d'état Huang et al. (2023a). Ce comportement peut être dû à la présence d'un code similaire dans les dépôts de jeux open source utilisant Unity. Par conséquent, le modèle GPT est capable de construire des scènes visuelles riches en chargeant de nombreux objets dans la scène sur la base de simples invites de l'utilisateur.

L'objectif de cette classe d'agents est de construire une plateforme et un ensemble d'outils qui fournissent une interface efficace entre les grands modèles d'IA (la famille des modèles GPT, ainsi que les modèles d'images diffuses) et les moteurs de rendu. Nous explorons ici deux pistes principales :

Intégrer les grands modèles dans les différents outils d'édition de l'infrastructure de l'agent afin d'accélérer considérablement le développement.
Contrôler le moteur de rendu à partir de l'expérience de l'utilisateur en générant un code qui suit les instructions de l'utilisateur et se compile au moment de l'exécution, ce qui permet aux utilisateurs de modifier la RV/simulation avec laquelle ils interagissent de la manière qu'ils souhaitent, et même d'introduire de nouveaux mécanismes d'agent.

L'introduction d'un copilote IA spécialisé dans les configurations XR est utile pour les créateurs XR, qui peuvent utiliser le copilote pour des tâches fastidieuses telles que la fourniture d'actifs simples ou la rédaction d'échantillons de code, ce qui permet aux créateurs de se concentrer sur leur vision créative et d'itérer rapidement sur les idées.

En outre, les agents peuvent aider les utilisateurs à modifier leur environnement de manière interactive en ajoutant de nouveaux actifs, en modifiant la dynamique de l'environnement ou en créant de nouveaux décors. Cette forme de génération dynamique en cours d'exécution peut également être spécifiée par le créateur afin que l'expérience de l'utilisateur soit fraîche et évolue au fil du temps.

5.5 Connaissances et raisonnement logique

La capacité à raisonner et à appliquer des connaissances est une caractéristique déterminante de la cognition humaine, particulièrement évidente dans des tâches complexes telles que la déduction logique et la compréhension des théories de l'esprit ^2^^2^https://plato.stanford.edu/entries/cognitive-science. Le raisonnement sur les connaissances garantit que les réponses et le comportement de l'IA sont cohérents avec les faits connus et les principes logiques. logiques. Cette cohérence est un mécanisme clé pour maintenir la confiance et la fiabilité des systèmes d'IA, en particulier dans des applications critiques telles que le diagnostic médical ou l'analyse juridique. Nous présentons ici un certain nombre d'intelligences qui combinent l'interaction entre la connaissance et le raisonnement et qui sont conçues pour traiter des aspects spécifiques de l'intelligence et du raisonnement.

5.5.1 L'intelligence des connaissances

Les intelligences cognitives raisonnent sur les systèmes de connaissances qu'elles ont acquis de deux manières : implicitement et explicitement. Les connaissances implicites sont typiquement les connaissances encapsulées par de grands modèles de langage comme la famille GPT Brown et al. (2020) ; OpenAI (2023) après avoir été entraînés sur de grandes quantités de données textuelles. Ces modèles peuvent générer des réponses qui donnent l'impression de comprendre parce qu'ils utilisent des modèles et des informations implicitement appris pendant la formation. En revanche, les connaissances explicites sont structurées et peuvent être directement interrogées, comme les informations trouvées dans les bases de connaissances ou les bases de données, et ont traditionnellement renforcé le raisonnement de l'IA en se référant à des ressources externes vérifiables.

Malgré les progrès des modèles de langage, leurs connaissances implicites sont statiques et deviennent obsolètes à mesure que le monde évolue Lewis et al. (2020) ; Peng et al. (2023). Cette limitation rend nécessaire l'intégration de sources de connaissances explicites continuellement mises à jour pour que les systèmes d'IA puissent fournir des réponses précises et actualisées. L'intégration des connaissances implicites et explicites dote les intelligences IA d'une compréhension plus nuancée et de la capacité d'appliquer les connaissances en contexte comme l'intelligence humaine Gao et al. (2022). Cette intégration est essentielle pour construire des intelligences IA centrées sur les connaissances qui non seulement disposent d'informations, mais peuvent comprendre, interpréter et utiliser ces informations, comblant ainsi le fossé entre l'apprentissage extensif et les connaissances approfondies (Marcus et Davis, 2019 ; Gao et al., 2020). Ces intelligences visent à raisonner de manière flexible et avec des informations dynamiques sur le monde, améliorant ainsi leur robustesse et leur adaptabilité (Marcus, 2020).

5.5.2 Intelligences logiques

En règle générale, les intelligences logiques sont des composants d'un système conçu pour appliquer le raisonnement logique afin de traiter des données ou de résoudre des tâches spécifiques au raisonnement logique ou à l'argumentation logique. Dans le contexte d'un grand modèle de base tel que le GPT-4, les intelligences logiques font référence à des composants spécialisés ou à des sous-modules conçus pour traiter des tâches de raisonnement logique. Ces tâches impliquent généralement la compréhension et la manipulation de concepts abstraits, la déduction de conclusions à partir de prémisses données ou la résolution de problèmes nécessitant une approche structurée et logique. D'une manière générale, les modèles de base tels que GPT-4 sont formés sur de vastes corpus de données textuelles et apprennent à effectuer une variété de tâches, y compris celles qui nécessitent une certaine forme de raisonnement logique. En tant que telles, leurs capacités de raisonnement logique sont intégrées dans l'architecture globale et ils n'ont généralement pas d'"intelligences logiques" séparées et isolées. Bien que le GPT-4 et les modèles similaires puissent effectuer des tâches faisant appel à la logique, leur approche est fondamentalement différente de la manière dont les humains ou les systèmes traditionnels basés sur la logique fonctionnent. Ils ne suivent pas de règles logiques formelles et n'ont pas une compréhension explicite de la logique ; au lieu de cela, ils génèrent des réponses basées sur des modèles appris à partir de données d'entraînement. Par conséquent, leurs performances dans les tâches logiques peuvent être impressionnantes, mais aussi incohérentes ou limitées par la nature des données d'apprentissage et les limites inhérentes à la conception du modèle. Un exemple d'intégration d'un sous-module logique séparé dans l'architecture est (Wang et al., 2023e), qui modifie le processus d'intégration de jetons utilisé par le LLM pendant le pré-entraînement en analysant le texte en segments logiques et en modélisant explicitement la hiérarchie logique dans l'intégration de jetons.

5.5.3 Intelligentsia pour le raisonnement émotionnel

La compréhension émotionnelle et l'empathie sont des compétences importantes que les intelligences doivent posséder dans de nombreuses interactions entre l'homme et l'ordinateur. Pour illustrer ce point, un objectif important dans la création d'intelligences conversationnelles engageantes est que les intelligences fassent preuve de plus d'émotion et d'empathie lorsqu'elles agissent, tout en minimisant les résultats qui sont socialement inappropriés ou offensants. Afin de faire progresser cet objectif pour les intelligences conversationnelles, nous publions une revue des neuroimages avec empathie (NICE) de Chen et al. (2021), qui contient près de 2 millions d'images accompagnées de commentaires correspondants générés manuellement et d'un ensemble d'annotations de sentiments humains. Nous fournissons également un nouveau modèle pré-entraîné pour modéliser la génération de sentiments pour les commentaires d'images (MAGIQUE) Chen et al. (2021) - vise à générer des commentaires sur des images conditionnés par des représentations linguistiques qui capturent le style et l'émotion et aident à générer des commentaires plus empathiques, émotifs, engageants et socialement appropriés. Nos expériences montrent que l'approche est efficace pour former des intelligences de commentaires d'images plus humaines et plus engageantes. Le développement d'intelligences sensibles à l'empathie est une direction prometteuse pour les intelligences interactives, et il est important de créer des intelligences avec une compréhension émotionnelle pour un large éventail de groupes et de populations, d'autant plus que de nombreux modèles de langage actuels présentent des biais dans leur compréhension émotionnelle et leurs capacités de raisonnement empathique Mao et al. (2022) ; Wake et al. (2023d).

5.5.4 Intelligences neuro-symboliques

Les intelligences neurosymboliques fonctionnent sur des systèmes hybrides de neurones et de symboles d'Avila Garcez et Lamb (2020). La résolution du problème des représentations du langage naturel est une tâche difficile car elle nécessite de capturer explicitement les informations structurelles symboliques discrètes implicites dans l'entrée. Cependant, la plupart des modèles de séquences neuronales à usage général ne capturent pas explicitement ces informations structurelles, ce qui limite leur performance sur ces tâches.Le travail de Chen et al. (2020) propose un nouveau modèle de codeur-décodeur basé sur des intelligences représentationnelles neuronales structurées.Le codeur du TP-N2F emploie un TPR "liant". Le codeur du TP-N2F utilise le TPR "binding" pour coder des structures symboliques en langage naturel dans l'espace vectoriel, et le décodeur utilise le TPR "unbinding" pour générer des programmes séquentiels représentés par des tuples relationnels dans l'espace symbolique, où chaque tuple contient une relation (ou opération) et quelques paramètres.

Les modèles de langage visuel (VL) qui suivent les commandes, tels que le GPT-4, fournissent une interface flexible qui prend en charge un large éventail de tâches multimodales de manière à obtenir un échantillon nul. Cependant, les interfaces qui fonctionnent sur des images complètes ne permettent pas directement à l'utilisateur de "pointer" et d'accéder à des régions spécifiques de l'image. Cette capacité est importante non seulement pour soutenir les benchmarks VL basés sur des références, mais aussi pour les applications du monde réel qui nécessitent un raisonnement précis à l'intérieur de l'image. Dans (Park et al., 2023b), nous avons construit un modèle de sens commun visuel local qui permet aux utilisateurs de spécifier des régions (multiples) en entrée. Nous avons entraîné notre modèle en échantillonnant les connaissances locales de bon sens à partir d'un grand modèle de langage (LLM) : plus précisément, nous avons incité le LLM à recueillir des connaissances de bon sens basées sur des descriptions d'images littérales globales et un ensemble de descriptions de régions littérales locales générées automatiquement par le modèle VL. Le processus est évolutif et entièrement automatisé, puisqu'il n'est pas nécessaire d'aligner ou de rédiger manuellement des paires d'images et de textes. En entraînant individuellement un modèle de révision d'exemples sélectionnés de haute qualité, nous constatons que l'entraînement sur un corpus local de connaissances générales étendues uniquement à partir d'images peut affiner avec succès les modèles VL existants pour prendre en charge les interfaces qui prennent des citations en entrée. Les résultats empiriques dans un contexte d'échantillon zéro et d'évaluation manuelle montrent que notre approche d'affinage produit des modèles VL d'inférence plus précis par rapport à une base d'expressions référentielles générées de manière passive.

5.6 Les grands modèles de langage et les intelligences de modélisation du langage visuel

De nombreux travaux ont utilisé de grands modèles de langage comme intelligences pour planifier des tâches (Huang et al., 2022a ; Wang et al., 2023b ; Yao et al., 2023a ; Li et al., 2023a), et ont exploité la connaissance du domaine à l'échelle de l'Internet et les capacités de planification à zéro échantillon des grands modèles de langage pour exécuter des intelligences telles que des tâches de planification et d'inférence. d'inférence. Des recherches récentes en robotique ont également utilisé de grands modèles de langage pour planifier des tâches (Ahn et al., 2022a ; Huang et al., 2022b ; Liang et al., 2022) en décomposant des commandes en langage naturel en une série de sous-tâches, sous forme de langage naturel ou de code Python, qui sont ensuite exécutées à l'aide de contrôleurs de bas niveau. En outre, Huang et al. (2022b), Liang et al. (2022) et Wang et al. (2023a) intègrent également un retour d'information sur l'environnement pour améliorer l'exécution des tâches. De nombreux travaux démontrent également que les grands modèles de langage génériques alignés visuellement et formés sur de grandes quantités de données textuelles, d'images et de vidéos peuvent servir de base à la création d'intelligences multimodales capables de s'incarner et d'agir dans divers environnements Baker et al. (2022) ; Driess et al.

6 Tâches d'application de l'IA pour le corps intelligent

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 8 : Simulation et génération de sensations de jeu dans un donjon de Minecraft via GPT-4V pour les intelligences incarnées afin de prédire les actions de jeu interactives de l'utilisateur et d'éditer les interactions.

6.1 Intelligence du jeu

Le jeu fournit un bac à sable unique pour tester le comportement des intelligences à partir du modèle du langage large et du modèle du langage visuel, en repoussant les limites de leur capacité à collaborer et à prendre des décisions. Nous décrivons en particulier trois domaines qui mettent en évidence la capacité des intelligences à interagir avec des joueurs humains et d'autres intelligences et à prendre des mesures significatives dans leur environnement.

6.1.1 Comportement des PNJ

Dans les systèmes de jeu modernes, le comportement des personnages non joueurs (PNJ) est largement déterminé par des scripts prédéfinis écrits par les développeurs. Ces scripts contiennent un ensemble de réactions et d'interactions basées sur divers déclencheurs ou actions du joueur dans l'environnement du jeu. Cependant, cette nature scénarisée se traduit souvent par un comportement prévisible ou répétitif des PNJ qui n'évolue pas en fonction des actions du joueur ou de l'environnement dynamique du jeu. Cette rigidité entrave l'expérience immersive attendue dans un environnement de jeu dynamique. C'est pourquoi on s'intéresse de plus en plus à l'utilisation de grands modèles de langage pour induire l'autonomie et l'adaptabilité dans les comportements des PNJ afin de rendre les interactions plus nuancées et attrayantes. Les PNJ pilotés par l'intelligence artificielle peuvent apprendre du comportement des joueurs, s'adapter à différentes stratégies et offrir une expérience de jeu plus stimulante et imprévisible. Les grands modèles de langage (LLM) peuvent contribuer de manière significative à l'évolution du comportement des PNJ dans les jeux. En traitant de grandes quantités de texte, les LLM peuvent apprendre des modèles et générer des réponses plus variées et plus humaines. Ils peuvent être utilisés pour créer des systèmes de dialogue dynamiques qui rendent les interactions avec les PNJ plus attrayantes et moins prévisibles. En outre, les Big Language Models peuvent être entraînés à l'aide des commentaires des joueurs et des données du jeu afin d'améliorer continuellement le comportement des PNJ pour qu'il corresponde mieux aux attentes des joueurs et à la dynamique du jeu.

6.1.2 Interaction homme-machine NPC

L'interaction entre le joueur humain et le PNJ est un aspect essentiel de l'expérience de jeu. Les modèles d'interaction traditionnels sont largement unidimensionnels, les PNJ répondant à l'entrée du joueur d'une manière prédéfinie. Cette limitation étouffe le potentiel d'interactions plus naturelles et plus riches (similaires aux interactions entre humains) dans le domaine virtuel. L'émergence des technologies de modélisation des grands langages et de modélisation des langages visuels promet de changer ce paradigme. Grâce à ces technologies, les systèmes de jeu peuvent analyser et apprendre le comportement humain afin d'offrir des interactions plus proches de celles de l'homme. Cela améliore non seulement le réalisme et l'engagement des jeux, mais fournit également une plateforme pour explorer et comprendre les interactions homme-machine dans des environnements contrôlés mais complexes.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 9 : Le GPT-4V est efficace pour prédire les prochains mouvements de haut niveau lorsqu'il dispose de l'"historique des mouvements" et de l'"objectif du jeu" dans l'indice. En outre, le GPT-4V reconnaît avec précision que le joueur tient un rondin de bois dans sa main et peut intégrer cette information perçue dans ses futurs plans d'action. Bien que le GPT-4V semble capable de prédire certaines actions de bas niveau (par exemple, appuyer sur la touche "E" pour ouvrir un sac à dos), les résultats du modèle sont intrinsèquement inadaptés à la prédiction d'actions primitives de bas niveau (y compris les mouvements de la souris) et peuvent nécessiter des modules supplémentaires pour le contrôle des actions de bas niveau.

6.1.3 Analyse des jeux à base de corps intelligents

Les jeux font partie intégrante de la vie quotidienne et attirent, selon les estimations, la moitié de la population mondiale https://www.dfcint.com/global-video-game-audience-reaches-3-7-billion/. En outre, il a un impact positif sur la santé mentale https://news.microsoft.com/source/features/work-life/mind-games-how-gaming-can-play-a-positive-role-in-mental- health/. Cependant, les systèmes de jeu contemporains présentent des lacunes dans leur interaction avec les joueurs humains, car leur comportement est en grande partie conçu à la main par les développeurs de jeux. Ces comportements préprogrammés ne sont souvent pas adaptables aux besoins du joueur. C'est pourquoi de nouveaux systèmes d'intelligence artificielle sont nécessaires dans les jeux, capables d'analyser le comportement des joueurs et de leur apporter une aide appropriée si nécessaire. Les systèmes d'interaction intelligents ont le potentiel de révolutionner la manière dont les joueurs interagissent avec les systèmes de jeu. Les interactions des PNJ avec les joueurs ne sont plus limitées par un ensemble restreint de règles conçues par les développeurs de jeux. Ils ont le potentiel de s'adapter de manière transparente à l'expérience du joueur, en fournissant un retour d'information opportun pour enrichir l'expérience de jeu et améliorer la synergie de l'interaction homme-machine.

Les Big Language Models peuvent être des outils puissants pour analyser les données textuelles du jeu, y compris les transcriptions de chat, les commentaires des joueurs et le contenu narratif. Ils peuvent aider à identifier des modèles de comportement, de préférences et d'interactions des joueurs, ce qui peut s'avérer précieux pour les développeurs de jeux afin d'améliorer les mécanismes de jeu et les récits. En outre, les modèles de langage visuel peuvent analyser de grandes quantités d'images et de données vidéo provenant de sessions de jeu afin d'analyser les intentions et les actions des utilisateurs dans l'univers du jeu. En outre, les grands modèles de langage et les modèles de langage visuel peuvent faciliter le développement d'intelligences dans le jeu qui peuvent communiquer avec le joueur et d'autres intelligences d'une manière sophistiquée et humaine, améliorant ainsi l'expérience globale du jeu. Outre les grands modèles de langage et les modèles de langage visuel, les données d'entrée de l'utilisateur offrent une voie prometteuse pour la création d'intelligences de jeu qui modélisent la perception, le jeu et la compréhension du jeu en imitant les joueurs humains. En combinant l'interaction et le retour d'information du joueur, l'entrée de pixels et la planification et la compréhension du langage naturel, les modèles corporels intelligents peuvent contribuer à améliorer en permanence la dynamique du jeu, ce qui permet aux environnements de jeu d'évoluer d'une manière plus centrée sur le joueur.

6.1.4 Composition de la scène de jeu

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 10 : prédiction de vidéo masquée sur une vidéo Minecraft inédite. De gauche à droite : image originale, image masquée, image reconstruite et image reconstruite avec patch.

La composition de scènes est un élément important de la création et de l'amélioration des environnements de jeu immersifs. Elle implique la génération automatique ou semi-automatique de scènes et d'environnements tridimensionnels (3D) dans le jeu. Ce processus comprend la création de terrains, le placement d'objets, la création d'un éclairage réaliste et parfois même de systèmes météorologiques dynamiques.

Les jeux modernes présentent souvent de vastes environnements ouverts. La conception manuelle de ces paysages peut prendre beaucoup de temps et nécessiter de nombreuses ressources. La génération automatisée de terrains (souvent à l'aide de techniques procédurales ou pilotées par l'IA) peut produire des paysages complexes et réalistes sans trop d'intervention humaine. Les grands modèles linguistiques et les modèles de langage visuel peuvent exploiter les connaissances à l'échelle de l'internet pour élaborer des règles permettant de concevoir des paysages non répétitifs uniques et visuellement impressionnants. En outre, les grands modèles linguistiques et les modèles linguistiques visuels peuvent être utilisés pour garantir la cohérence sémantique et la variabilité des ressources générées. Le placement d'objets tels que les bâtiments, la végétation et d'autres éléments dans la scène d'une manière réaliste et esthétiquement agréable est essentiel pour l'immersion.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 11 : prédiction de l'action suivante à bas niveau à l'aide d'un modèle pré-entraîné de petites intelligences dans un scénario de jeu Minecraft.

Les modèles de langage visuel et les grands modèles de langage peuvent aider à placer les objets en suivant des règles et une esthétique prédéfinies ou apprises, ce qui accélère le processus de conception des niveaux. Les modèles de langage visuel et les grands modèles de langage peuvent être perfectionnés pour comprendre les principes de conception et d'esthétique afin d'aider à générer du contenu de manière procédurale. Ils peuvent aider à développer des règles ou des lignes directrices que les algorithmes procéduraux peuvent suivre pour générer des objets et des scènes visuellement attrayants et adaptés au contexte.

Un éclairage réaliste et des effets atmosphériques sont la base de la création d'environnements de jeu crédibles et attrayants. Des algorithmes avancés peuvent simuler des conditions d'éclairage naturel et des effets météorologiques dynamiques pour améliorer le réalisme et l'atmosphère d'une scène. Les modèles de grand langage peuvent aider à développer des systèmes permettant d'obtenir des effets d'éclairage et d'atmosphère plus réalistes de plusieurs manières innovantes. Les modèles de langage visuel peuvent analyser de vastes ensembles de données sur les conditions d'éclairage et d'atmosphère du monde réel afin de développer des algorithmes plus réalistes pour simuler ces effets dans les jeux. En comprenant les schémas et la complexité de l'éclairage naturel et des conditions météorologiques, ces modèles peuvent contribuer au développement d'algorithmes qui reproduisent fidèlement la réalité. Les modèles de grand langage et les modèles de langage visuel peuvent également être utilisés pour développer des systèmes qui ajustent l'éclairage et les effets atmosphériques en temps réel en fonction des actions du joueur, de l'état du jeu ou d'intrants externes. Ils peuvent traiter les commandes en langage naturel du joueur pour modifier l'environnement du jeu afin d'offrir une expérience plus interactive et immersive.

6.1.5 Expériences et résultats

Apprentissage à partir d'un échantillon zéro/peu d'échantillons à l'aide d'un grand modèle linguistique ou d'un modèle linguistique visuel.

Comme le montrent les figures 8 et 9, nous utilisons GPT-4V pour la description de haut niveau et la prédiction d'actions. La figure 8 présente quelques exemples qualitatifs de l'utilisation de GPT-4V pour générer des descriptions d'actions et des modifications. Le texte intelligent enrichi par le corps ouvre une nouvelle voie pour la génération de scènes 3D en utilisant l'action du jeu a priori pour améliorer le caractère naturel de la scène. En conséquence, GPT-4V génère des descriptions de haut niveau pertinentes liées à la vidéo du jeu.

Modèles de pré-entraînement pour les petites intelligences.

Pour démontrer notre architecture de langage visuel pour les intelligibles, nous étudions d'abord son application pour le pré-entraînement sur les données Minecraft, un domaine largement utilisé pour les intelligibles de jeux. Comme le montre la figure 7, compte tenu d'une entrée action-corps intelligent, d'images clés vidéo et du texte correspondant, les actions et les images du corps intelligent peuvent être converties en jeton de texte d'action et en jeton de patch d'image à l'aide d'un codeur-décodeur standard, qui peut ensuite être converti en phrases de prédiction d'action à l'aide d'un décodeur de langage visuel du corps intelligent. L'architecture globale est présentée à la figure 7. Nous évaluons notre approche à l'aide de plusieurs démos Minecraft. Les données vidéo Minecraft consistent en des clips de 5 minutes, et la vidéo que nous utilisons pour le pré-entraînement contient 78 000 vidéos, et nous utilisons 5 000 vidéos (représentant 6% des données de pré-entraînement) pour le premier cycle de pré-entraînement. Nous entraînons un modèle de 250 millions de paramètres sur 16 GPU NVIDIA v100 pendant une journée et visualisons les résultats de notre modèle dans les figures 10 et 11. La figure 10 montre que notre architecture smartbody relativement petite peut générer des résultats raisonnables pour des scènes Minecraft qui n'ont pas été vues pendant l'entraînement. La figure 11 montre une comparaison des prédictions du modèle avec les actions de joueurs humains réels, démontrant le potentiel de compréhension de bas niveau de notre petit modèle de corps intelligent.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 12 : MindAgent pour l'infrastructure de jeu de l'apprentissage contextuel. compétences de planification et utilisation d'outils : les environnements de jeu requièrent un ensemble diversifié de compétences de planification et d'utilisation d'outils pour mener à bien les tâches. Il génère des informations pertinentes sur le jeu et convertit les données du jeu en un format de texte structuré qui peut être traité par le Big Language Model. Big Language Models : le principal moteur de travail de notre infrastructure prend des décisions et agit donc comme un répartiteur pour des systèmes corporels multi-intelligents. Historique de la mémoire : utilitaires permettant de stocker des informations pertinentes. Module d'action : extrait les actions d'une entrée textuelle et les convertit dans un langage spécifique au domaine, et valide le DSL afin qu'aucune erreur ne se produise pendant l'exécution.

Infrastructure corporelle multi-intelligente.

Comme le montre le paradigme du corps intelligent de la figure 5, nous avons conçu une nouvelle infrastructure pour un nouveau scénario de jeu appelé "CuisineWorld" Gong et al. (2023a). Nous décrivons notre approche en détail dans la figure 12. Notre infrastructure permet une collaboration multi-intelligence en utilisant GPT-4 comme planificateur central et en travaillant sur plusieurs domaines de jeu. Nous étudions les capacités de planification multi-intelligence du système et déployons l'infrastructure dans un jeu vidéo réel pour démontrer l'efficacité de la collaboration multi-intelligence et homme-ordinateur. En outre, nous présentons "Cuisineworld", une référence textuelle pour la collaboration multi-intelligence qui fournit une nouvelle métrique automatisée, le score de collaboration (CoS), pour quantifier l'efficacité de la collaboration.

Pour plus d'exemples et de détails sur les descriptions de jeux, les prédictions d'actions de haut niveau et les indices GPT-4V, voir l'annexe. Nous présentons des exemples pour Bleeding Edge, voir la figure 32 et l'annexe B ; Microsoft Flight Simulator, voir la figure 33 et l'annexe C ; ASSASSIN's CREED ODYSSEY, voir la figure 34 et l'annexe D ; GEARS of WAR 4, voir la figure 35 et l'annexe E ; et Starfield. Voir la figure 35 et l'annexe E ; et l'exemple Starfield, voir la figure 36 et l'annexe F. Nous fournissons également des captures d'écran détaillées du processus d'invite GPT4V utilisé pour générer l'exemple Minecraft, voir la figure 31 et l'annexe A.

6.2 Robotique

Les robots sont des intelligences typiques qui doivent interagir efficacement avec leur environnement. Dans cette section, nous présentons les éléments clés d'un fonctionnement efficace des robots, nous passons en revue les sujets de recherche pour lesquels les dernières techniques de modélisation du langage étendu/modélisation du langage visuel (LLM/VLM) ont été appliquées, et nous partageons les résultats de nos recherches récentes.

Contrôle visuel du mouvement.

Le contrôle visuel des mouvements fait référence à l'intégration de la perception visuelle et des actions motrices afin d'effectuer des tâches de manière efficace dans un système robotique. Cette intégration est essentielle car elle permet au robot d'interpréter les données visuelles de son environnement et d'ajuster ses actions motrices en conséquence pour interagir avec précision avec l'environnement. Par exemple, sur une chaîne de montage, un robot équipé d'une commande de mouvement par vision peut détecter la position et l'orientation des objets et ajuster avec précision son bras robotique pour interagir avec ces objets. Cette capacité est essentielle pour garantir la précision et l'efficacité des opérations robotiques dans des applications allant de l'automatisation industrielle à l'assistance aux personnes âgées dans leurs tâches quotidiennes. En outre, le contrôle visuel des mouvements aide les robots à s'adapter aux environnements dynamiques, où l'état de l'environnement peut changer rapidement, ce qui nécessite un ajustement en temps réel des actions de mouvement sur la base d'un retour d'information visuel.

En outre, dans le contexte d'un fonctionnement sûr, les informations visuelles sont cruciales pour détecter les erreurs d'exécution et identifier les conditions préalables et postérieures à chaque action du robot. Dans les environnements non contrôlés, tels que les environnements domestiques inconnus, les robots sont plus susceptibles d'être exposés à des résultats imprévus en raison de facteurs imprévisibles tels que les changements de forme des meubles, les changements d'éclairage et les glissades. Dans ces environnements, l'exécution de scénarios de mouvement planifiés à l'avance, uniquement par rétroaction, peut présenter des risques importants. Par conséquent, l'utilisation d'un retour visuel pour valider en permanence les résultats de chaque étape est essentielle pour garantir un fonctionnement robuste et fiable du système robotique.

Opération conditionnée par la langue.

Le fonctionnement conditionné par la langue fait référence à la capacité d'un système robotique à interpréter et à exécuter des tâches sur la base d'instructions linguistiques. Cet aspect est particulièrement important pour créer des interfaces homme-robot intuitives et conviviales. Grâce à des commandes en langage naturel, l'utilisateur peut spécifier des objectifs et des tâches au robot d'une manière similaire à la communication interhumaine, ce qui abaisse le seuil d'utilisation du système robotique. Par exemple, dans un scénario réel, un utilisateur peut demander à un robot de service de "ramasser la pomme rouge sur la table", et le robot analysera cette commande, reconnaîtra l'objet auquel elle fait référence et exécutera la tâche consistant à ramasser l'objet Wake et al. (2023c). Le principal défi consiste à développer des algorithmes robustes de traitement et de compréhension du langage naturel capables d'interpréter avec précision un large éventail d'instructions, des commandes directes aux instructions plus abstraites, et de permettre au robot de traduire ces instructions en tâches exploitables. En outre, il est essentiel de veiller à ce que les robots puissent généraliser ces instructions à différentes tâches et différents environnements afin d'accroître la polyvalence et l'utilité des robots dans les applications du monde réel. L'utilisation d'entrées linguistiques pour guider la planification des tâches du robot a fait l'objet d'une attention particulière dans un cadre robotique appelé Task and Motion Planning Garrett et al. (2021).

Optimisation des compétences.

Des recherches récentes ont mis en évidence l'efficacité de la modélisation du langage étendu (LLM) dans la planification des tâches robotiques. Cependant, l'exécution optimale des tâches, en particulier celles qui impliquent des interactions physiques telles que la préhension, nécessite une compréhension plus approfondie de l'environnement que la simple interprétation des instructions humaines. Par exemple, la préhension robotique nécessite des points de contact précis Wake et al. (2023e) et des postures du bras Sasabuchi et al. (2021) pour une exécution efficace des actions ultérieures. Bien que ces éléments - points de contact précis et postures du bras - soient intuitifs pour les humains, les exprimer par le langage est un défi. Malgré les progrès de la modélisation du langage visuel (VLM) à l'échelle de l'Internet, la capture de ces indices indirects subtils d'une scène et leur traduction efficace en compétences robotiques restent un défi de taille. En réponse, la communauté de la robotique s'est de plus en plus concentrée sur la collecte d'ensembles de données augmentées (par exemple, Wang et al. (2023d) ; Padalkar et al. (2023)) ou sur le développement de méthodes d'acquisition de compétences directement à partir de démonstrations humaines Wake et al. (2021a). Des cadres tels que l'apprentissage par démonstration et l'apprentissage par imitation sont à la pointe de ces développements et jouent un rôle crucial dans l'optimisation des compétences en physique.

6.2.1 Modèle de langage large/modèle de langage visuel (LLM/VLM) Intelligentsia pour la robotique.

Des recherches récentes ont démontré le potentiel des grands modèles de langage/modèles de langage visuel (LLM/VLM) pour les intelligences robotiques impliquées dans l'interaction avec les humains dans l'environnement. Les thèmes de recherche visant à exploiter les dernières techniques de modélisation du langage large/modélisation du langage visuel (LLM/VLM) sont les suivants :

système multimodalJiang et al. (2022) ; Brohan et al. (2023, 2022) ; Li et al. (2023, 2022) : La recherche récente s'est activement concentrée sur le développement de systèmes de bout en bout qui utilisent les dernières technologies de modélisation du langage large (LLM) et du langage visuel (VLM) comme encodeurs des informations d'entrée. Jiang et al. (2022) ; Brohan et al. (2023, 2022) ; Li et al. (2023d) ; Ahn et al. (2022b) ; Shah et al. (2023b) ; Li et al. ( 2023e). Cette adaptation vise à guider les actions du robot sur la base de commandes verbales et de repères visuels pour une incarnation efficace.

Planification de la mission et formation aux compétencesLes systèmes basés sur la planification des tâches et des mouvements (TAMP), contrairement aux systèmes de bout en bout, calculent d'abord des plans de tâches de haut niveau, qui sont ensuite réalisés par le biais d'une commande de robot de bas niveau (appelée "compétences").

Les capacités avancées de traitement du langage des grands modèles de langage (LLM) se sont révélées capables d'interpréter les instructions et de les décomposer en étapes d'action pour les robots, ce qui fait grandement progresser les techniques de planification des tâches Ni et al. (2023) ; Li et al. (2023b) ; Parakh et al. (2023) ; Wake et al. (2023c). Pour l'apprentissage des compétences, plusieurs études ont exploré l'utilisation de la modélisation en langage étendu (LLM)/la modélisation en langage visuel (VLM) pour concevoir des fonctions de récompense Yu et al. (2023a) ; Katara et al. (2023) ; Ma et al. (2023), pour générer des données pour l'apprentissage de stratégies Kumar et al. (2023) ; Du et al. ( 2023), ou dans le cadre d'une fonction de récompense Sontakke et al. (2023). Combinés à des cadres de formation tels que l'apprentissage par renforcement et l'apprentissage par imitation, ces efforts contribueront à développer des contrôleurs de robots efficaces.

Optimisation du site: L'exécution de longues étapes de tâches en robotique peut s'avérer difficile en raison de conditions environnementales inattendues et imprévisibles. Par conséquent, un défi majeur dans le domaine de la robotique consiste à adapter et à améliorer dynamiquement les compétences robotiques en combinant la planification des tâches avec des données environnementales en temps réel. Par exemple, (Ahn et al., 2022b) a proposé une méthode qui calcule la faisabilité (c'est-à-dire la disponibilité) d'une action à partir d'informations visuelles et la compare à une tâche planifiée. En outre, certaines approches visent à permettre à un grand modèle de langage (LLM) de produire des préconditions et des postconditions (par exemple, l'état des objets et leurs interrelations) d'une étape de la tâche afin d'optimiser son exécution Zhou et al. (2023c) et de détecter les erreurs de préconditionnement afin d'apporter les modifications nécessaires au plan de la tâche Raman et al. (2023). Ces stratégies visent à obtenir une exécution du robot orientée vers l'environnement en intégrant les informations environnementales et en adaptant les actions du robot au niveau du plan de tâche ou du contrôleur.

Dialogue avec l'IntelligentsiaLe rôle des modèles de langage : Lors de la création de robots conversationnels, les grands modèles de langage (LLM) peuvent faciliter les interactions naturelles et contextuelles avec les humains Ye et al. (2023a) ; Wake et al. (2023f). Ces modèles traitent et génèrent des réponses qui imitent le dialogue humain, permettant aux robots de s'engager dans des conversations significatives. En outre, les grands modèles linguistiques (LLM) jouent un rôle important dans l'évaluation des concepts Hensel et al. (2023) ; Teshima et al. (2022) et des attributs affectifs Zhao et al. (2023) ; Yang et al. (2023b) ; Wake et al. (2023d). Ces attributs aident à comprendre les intentions humaines et à générer des gestes significatifs, contribuant ainsi au caractère naturel et à l'efficacité de la communication homme-machine.

Naviguer dans les corps intelligents : La navigation des robots a une longue histoire de recherche qui se concentre sur des aspects fondamentaux tels que la planification de trajectoire basée sur une carte et la localisation simultanée et la construction de cartes (SLAM) pour créer des cartes de l'environnement. Ces caractéristiques sont devenues la norme dans les intergiciels robotiques largement utilisés, tels que le système d'exploitation des robots (ROS) Guimarães et al. (2016).

Si les techniques de navigation classiques sont encore répandues dans de nombreuses applications robotiques, elles s'appuient généralement sur des cartes statiques ou créées à l'avance. Récemment, les techniques avancées qui permettent aux robots de naviguer dans des environnements plus difficiles ont suscité un intérêt croissant, tirant parti des percées réalisées dans des domaines tels que la vision par ordinateur et le traitement du langage naturel. Une tâche représentative est la navigation par objets Chaplot et al. (2020a) ; Batra et al. (2020) ; Gervet et al. (2023) ; Ramakrishnan et al. (2022) ; Zhang et al. (2021), où les robots utilisent des noms d'objets plutôt que des coordonnées cartographiques pour la navigation, ce qui nécessite une localisation visuelle des objets. pour la navigation, ce qui nécessite une localisation visuelle des noms d'objets dans l'environnement. En outre, l'attention s'est récemment portée sur les techniques de navigation des robots dans des environnements totalement inconnus et nouveaux de manière zéro-échantillon au-dessus d'un modèle de base, appelé navigation objet zéro-échantillon Gadre et al. (2023) ; Dorbala et al. (2023) ; Cai et al. (2023). En outre, la navigation linguistique visuelle (VLN) Anderson et al. (2018a) est une tâche représentative, dans laquelle il s'agit de naviguer dans un corps intelligent par le biais de commandes en langage naturel dans un environnement réel inédit Shah et al. (2023a) ; Zhou et al. (2023a) ; Dorbala et al. (2022) ; Liang et al. (2023) ; Huang et al. (2023b). La navigation linguistique visuelle (VLN) interprète des phrases plutôt que des noms d'objets, par exemple "allez aux toilettes sur votre gauche", ce qui nécessite une fonctionnalité plus élevée pour analyser le texte d'entrée Wang et al. (2019).

L'émergence du modèle sous-jacent a contribué au développement de cette technique de navigation adaptative à la volée en améliorant la compréhension des commandes verbales humaines et l'interprétation visuelle des informations environnementales. Voir le point 6.2.2 pour une explication plus détaillée des recherches représentatives sur la navigation linguistique visuelle (VLN).

6.2.2 Expériences et résultats.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 13 : Vue d'ensemble d'un système d'enseignement robotisé intégrant un planificateur de tâches piloté par ChatGPT. Le processus comprend deux étapes : la planification des tâches, au cours de laquelle l'utilisateur crée une séquence d'actions à l'aide du planificateur de tâches et ajuste les résultats avec un retour d'information si nécessaire ; et la démonstration, au cours de laquelle l'utilisateur démontre visuellement la séquence d'actions afin de fournir les informations nécessaires au fonctionnement du robot. Le système de vision recueille les paramètres visuels qui seront utilisés pour l'exécution du robot.

Il est de plus en plus évident que les modèles de langage visuel (VLM) et les grands modèles de langage (LLM) récents possèdent de bonnes capacités de planification de tâches symboliques (par exemple, ce qu'il faut faire). Cependant, chaque tâche nécessite des stratégies de contrôle de bas niveau (par exemple, comment le faire) afin d'obtenir une interaction réussie entre les environnements. Si l'apprentissage par renforcement et par imitation est une approche prometteuse pour l'apprentissage de stratégies à partir de données, une autre approche prometteuse consiste à acquérir des stratégies directement auprès d'humains par le biais de démonstrations en direct, une approche connue sous le nom d'"apprentissage par observation" Wake et al. (2021a) ; Ikeuchi et al. Dans cette section, nous présentons une étude dans laquelle nous avons utilisé ChatGPT pour la planification de tâches et enrichi le plan en le paramétrant avec des informations de disponibilité pour faciliter une exécution efficace et précise (Figure 13).

Le processus se compose de deux modules : la planification des tâches et le paramétrage. Lors de la planification des tâches, le système reçoit des instructions linguistiques et une description de l'environnement de travail. Ces instructions, ainsi que les actions prédéfinies du robot et les spécifications de sortie, sont compilées dans une invite complète fournie à ChatGPT, qui génère ensuite une série de tâches décomposées et leurs descriptions textuelles (Fig. 13 ; volet gauche). Il convient de noter que nous utilisons une approche sans échantillon, ce qui signifie que ChatGPT n'a pas été formé pour cette tâche, ce qui est avantageux en termes d'applicabilité car cela supprime la nécessité de collecter des données relatives au matériel et d'entraîner le modèle. En outre, les descriptions textuelles dans les résultats permettent à l'utilisateur de vérifier et d'ajuster les résultats si nécessaire, une caractéristique essentielle pour un fonctionnement sûr et fiable. La figure 14 montre les résultats qualitatifs de la simulation des intelligences réalisée au-dessus de VirtualHome Puig et al. (2018). Les résultats montrent un plan de travail raisonnable et une flexibilité dans l'ajustement des résultats, ce qui démontre la large applicabilité de notre approche.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 14 : Exemple d'ajustement de la séquence de sortie par un retour d'information généré automatiquement. Nous avons utilisé le simulateur libre VirtualHome pour nos expériences. Compte tenu de l'instruction "Prenez la tarte sur la table et faites-la chauffer sur la cuisinière", le planificateur de tâches planifie une séquence de fonctions fournies dans VirtualHome. le planificateur de tâches planifie une séquence de fonctions fournies dans VirtualHome. Si une erreur est détectée pendant l'exécution, le planificateur de tâches corrige sa sortie à l'aide d'un message d'erreur généré automatiquement.

Alors que le planificateur de tâches assure la cohérence entre les séquences de tâches, des paramètres détaillés sont nécessaires pour une opération réussie dans la réalité. Par exemple, le type de préhension est crucial pour transporter le récipient sans en renverser le contenu, un paramètre qui est généralement ignoré dans les simulateurs (voir l'exemple de la préhension d'une tarte à la figure 14). Ainsi, dans notre système robotique, l'utilisateur doit démontrer visuellement chaque action (Fig. 13 ; panneau de droite). Ces tâches ont des paramètres prédéfinis nécessaires à leur exécution, que notre système de vision extrait de la vidéo de Wake et al. (2021b). Il convient de noter que notre système robotique n'est pas conçu pour reproduire avec précision les actions humaines (c'est-à-dire la téléopération), mais plutôt pour faire face à une variété de conditions réelles, telles que les changements de position de l'objet. Par conséquent, les paramètres extraits de la démonstration humaine contiennent non seulement les trajectoires de mouvement précises, mais aussi des informations sur la disponibilité indiquant un mouvement environnemental efficace (par exemple, les points de cheminement pour l'évitement des collisions Wake et al. (2023a), le type de saisie Wake et al. (2023e), et la posture du membre supérieur Sasabuchi et al. (2021) ; Wake et al. ( 2021a)). La posture des membres supérieurs est essentielle dans les robots à degrés de liberté élevés et est conçue pour présenter des postures prévisibles pour les humains coexistant avec le robot opérant. Les séquences de tâches avec disponibilité sont converties en un ensemble de compétences robotiques réutilisables qui peuvent être acquises par apprentissage par renforcement et exécutées par le robot Takamatsu et al. (2022).

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 15 : Vue d'ensemble du planificateur de tâches multimodal utilisant GPT-4V et GPT-4. Le système traite les présentations vidéo et les instructions textuelles afin de générer des plans de tâches pour l'exécution du robot.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 16 : Exemple de sortie de l'analyseur vidéo. Cinq images sont extraites à intervalles fixes et introduites dans le GPT-4V. Nous décrivons l'ensemble du processus à la section 6.2.2.

En l'intégrant aux modèles de langage visuel (VLM), la planification des tâches pilotée par les grands modèles de langage (LLM) peut être étendue pour permettre des systèmes robotiques plus généralisés. Nous présentons ici un exemple dans lequel nous utilisons GPT-4V(ision) pour étendre le planificateur de tâches ci-dessus dans un contexte d'entrée multimodale (Fig. 15), où un humain effectue des actions destinées à être reproduites par un robot. Dans le présent document, seule une partie de l'astuce est présentée. Les invites complètes sont disponibles sur microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts.

Le processus reçoit une vidéo de démonstration et un texte, puis produit une série d'actions du robot. L'analyseur visuel vise à comprendre les actions effectuées par l'homme dans la vidéo. Nous avons utilisé le GPT-4V et fourni une invite pour générer un style de commandes textuelles similaire à la communication interhumaine. La figure 16 illustre comment l'utilisation de la saisie de texte permet à l'utilisateur de fournir un retour d'information pour corriger les résultats de la reconnaissance du GPT-4V. Cette fonction, conçue pour améliorer la précision des résultats de la reconnaissance, permet également un fonctionnement plus robuste.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 17 : Exemple de sortie de l'analyseur de scène utilisant GPT-4V. Nous décrivons l'ensemble de notre processus à la section 6.2.2.

Ensuite, l'analyseur de scène compile l'environnement de travail prévu en informations textuelles sur la base de la première image (ou image d'environnement) de la commande et des données vidéo. Ces informations sur l'environnement comprennent une liste de noms d'objets reconnus par le GPT-4V, les attributs saisissables des objets et les relations spatiales entre les objets. Bien que ces processus de calcul soient en boîte noire dans le GPT-4V, ils sont basés sur la connaissance du GPT-4V ainsi que sur les informations d'entrée/sortie de l'image/du texte. La figure 17 montre un exemple de sortie de notre analyseur de scène. Comme on peut le voir, GPT-4V sélectionne avec succès les objets pertinents pour l'opération. Par exemple, lorsqu'un humain repositionne un conteneur de spam sur une table, une table est incluse dans la sortie, alors que la table est ignorée dans la tâche d'ouverture du réfrigérateur. Ces résultats suggèrent que l'analyseur de scène encode des informations sur la scène en fonction des actions humaines. Nous demandons à GPT-4V d'expliquer les résultats du processus de sélection des objets et les raisons de ces sélections. Dans la pratique, nous avons constaté que cette approche produisait des résultats raisonnables. Enfin, sur la base des instructions textuelles données et des informations sur l'environnement, le planificateur de tâches produit une série de tâches Wake et al. (2023c).

Intelligences incarnées pour la navigation des robots.

La tâche de la navigation linguistique visuelle (VLN) consiste à faire naviguer une intelligence incarnée afin d'exécuter des commandes en langage naturel dans un environnement 3D réaliste. La navigation dans des environnements 3D Zhu et al. (2017a) ; Mirowski et al. (2016) ; Mousavian et al. (2018) ; Hemachandra et al. (2015) est une capacité essentielle pour les systèmes intelligents mobiles opérant dans le monde physique. Au cours des dernières années, un grand nombre de tâches et de protocoles d'évaluation ont été proposés Savva et al. (2017) ; Kolve et al. (2017) ; Song et al. (2017) ; Xia et al. (2018) ; Anderson et al. (2018a), comme Anderson et al. (2018b) résumée dans. Navigation linguistique visuelle (VLN) Anderson et al. (2018a) se concentre sur la navigation basée sur le langage dans des environnements 3D réels. Pour aborder la tâche de navigation linguistique visuelle (VLN), (Anderson et al., 2018a) a développé un modèle de base de séquence à séquence basé sur l'attention. Ensuite, (Wang et al., 2018) a introduit une approche hybride qui combine l'apprentissage par renforcement (RL) sans modèle et basé sur le modèle pour améliorer la généralisation du modèle. Enfin, (Fried et al., 2018) proposent un modèle de locuteur-suiveur qui utilise l'augmentation des données, l'espace d'action panoramique et la recherche de faisceau modifiée pour la navigation visuo-linguistique (VLN) afin d'établir les performances actuelles de l'état de l'art sur l'ensemble de données Room-to-Room. S'appuyant sur des travaux antérieurs, nous présentons le modèle RCM (Reinforced Cross-Modal Matching) pour la navigation visuo-linguistique (VLN) dans (Wang et al., 2019).Le modèle RCM s'appuie sur Fried et al. (2018) mais diffère sur un certain nombre de points importants :(1) RCM combine un nouveau type d'apprentissage par renforcement multirécompense (RL) avec l'apprentissage par renforcement pour la navigation visuo-linguistique (VLN) avec l'apprentissage par renforcement pour la navigation visuo-linguistique (VLN) dans (Wang et al., 2019). navigation dans le langage (VLN) avec l'apprentissage par imitation, alors que le modèle locuteur-suiveur de Fried et al. (2018) utilise uniquement l'apprentissage supervisé, comme le montre (Anderson et al., 2018a). (2) Le navigateur d'inférence RCM effectue une localisation cross-modale plutôt qu'un mécanisme d'attention temporelle pour les entrées unimodales. (3) Le critique d'appariement RCM est similaire au locuteur en termes de conception architecturale, mais le premier est utilisé pour fournir une reconstruction cyclique des récompenses intrinsèques pour l'apprentissage par renforcement (RL) et l'apprentissage par imitation auto-supervisé (SIL), tandis que le second est utilisé pour augmenter les données d'entraînement pour l'apprentissage supervisé. Dans (Wang et al., 2019), nous étudions comment relever les trois principaux défis du leader pour cette tâche : la localisation cross-modale, la rétroaction mal posée et le problème de la généralisation. Comme le montre la figure 18, nous proposons une nouvelle méthode d'appariement cross-modal par renforcement qui applique la localisation cross-modale localement et globalement via l'apprentissage par renforcement (RL). En particulier, un commentateur de correspondance est utilisé pour fournir des récompenses intrinsèques afin d'encourager la correspondance globale entre les instructions et les trajectoires, et un navigateur d'inférence est utilisé pour effectuer la localisation multimodale dans les scènes visuelles locales. L'évaluation de l'ensemble de données de référence VLN (Visual Linguistic Navigation) montre que notre modèle RCM est nettement plus performant que l'approche précédente 10% sur SPL et qu'il atteint de nouvelles performances de pointe. Pour améliorer la capacité de généralisation de la stratégie d'apprentissage, nous introduisons en outre une approche d'apprentissage par imitation auto-supervisée (SIL) pour explorer des environnements inédits en imitant ses propres bonnes décisions passées. Nous démontrons que l'apprentissage par imitation auto-supervisé (SIL) peut proposer des stratégies meilleures et plus efficaces, réduisant ainsi de manière significative l'écart de performance entre les environnements vus et non vus (de 30,7% à 11,7%). En outre, dans Wang et al. (2019), nous introduisons une méthode d'apprentissage par imitation auto-supervisée pour l'exploration afin d'aborder explicitement le problème de la généralisation, qui n'a pas été entièrement étudié dans les travaux précédents. Parallèlement à ces travaux, Thomason et al. (2018) ; Ke et al. (2019) ; Ma et al. (2019a, b) ont étudié les tâches de navigation linguistique visuelle (VLN) sous divers aspects et Nguyen et al. (2018) ont introduit une variante de la tâche de navigation linguistique visuelle (VLN) afin de, le cas échéant, demander une aide linguistique pour trouver des objets. de demander une aide linguistique pour trouver des objets. Notons que nous sommes les premiers à proposer l'exploration d'environnements inédits pour les tâches de navigation visuo-linguistique (VLN).

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 18 : Démonstration de la tâche de navigation linguistique visuelle (VLN) intelligences incarnées de Wang et al. (2019). Les instructions, les scènes visuelles locales et les trajectoires globales dans la vue du dessus sont représentées. Le corps intelligent n'a pas accès à la vue du dessus. La trajectoire A est la trajectoire de démonstration qui suit l'instruction. Les chemins B et C sont deux chemins différents exécutés par le corps intelligent.

6.3 Soins de santé

Dans le domaine des soins de santé, les grands modèles de langage (LLM) et les modèles de langage visuel (VLM) peuvent servir d'intelligence diagnostique, d'assistants de soins aux patients et même d'aides thérapeutiques, mais ils sont également confrontés à des défis et à des responsabilités uniques en matière de leadership. Les intelligences IA ont un potentiel énorme pour améliorer les soins aux patients et sauver des vies, mais la possibilité qu'elles soient mal utilisées ou déployées à la hâte et qu'elles mettent en danger des milliers, voire des millions de personnes dans le monde est tout aussi dangereuse. Nous examinerons quelques-unes des voies prometteuses pour les intelligences de l'IA dans les soins de santé et nous aborderons certains des principaux dilemmes auxquels sont confrontés les dirigeants.

Diagnostiquer l'Intelligentsia.

Les chatbots médicaux qui utilisent de grands modèles de langage (LLM) pour diagnostiquer les patients ont récemment attiré beaucoup d'attention en raison de la forte demande de spécialistes médicaux et du potentiel des LLM pour aider à classer et à diagnostiquer les patients Lee et al. (2023). Les intelligences conversationnelles, en particulier celles qui peuvent communiquer efficacement des informations médicales importantes à un large éventail de personnes issues de diverses populations de patients, ont le potentiel de fournir un accès équitable aux soins de santé aux groupes historiquement défavorisés ou marginalisés. En outre, les médecins et les systèmes de santé du monde entier sont largement surchargés et manquent de ressources, ce qui fait que des centaines de millions de personnes dans le monde se voient refuser l'accès à des soins de santé adéquats Organisation mondiale de la santé et Banque mondiale (2015). Les intelligences diagnostiques offrent une voie particulièrement favorable à l'amélioration des soins de santé pour des millions de personnes, car elles peuvent être construites avec la capacité de comprendre un large éventail de langues, de cultures et de conditions de santé. Des résultats préliminaires suggèrent que de grands modèles de langage (LMM) avec des connaissances en matière de soins de santé peuvent être formés en utilisant des données de réseau à grande échelle. Bien qu'il s'agisse d'une voie passionnante, la perspective d'intelligences diagnostiques n'est pas sans risque. Dans les sections suivantes, nous nous concentrerons sur les risques d'hallucinations dans les environnements de soins de santé, ainsi que sur les pistes de solutions potentielles.

Intelligence en matière d'extraction des connaissances.

Dans le contexte médical, les hallucinations de modélisation sont particulièrement dangereuses et peuvent même entraîner des blessures graves ou la mort du patient, selon la gravité de l'erreur. Par exemple, si un patient reçoit à tort un diagnostic suggérant une affection dont il n'est pas réellement atteint, cela peut avoir des conséquences catastrophiques. Ces conséquences peuvent inclure un traitement retardé ou inapproprié ou, dans certains cas, une absence totale d'intervention médicale nécessaire. La gravité d'une maladie non diagnostiquée ou mal diagnostiquée peut entraîner une augmentation des coûts des soins de santé, un traitement prolongé entraînant un stress physique supplémentaire et, dans les cas extrêmes, des blessures graves, voire la mort. Par conséquent, les méthodes qui permettent une récupération plus fiable des connaissances à l'aide de corps intelligents Peng et al. (2023) ou les méthodes qui génèrent du texte d'une manière basée sur la récupération Guu et al. (2020) sont des directions prometteuses. L'association d'intelligences diagnostiques et d'intelligences de recherche de connaissances médicales pourrait permettre de réduire considérablement les hallucinations tout en améliorant la qualité et la précision des réponses des intelligences de dialogue diagnostique.

Télémédecine et télésurveillance.

L'IA basée sur le corps intelligent a également un grand potentiel dans la télémédecine et la surveillance à distance pour améliorer l'accès aux soins de santé, améliorer la communication entre les prestataires de soins de santé et les patients, et augmenter l'efficacité et réduire le coût des interactions fréquentes entre le médecin et le patient Amjad et al. (2023). Les cliniciens en soins primaires passent beaucoup de temps à passer au crible les messages, les rapports et les courriels des patients qui ne sont souvent pas pertinents ou qu'il n'est pas nécessaire qu'ils consultent. Soutenir les intelligences qui peuvent aider à catégoriser les messages des médecins, des patients et d'autres prestataires de soins de santé et aider à mettre en évidence les messages importants de toutes les parties présente un énorme potentiel. Le secteur de la télémédecine et de la santé numérique a un énorme potentiel de transformation en permettant aux systèmes d'IA du corps intelligent de se coordonner avec les patients, les cliniciens et d'autres intelligences de l'IA.

6.3.1 Capacité actuelle en matière de soins de santé

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 19 : Exemples d'indices et de réponses lors de l'utilisation de la GPT-4V dans le domaine de la compréhension des images de soins de santé. De gauche à droite : (1) images d'un scanner réalisé par une infirmière et un médecin, (2) image synthétique d'un ECG irrégulier, et (3) image de l'ensemble de données ISIC Codella et al. (2018) sur les lésions cutanées. Nous pouvons constater que GPT-4V possède des connaissances médicales substantielles et est capable de raisonner sur des images médicales. Cependant, il est incapable de diagnostiquer certaines images médicales en raison de la formation à la sécurité.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 20 : exemples d'indices et de réponses lors de l'utilisation de GPT-4V dans le domaine de la compréhension des vidéos de soins de santé. Nous avons saisi les exemples de vidéos sous forme de grilles 2x2 et superposé le texte pour indiquer l'ordre des images. Dans les deux premiers exemples, nous avons demandé au GPT-4V d'examiner les images de la vidéo afin de détecter les activités cliniques effectuées au chevet d'un patient volontaire. Dans le dernier exemple, nous avons tenté d'inciter le GPT-4V à évaluer la vidéo d'échocardiographie, mais en raison de sa formation en matière de sécurité, le GPT-4V n'a pas fourni de réponse détaillée. Pour plus de clarté, nous avons mis en gras le texte décrivant l'activité en question et abrégé les réponses inutiles des modèles. Nous avons grisé les visages des personnes pour protéger leur vie privée.

Compréhension de l'image.

La figure 19 illustre les capacités et les limites actuelles des intelligences multimodales modernes telles que le GPT-4V dans un contexte de soins de santé. Nous pouvons constater que, bien que le GPT-4V dispose d'un grand nombre de connaissances internes sur l'équipement et les procédures liées aux soins hospitaliers, il ne répond pas toujours aux demandes plus prescriptives ou diagnostiques de l'utilisateur.

Compréhension vidéo.

Nous avons étudié les performances des intelligences de modélisation du langage visuel (VLM) pour la compréhension de vidéos médicales dans deux contextes. Tout d'abord, nous avons étudié la capacité des intelligences de modélisation du langage visuel (MVL) à reconnaître les activités importantes de soins aux patients dans l'espace clinique. Deuxièmement, nous avons exploré l'application du modèle de langage visuel (VLM) à des vidéos plus spécialisées telles que l'échographie. Plus précisément, la figure 20 illustre certaines des capacités et des limites actuelles du GPT-4V pour les soins hospitaliers et l'analyse de vidéos médicales.

6.4 Intelligences multimodales

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 21 : L'intelligence multimodale interactive repose sur quatre piliers : l'interaction, la parole, la vision et le langage. Le corps intelligent Co-Pilot se compose de différents services.1) Les services d'interaction aident à développer une plateforme unifiée pour les opérations automatisées, la cognition et la prise de décision.2) Les services audio intègrent le traitement du son et de la parole dans les applications et les services.3) Les services de vision identifient et analysent le contenu des images, des vidéos et de l'encre numérique.4) Les services linguistiques extraient le sens d'un texte structuré et non structuré.

L'intégration de la vision et de la compréhension du langage est essentielle au développement d'intelligences artificielles multimodales complexes. Cela inclut des tâches telles que le sous-titrage d'images, la réponse à des questions visuelles, la génération de langage vidéo et la compréhension de vidéos. Notre objectif est d'approfondir ces tâches visuelles-linguistiques et d'explorer les défis et les opportunités qu'elles présentent dans le contexte de l'intelligence artificielle.

6.4.1 Compréhension et génération de langages d'images

La compréhension du langage des images est une tâche qui consiste à interpréter le contenu visuel linguistique d'une image donnée et à générer la description linguistique associée. Cette tâche est cruciale pour le développement d'intelligences IA capables d'interagir avec le monde d'une manière plus humaine. Certaines des tâches les plus populaires sont le légendage d'images Lin et al. (2014) ; Sharma et al. (2018) ; Young et al. (2014) ; Krishna et al. (2016), la représentation des doigts Yu et al. (2016) ; Karpathy et al. (2014), et la réponse à des questions visuelles Antol et al. (2015) ; Ren et al. (2015) ; Singh et al. (2019).

Récemment, des tâches de réponse à des questions visuelles à forte intensité de connaissances telles que OKVQA Marino et al. (2019), KB-VQA Wang et al. (2015), FVQA Wang et al. (2017) et WebQA Chang et al. (2021) ont été introduites. Les intelligences multimodales devraient être capables de reconnaître des objets dans une image, de comprendre leurs relations spatiales, de générer des phrases descriptives précises sur la scène et d'utiliser des compétences d'inférence pour gérer un raisonnement visuel à forte intensité de connaissances. Cela nécessite non seulement des compétences en matière de reconnaissance d'objets, mais aussi une compréhension approfondie des relations spatiales, de la sémantique visuelle et de la capacité à faire correspondre ces éléments visuels à des structures linguistiques avec la connaissance du monde.

6.4.2 Compréhension et génération de vidéo et de langage

Génération d'un langage vidéo.

Le sous-titrage vidéo ou la narration vidéo consiste à générer des phrases cohérentes pour une série d'images vidéo. Inspirées par le succès du modèle de base récurrent à grande échelle utilisé dans les tâches vidéo et linguistiques, les variantes du modèle d'augmentation piloté par l'intelligence donnent des résultats prometteurs dans les tâches de génération de langage vidéo. La difficulté fondamentale réside dans le fait que la robustesse du modèle de codage-décodage neuronal ne fonctionne pas bien pour la narration visuelle, car la tâche exige une compréhension globale du contenu de chaque image et des relations entre les différentes images. Un objectif important dans ce domaine est de créer un modèle de synthèse de texte intelligent et conscient du corps, capable d'encoder efficacement des séquences d'images et de générer un paragraphe de plusieurs phrases cohérent sur le plan thématique.

Compréhension vidéo.

La compréhension des vidéos étend le champ d'application de la compréhension des images au contenu visuel dynamique. Il s'agit d'interpréter et de raisonner sur des séquences d'images dans une vidéo, souvent en conjonction avec des informations audio ou textuelles. Intelligentsia doit être capable d'interagir avec une variété de modalités visuelles, textuelles et audio pour démontrer sa compréhension avancée du contenu vidéo. Les tâches dans ce domaine comprennent le sous-titrage vidéo, la réponse à des questions vidéo et la reconnaissance d'activités. Les défis posés par la compréhension des vidéos sont multiples. Ils comprennent l'alignement temporel du contenu visuel et verbal, le traitement de longues images séquentielles et l'interprétation d'activités complexes qui se déroulent dans le temps. En ce qui concerne l'audio, l'intelligentsia peut traiter les mots prononcés, le bruit de fond, la musique et l'intonation pour comprendre l'ambiance, le cadre et les nuances du contenu vidéo.

Des travaux antérieurs se sont concentrés sur la construction de modèles de base vidéo à l'aide de données de formation au langage vidéo disponibles en ligne Li et al. (2020, 2021b) ; Fu et al. (2022) ; Bain et al. (2021) ; Zellers et al. (2021, 2022) ; Fu et al. (2023). Cependant, il est difficile de prendre en charge de tels processus et fonctions de formation en raison de la nature limitée et souvent incohérente de ces ensembles de données. Les modèles de base vidéo sont conçus à l'aide d'objectifs de pré-entraînement par masque et contraste, puis adaptés à leurs tâches respectives. Bien qu'ils aient obtenu d'excellents résultats lors de tests multimodaux, ces modèles ont des difficultés avec les tâches exclusivement vidéo, telles que la reconnaissance d'actions, car ils s'appuient sur des données textuelles vidéo limitées, construites à partir de transcriptions audio bruyantes. Cette limitation entraîne également un manque de robustesse et de capacités de raisonnement fin que possèdent généralement les grands modèles de langage.

D'autres approches, similaires à celles utilisées dans la compréhension du langage des images, utilisent les puissantes capacités de raisonnement et les connaissances étendues des grands modèles de langage pour améliorer différents aspects de l'interprétation vidéo. La tâche de compréhension des vidéos est simplifiée par des modèles uniquement linguistiques comme ChatGPT et GPT4 ou des modèles de langage d'image comme GPT4-V, qui traitent les modalités audio, vidéo et linguistiques comme des types de données d'entrée interprétables distincts et positionnent l'intelligentsia comme un puissant modèle à source ouverte. Par exemple, Huang et al. (2023c) ; Li et al. (2023g) convertissent la compréhension vidéo en formules de réponse aux questions de traitement du langage naturel (NLP) en textualisant le contenu vidéo à l'aide de modèles de classification/détection/sous-titrage visuels open-source.Lin et al. (2023) intègrent GPT4-V avec des outils dédiés pour la vision, l'audio et la parole Lin et al. (2023) intègrent GPT4-V avec des outils dédiés pour la vision, l'audio et la parole afin de faciliter les tâches complexes de compréhension vidéo telles que la scénarisation des actions et des manipulations des personnages dans des vidéos de longue durée.

Des études parallèles ont exploré la génération d'ensembles de données à l'échelle à partir de grands modèles, puis l'application d'ajustements de l'instruction visuelle sur les données générées Liu et al. (2023c) ; Li et al. (2023c) ; Zhu et al. (2023). La vidéo a ensuite été représentée à l'aide d'un grand nombre de modèles perceptifs d'experts audio, vocaux et visuels. La parole a été transcrite à l'aide d'un outil de reconnaissance automatique de la parole et les descriptions vidéo et les données associées ont été générées à l'aide de divers modèles d'étiquetage, de positionnement et de sous-titrage Li et al. (2023g) ; Maaz et al. (2023) ; Chen et al. (2023) ; Wang et al. (2023f). Ces techniques démontrent comment l'adaptation des instructions d'un modèle de langage vidéo sur un ensemble de données généré peut améliorer les capacités de raisonnement et de communication vidéo.

6.4.3 Expériences et résultats

Modèles à forte intensité de connaissances : Une tâche de connaissance neuronale intensive qui combine la connaissance requise des annotations humaines pour soutenir les tâches de recherche intensive de connaissances, comme présenté dans INK Park et al. (2022) et KAT Gui et al. (2022a).
Les intelligences multimodales : Les modèles linguistiques multimodaux tels que Chameleon Lu et al. (2023) et MM-React Yang et al. (2023c) suscitent un intérêt croissant.
Ajustement de la commande visuelle : VCL Gui et al. (2022b), Mini-GPT4 Zhu et al. (2023), MPLUG-OWL Ye et al. (2023b), LSKD Park et al. (2023c) pour générer des ensembles de données d'ajustement des instructions au niveau de l'image.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 22 : Exemple de la tâche INK (Intensive Neural Knowledge) de Park et al. (2022), qui utilise des connaissances pour identifier un texte lié à une image à partir d'un ensemble de textes candidats. Notre tâche implique l'utilisation de connaissances visuelles et textuelles récupérées sur le Web et de connaissances annotées manuellement.

Les intelligences à forte intensité de connaissances.

Comme le montrent les figures 22 et 23, les tâches de réponse à des questions visuelles fondées sur des connaissances et de recherche dans le langage visuel sont des tâches difficiles dans le domaine de l'apprentissage automatique multimodal qui nécessitent des connaissances externes au-delà du contenu de l'image. Les recherches récentes sur les transformateurs à grande échelle se sont principalement concentrées sur l'optimisation de l'efficacité du stockage des informations relatives aux paramètres du modèle. Cette ligne de recherche explore un aspect différent : si les transformateurs multimodaux peuvent utiliser des connaissances explicites dans leur processus de prise de décision. Les méthodes de pré-entraînement basées sur les transformateurs se sont avérées très efficaces pour l'apprentissage implicite des représentations de connaissances à travers de multiples modalités. Cependant, les approches traditionnelles (principalement unimodales) ont surtout étudié l'extraction de connaissances et la prédiction de réponses ultérieures, ce qui soulève des questions sur la qualité et la pertinence des connaissances extraites ainsi que sur l'intégration de processus de raisonnement utilisant des connaissances à la fois implicites et explicites. Pour répondre à ces questions, nous présentons le Knowledge Augmentation Transformer (KAT), qui surpasse les autres modèles de 6% sur la tâche multimodale à domaine ouvert OK-VQA 2022. KAT combine les connaissances implicites du GPT3 avec les connaissances explicites des sites web en utilisant une architecture codeur-décodeur et permet l'utilisation des deux types de connaissances pendant le raisonnement simultané lors de la génération de réponses à l'aide des deux types de connaissances. En outre, la combinaison de connaissances explicites améliore l'interprétabilité des prédictions du modèle. Le code et le modèle pré-entraîné sont disponibles à l'adresse suivante : https://github.com/guilk/KAT.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 23 : Modèle KAT Gui et al. (2022a) récupèrent les entrées de connaissances de la base de connaissances explicites à l'aide d'un module basé sur l'apprentissage par contraste et récupèrent les connaissances implicites avec des preuves à l'appui à l'aide du GPT-3. L'intégration des connaissances est gérée par le transformateur codeur respectif et la génération de réponses est effectuée conjointement par le module de formation et de raisonnement de bout en bout et le transformateur décodeur.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 24 : Architecture générale du modèle VLC Gui et al. (2022b). Notre modèle se compose de trois modules : (1) des projections spécifiques à chaque modalité. Nous utilisons une projection linéaire simple pour intégrer des images patchées et une couche d'intégration de mots pour intégrer du texte tokenisé ; (2) un encodeur multimodal. Nous utilisons le ViT Dosovitskiy et al. (2021) à 12 couches initialisé à partir du MAE He et al. (2022) (ImageNet-1K sans étiquettes) comme colonne vertébrale ; (3) un décodeur spécifique à la tâche. Nous apprenons notre représentation multimodale par le biais d'une modélisation image/langue masquée et d'une correspondance image/texte utilisée uniquement pendant le pré-entraînement. Nous utilisons un MLP à deux couches pour affiner notre codeur multimodal pour les tâches en aval. Il est important de noter que l'objectif de modélisation d'images masquées est important dans la deuxième phase de pré-entraînement, et pas seulement pour initialiser le transformateur visuel.

Langage visuel Intelligences transformatrices.

Ensuite, nous présentons le modèle "Training Visual Language Transformer from Captions" (VLC) de Gui et al. (2022b), un transformateur qui est pré-entraîné en utilisant uniquement des paires de légendes d'images. Bien que VLC n'utilise que de simples couches de projection linéaire pour l'intégration d'images, VLC obtient des résultats compétitifs dans une variété de tâches de langage visuel par rapport à d'autres méthodes qui s'appuient sur des détecteurs d'objets ou des réseaux CNN/ViT supervisés. VLC obtient des résultats compétitifs dans diverses tâches de langage visuel par rapport à d'autres méthodes qui s'appuient sur des détecteurs d'objets ou des réseaux CNN/ViT supervisés. Grâce à des analyses approfondies, nous explorons le potentiel de VLC en tant qu'intelligence transformatrice du langage visuel. Par exemple, nous montrons que la représentation visuelle de VLC est très efficace pour la classification ImageNet-1K, et nos visualisations confirment que VLC peut faire correspondre avec précision des morceaux d'image avec les tokens de texte correspondants. L'augmentation des performances avec des données d'entraînement supplémentaires met en évidence le grand potentiel de développement de modèles de langage visuel à grande échelle, faiblement supervisés et à domaine ouvert.

6.5 Expériences de vidéo-langage

Pour comprendre l'utilité de l'utilisation de modèles de langage Image-Large (LLM) pré-entraînés pour la compréhension de vidéos, nous étendons temporellement et affinons InstructBLIP Dai et al. (2023) pour la génération de sous-titres vidéo. Plus précisément, nous avons étendu le codeur visuel d'InstructBLIP (EVA-CLIP-G Sun et al. (2023b)) en utilisant le même schéma d'attention spatio-temporelle segmentée que Frozen in Time Bain et al. (2021), et nous avons maintenu le formateur Q et le grand modèle de langage (LLM) pendant l'entraînement (Flan-T5-XL Chung et al. (2022)). Nous gelons toutes les couches spatiales du codeur visuel tout en gardant la couche temporelle non gelée pendant l'entraînement aux légendes. Cela permet à notre modèle de prendre des images et des vidéos en entrée (ce qui correspond à la performance d'InstructBLIP au niveau de l'image). Nous nous sommes entraînés sur un sous-ensemble de 5 millions de légendes vidéo provenant de WebVid10M Bain et al. (2021). Deux exemples de résultats sont présentés à la figure 25. Cependant, les intelligences existantes ne parviennent pas à comprendre pleinement les détails visuels précis et détaillés du contenu vidéo. Les méthodes de réglage fin des commandes visuelles souffrent de limitations similaires en ce sens qu'elles manquent de capacités perceptives génériques au niveau humain, qui doivent encore être prises en compte par les modèles multimodaux et les intelligences.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 25 : exemples d'indices et de réponses lors de l'utilisation de la variante de réglage fin de la vidéo d'InstructBLIP (méthode décrite à la section 6.5). Notre modèle est capable de générer des réponses textuelles longues décrivant la scène et de répondre aux questions relatives à la temporalité des événements dans la vidéo.

Les modèles de réglage fin des commandes sont prometteurs pour ce qui est de résumer avec précision les actions visibles dans la vidéo et d'identifier efficacement des actions telles que la "personne assise sur le banc", comme le montre la figure 25. Cependant, ils ajoutent parfois des détails incorrects, comme la "personne qui sourit à la caméra", ce qui révèle une incapacité à capturer le thème du dialogue ou l'atmosphère de la vidéo, des éléments qui seraient évidents pour un observateur humain. Cette lacune met en évidence une autre limite essentielle : l'omission des modalités audio et vocales qui enrichiraient la compréhension de la vidéo grâce au contexte, en aidant à faire des interprétations plus précises et en empêchant de telles déformations. Pour combler cette lacune, il faut une intégration holistique des modalités disponibles, permettant aux intelligences multimodales d'atteindre un niveau de compréhension similaire à celui de la perception humaine et garantissant une approche entièrement multimodale de l'interprétation vidéo.

Intelligences audio-vidéo-verbales basées sur le GPT-4V.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 26 : Les intelligences audio-multimodales décrites dans la section 6.5. Le contenu illusoire est mis en évidence en rouge. Nous avons utilisé GPT-4V pour générer 1) des résumés de chat vidéo avec des images vidéo, 2) des résumés vidéo avec des légendes d'images, et 3) des résumés vidéo avec des légendes d'images et des informations audio.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 27 : Une intelligence multimodale interactive qui combine les modalités visuelles, audio et textuelles pour la compréhension des vidéos. Notre processus exploite des illusions négatives difficiles pour générer des requêtes difficiles pour le défi VideoAnalytica. Pour plus de détails sur l'ensemble de données Audio-Vidéo-Langue Interactive Intelligentsia, voir la section 9.2.

Nous suivons ensuite l'approche décrite dans Lin et al. (2023) pour évaluer la capacité du GPT-4V à agir comme une intelligence multimodale qui intègre la vision, l'audio et la parole pour une compréhension détaillée et précise de la vidéo. Les résultats présentés dans la figure 26 comparent les performances de diverses intelligences vidéo sur une tâche de résumé vidéo. Le modèle de réglage fin de l'instruction vidéo (Li et al., 2023g) fournit un contenu précis mais manque d'exhaustivité et de détails, en omettant des actions spécifiques telles que l'utilisation systématique d'un balai pour mesurer la hauteur d'un arbre.

Pour améliorer la précision des descriptions vidéo, nous utilisons GPT-4V pour sous-titrer les images, tandis que l'audio et sa transcription proviennent d'OpenAI. Chuchotement Modèle. Nous avons ensuite demandé à GPT-4V de créer des résumés vidéo en utilisant le sous-titrage image par image, puis le sous-titrage image par image et la transcription audio. Dans un premier temps, nous avons observé que le sous-titrage image par image donnait lieu à des événements fictifs, tels qu'une personne mordant un bâton dans le troisième segment. Ces inexactitudes ont persisté dans les résumés vidéo, avec des descriptions telles que "dans une tournure intéressante, il l'a mordu tout en le tenant horizontalement". En l'absence de données audio, les intelligences sont incapables de corriger ces erreurs de sous-titres, ce qui donne des descriptions sémantiquement correctes mais visuellement trompeuses.

Cependant, lorsque nous fournissons une transcription audio à un corps intelligent, celui-ci peut décrire avec précision le contenu et même capturer des mouvements corporels détaillés, tels que "tourner le balai perpendiculairement au corps et vers le bas". Ce niveau de détail est beaucoup plus informatif et permet au spectateur de mieux comprendre l'objectif et les détails clés de la vidéo. Ces résultats soulignent l'importance de l'intégration des interactions audio, vidéo et verbales pour développer des intelligences multimodales de haute qualité, et le GPT-4V constitue une base prometteuse pour une compréhension et une interaction multimodales avancées.

Intelligences multimodales incarnées basées sur le GPT-4V.

Comme le montre la figure 27, nous utilisons principalement StackOverflow pour obtenir la question initiale, puis nous utilisons l'API "Bing search" pour récupérer les vidéos et les fichiers audio liés à la question. Ensuite, nous utilisons principalement GPT-4V pour obtenir des informations textuelles pertinentes et des descriptions vidéo de haut niveau. D'autre part, nous utilisons l'ASR pour convertir les images clés audio en descriptions de fragments de bas niveau des images clés. Enfin, nous utilisons GPT-4V pour générer des "illusions" convaincantes qui peuvent être utilisées comme des questions négatives difficiles pour les tâches de quiz vidéo. Nous prenons en charge l'interaction et les questions dans l'image actuelle de la vidéo, tout en résumant la description vidéo globale de haut niveau. Au cours du processus de raisonnement, nous intégrons également des connaissances externes acquises par le biais de recherches sur le web afin d'améliorer les réponses.

Les paragraphes suivants décrivent les principales invites du GPT-4V. Pour plus de clarté, l'intégralité de l'invite est en retrait ; elle s'étend sur une page.

GPT-4V est un assistant conçu pour fournir des détails descriptifs, informatifs et complets dans les vidéos pour les personnes malvoyantes qui peuvent entendre la vidéo mais pas la voir. Ce travail est réalisé en synthétisant les annotations données et en les convertissant en JSON pour créer des descriptions vidéo denses et de haute qualité. Plus précisément, GPT-4V recevra la requête originale utilisée pour rechercher la vidéo, le titre de la vidéo, la description, la transcription audio et les descriptions potentiellement bruyantes à des moments spécifiques de la vidéo. Différents segments de la même vidéo sont annotés comme "[heure de début - heure de fin (en secondes)] 'texte'". Une combinaison de transcriptions et de descriptions est utilisée pour déduire les détails exacts et la présentation visuelle de ce qui peut se passer dans la vidéo. Le GPT-4V combinera ou divisera les horodatages selon les besoins pour fournir une segmentation optimale de la vidéo.

Attentes concernant la sortie du GPT-4V :

Descriptions orientées vers l'action : privilégiez les actions, les mouvements et les démonstrations physiques plausibles et audiodécrits, en enrichissant votre récit de repères visuels dynamiques.
Couverture complète de la vidéo : fournit une description audio continue et cohérente qui couvre chaque moment de la vidéo, garantissant qu'aucun contenu n'est oublié.
Segmentation succincte : construisez vos descriptions en segments ciblés et succincts de 1 à 2 phrases chacun pour communiquer efficacement l'action visuelle sans trop entrer dans les détails.
Synthèse audiovisuelle contextuelle : mélange transparent de contenu audio verbal et d'éléments visuels déduits pour former une narration qui reflète l'activité sous-jacente de l'écran.
Spéculations imaginatives et plausibles : ajoutez à vos descriptions des détails visuels créatifs mais plausibles qui correspondent à l'audio afin d'améliorer la compréhension de la scène.
Correspondance précise du timecode : alignez vos extraits descriptifs sur le timecode correspondant, en veillant à ce que les détails visuels présumés soient synchronisés avec la chronologie de la narration audio.
Présentation confiante de la narration : présenter avec confiance les descriptions comme si la visualisation présumée était en train de se produire, afin de mettre l'auditeur en confiance.
Omettre les détails déraisonnables : exclure les descriptions d'objets ou d'événements qui ne s'inscrivent pas raisonnablement dans le contexte établi par les informations sonores et visuelles.

Le résultat final doit être structuré au format JSON et contenir une liste de dictionnaires, chacun détaillant un segment de la vidéo.

['start' : , 'end' : , 'text' : ""]

Pour la création de MC : notre tâche consiste à créer des questions à choix multiples pour une tâche de recherche vidéo-texte qui peut être facilement résolue en regardant le titre et en lisant la transcription audio. Pour ce faire, nous obtiendrons la requête originale utilisée pour obtenir la vidéo, la description, la transcription audio et une description potentiellement bruyante d'un moment spécifique de la vidéo.

Format pour la transcription audio : - [heure de début et de fin en secondes] "Transcrire"
Format de la description du bruit : - [durée en secondes] "description"

Nous demandons à GPT-4V de générer quatre requêtes, la requête principale étant alignée sur le contenu de la vidéo et les trois autres requêtes négatives étant légèrement différentes de notre requête principale. La sélection de la requête principale ne doit pas simplement impliquer l'écoute de la transcription audio, par exemple lorsque la requête originale textuelle est incluse dans la transcription audio. Les requêtes négatives doivent être étroitement liées au contenu de la vidéo, sans pour autant être totalement alignées sur celui-ci, et nécessitent une compréhension visuelle de la vidéo pour les distinguer. Par exemple, modifiez la sémantique de manière subtile afin qu'il soit nécessaire de regarder la vidéo plutôt que de simplement l'écouter pour sélectionner la requête originale. Compilez quatre requêtes dans des énoncés de type sous-titre, la première requête étant la requête originale reformulée.

Réfléchissez étape par étape à la manière d'utiliser les informations contenues dans la vidéo pour formuler des affirmations négatives. Et prouvez que les requêtes négatives sont incorrectes, mais qu'elles restent des choix convaincants qui nécessitent une compréhension approfondie de la vidéo. Et comment les humains ne choisissent pas accidentellement la requête négative plutôt que la requête originale.

Enfin, nous présentons ce travail sous la forme de l'analyse suivante et de 4 requêtes. Il n'est pas nécessaire de générer la manière dont vous traduisez les requêtes originales.

Analyse vidéo : xxx
Requêtes : [requête1, requête2, requête3, requête4]
Motif : xxx

6.6 Intelligentsia pour le traitement du langage naturel (NLP)

6.6.1 Grand modèle linguistique (LLM) Intelligentsia

Reconnaître et agir sur des instructions de tâches a été un défi fondamental dans l'IA interactive et le traitement du langage naturel depuis des décennies. Avec les récentes avancées dans le domaine de l'apprentissage profond, il y a un intérêt croissant à travailler ensemble dans ces domaines pour améliorer la collaboration entre l'homme et l'ordinateur. Nous identifions trois directions spécifiques, ainsi que d'autres, pour améliorer les intelligences basées sur le langage :

Utilisation d'outils et requêtes à partir de la base de connaissances. Cette orientation souligne l'importance d'intégrer des bases de connaissances externes, des recherches sur le web ou d'autres outils utiles dans le processus de raisonnement des intelligences artificielles. En utilisant des données structurées et non structurées provenant de diverses sources, les intelligences peuvent améliorer leur compréhension et fournir des réponses plus précises et adaptées au contexte. En outre, cela favorise la capacité des intelligences à rechercher de manière proactive des informations lorsqu'elles sont confrontées à des situations ou à des questions peu familières, ce qui leur permet d'apporter une réponse plus complète et mieux informée. Les exemples incluent Toolformer Schick et al. (2023) et Retrieve What You Need Wang et al. (2023g).
Amélioration du raisonnement et de la planification du corps intelligent. L'amélioration des capacités de raisonnement et de planification des intelligences est essentielle pour une collaboration efficace entre l'homme et la machine. Cela implique de développer des modèles capables de comprendre des commandes complexes, de déduire l'intention de l'utilisateur et de prédire des scénarios futurs potentiels. On peut y parvenir en demandant aux intelligences de réfléchir à leurs actions et échecs passés, comme dans ReAct Yao et al. (2023a), ou en construisant les processus de pensée des intelligences comme une forme de recherche Yao et al. (2023b). En modélisant différents résultats et en évaluant les conséquences de diverses actions, les intelligences peuvent prendre des décisions plus éclairées et adaptées au contexte.
Intégrer les systèmes et le retour d'information humain. Les intelligences IA peuvent généralement fonctionner dans deux environnements principaux : l'un qui fournit des signaux clairs sur l'efficacité de leurs actions (retour d'information du système), et l'autre qui travaille avec des humains qui peuvent fournir des critiques verbales (retour d'information de l'homme). Cette orientation souligne la nécessité de mécanismes d'apprentissage adaptatifs qui permettent aux intelligences d'améliorer leurs stratégies et de corriger leurs erreurs, par exemple, dans l'environnement de travail. AutoGen Dans Wu et al. (2023). La capacité à apprendre et à s'adapter en permanence à partir de diverses sources de retour d'information garantit que les intelligences restent utiles et cohérentes par rapport aux besoins des utilisateurs.

6.6.2 Grand modèle linguistique générique (LLM) Intelligentsia

La reconnaissance et la compréhension du contenu corporel intelligent et du langage naturel constituent depuis des décennies un défi fondamental pour l'intelligence artificielle interactive et le traitement du langage naturel. Avec les progrès récents de l'apprentissage profond, il y a un intérêt croissant à étudier ces deux domaines ensemble pour acquérir une compréhension plus profonde de la planification du corps intelligent ou du retour d'information humain pour le raisonnement des connaissances et la génération de langage naturel. Il s'agit de composantes clés de nombreuses intelligences en IHM, telles que "AutoGen" Wu et al. (2023) et "Retrieve What You Need" Wang et al. (2023g).

6.6.3 Les instructions suivent les intelligences du modèle de la langue large (LLM)

En outre, la création d'intelligences LLM pouvant être entraînées à suivre efficacement des instructions humaines est devenue un domaine de recherche important. Les modèles initiaux utilisaient le feedback humain pour former des modèles de récompense d'agent afin d'imiter les préférences humaines grâce à un processus appelé Reinforcement Learning Based on Human Feedback (RLHF), Ouyang et al. (2022). Ce processus génère des modèles tels que InstructGPT et ChatGPT. Afin d'entraîner plus efficacement les instructions à suivre les intelligences LLM sans avoir besoin d'un étiquetage humain, les chercheurs ont développé une méthode de réglage fin des instructions plus efficace qui entraîne les intelligences LLM directement sur les paires instruction/réponse qui sont soit générées par l'homme, par exemple Dolly 2.0 ^5^^5^Dolly 2.0 Blog Post Link, soit automatiquement dérivées de LLM, par exemple Alpaca. Taori et al. (2023). Nous montrons le processus de formation global d'Alpaca dans la Figure 28.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 28 : Schéma de formation utilisé pour former le modèle Alpaca Taori et al. (2023). un niveau élevé, les LLM disponibles sont utilisés pour générer un grand nombre d'exemples de suivi d'instructions à partir d'un petit ensemble de tâches de départ. Les exemples de suivi d'instruction générés sont ensuite utilisés pour affiner les instructions aux LLM disponibles pour les poids du modèle sous-jacent.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 29 : Transformateur logique Modèle de corps intelligent Wang et al. (2023e). Nous intégrons le module de raisonnement logique dans le modèle de résumé abstrait basé sur le Transformateur afin de permettre aux intelligences logiques de raisonner sur la logique du texte et du dialogue, ce qui leur permet de générer des résumés abstraits de meilleure qualité et de réduire les erreurs factuelles.

6.6.4 Expériences et résultats

Malgré la popularité croissante des systèmes conversationnels et d'auto-rétroaction, ces formes d'IA ne parviennent toujours pas à générer des réponses factuellement correctes à partir de leurs propres connaissances implicites, et ont donc souvent recours à des outils externes tels que des mécanismes de recherche sur le web et d'extraction de connaissances pour compléter leurs réponses lorsqu'elles raisonnent. La résolution de ce problème contribuera à créer une expérience plus attrayante pour les utilisateurs dans de nombreuses applications de la vie réelle. Dans les conversations sociales (par exemple, sur les plateformes de médias sociaux comme Instagram et Facebook), ou sur les sites de questions et réponses (par exemple, Ask ou Quora), les gens interagissent généralement avec d'autres par le biais d'une série de commentaires et en recherchant sur le Web des informations et des connaissances pertinentes pour la discussion. Par conséquent, la tâche de générer des tours de conversation dans ce contexte n'est pas seulement guidée par les modèles et les tâches NLP traditionnels, mais utilise les intelligences pour générer des dialogues à travers des comportements intelligents qui reflètent la recherche et l'acquisition de connaissances Peng et al. (2023). De cette manière, les intelligences intelligentes pour les tâches de TAL étendent la description de la tâche et améliorent l'interprétabilité de la réponse en ajoutant des étapes explicites de recherche et d'extraction de connaissances au cours du dialogue. L'intégration de ces intelligences de recherche et de récupération sur le web en tant que retour d'information au cours d'un dialogue contribuerait à faciliter davantage et plus profondément les interactions sociales entre les humains et les intelligences Wang et al. (2023e). Comme le montre la figure 29, nous introduisons un nouveau paradigme de modélisation pour le modèle de langage Transformer, qui détecte et extrait des structures logiques et des informations importantes du texte d'entrée, puis les intègre dans les enchâssements d'entrée au moyen d'une projection logique hiérarchique multicouche élaborée afin d'infuser les structures logiques dans le modèle de langage pré-entraîné en tant qu'intelligibles NLP.Wang et al. ( 2023e) ont proposé une nouvelle approche pour construire un modèle de langage Transformer en combinant la détection logique, le mappage logique et la projection logique en couches pour le modèle de langage Transformer.Incorporation d'entrées tenant compte de la logiqueLe nouveau modèle peut ensuite être développé pour mettre à niveau tous les modèles de langage Transformer existants vers le modèleTransformateur logiqueafin d'améliorer continuellement ses performances. Les intelligences de transformateur logique proposées obtiennent systématiquement de meilleures performances que leurs modèles de transformateur de base grâce à une compréhension plus approfondie de la structure logique du texte. Pour les utilisateurs humains, ces aspects sont souvent plus importants pour fournir des dialogues significatifs et intéressants grâce à la coordination des intelligences entre le dialogue et la recherche d'informations. En approfondissant le traitement du langage naturel, ce thème abordera les avancées et les classements visant à rendre les LLM plus intelligents et mieux adaptés à une variété de tâches centrées sur le langage.

Les systèmes de questions et réponses (QA) du domaine ouvert suivent généralement le modèle suivantRechercher puis lireLe paradigme dans lequelretrieverpour extraire les passages pertinents d'un large corpus et ensuitelecteur (logiciel)générer des réponses basées sur les passages récupérés et les questions originales. Dans Wang et al. (2023g), nous proposons un cadre simple et novateur pour l'apprentissage mutuel au moyen d'un cadre appelésélecteur de connaissancesModules intermédiaires pour améliorer les intelligencesRechercher puis lirenous utilisons l'apprentissage par renforcement pour former le module. En combinant l'apprentissage par renforcementsélecteur de connaissancesapporterRécupérer puis Liredont l'objectif est de construire un petit sous-ensemble de paragraphes qui retiennent les informations pertinentes pour la question. Comme le montre la figure 30, les intelligences du sélecteur de connaissances sont formées en tant qu'élément de notre nouveau cadre d'apprentissage mutuel qui forme itérativement les sélecteurs de connaissances et les lecteurs. Nous adoptons une approche simple et novatrice qui utilise des gradients de politique pour optimiser les intelligences du sélecteur de connaissances, en utilisant le retour d'information du lecteur pour l'entraîner à sélectionner un petit ensemble de passages riches en informations. Cette approche évite la recherche par force brute ou la conception manuelle d'heuristiques sans qu'il soit nécessaire de disposer de paires de documents d'interrogation annotés pour la supervision. Nous montrons que l'entraînement itératif des intelligences du lecteur et du sélecteur de connaissances permet d'obtenir de meilleures performances en matière de prédiction sur un certain nombre de références publiques de questions-réponses en domaine ouvert.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Fig. 30 : Architecture d'un cadre d'apprentissage mutuel proposé pour les intelligences NLP Wang et al. (2023g). Au cours de la phase 1, les paramètres du modèle de lecteur sont maintenus fixes et seuls les poids des sélecteurs de connaissances sont mis à jour. Au contraire, pendant la phase 2, les paramètres du modèle de lecteur sont ajustés tout en gardant les poids des sélecteurs de connaissances gelés.

7 L'IA des agents à travers les modalités, les domaines et les réalités

7.1 Agent pour la compréhension multimodale

La compréhension multimodale est un défi majeur dans la création d'un agent d'intelligence artificielle polyvalent en raison du manque d'ensembles de données à grande échelle contenant la vision, le langage et le comportement de l'agent. Plus généralement, les données d'entraînement pour les agents d'intelligence artificielle sont habituellement spécifiques à une modalité. Cela conduit la plupart des systèmes multimodaux modernes à utiliser des combinaisons de sous-modules gelés. Quelques exemples notables sont Flamingo Alayrac et al. (2022), BLIP-2 Li et al. (2023c), et LLaVA Liu et al. (2023c), qui utilisent tous des grands modèles de langage gelés (LLM) et des codeurs visuels gelés. Ces sous-modules sont entraînés individuellement sur des ensembles de données distincts, puis la couche d'adaptation est entraînée à coder le codeur visuel dans l'espace d'intégration du grand modèle de langage (LLM). Afin de progresser dans la compréhension multimodale des agents d'intelligence artificielle, la stratégie consistant à utiliser des LLM gelés et des codeurs visuels pourrait devoir être modifiée. En effet, le récent modèle visuel-linguistique RT-2 présente des gains de performance significatifs lors de l'exécution d'opérations dans le domaine de la robotique en adaptant conjointement le codeur visuel et le grand modèle de langage (LLM) pour les tâches robotiques et visuelles-linguistiques Brohan et al. (2023).

7.2 Agent pour la compréhension inter-domaines

L'un des principaux défis de la création d'un agent générique est l'aspect visuel unique et les différents espaces d'action dans différents domaines. Les humains sont capables d'interpréter des images et des vidéos provenant de diverses sources, y compris le monde réel, les jeux vidéo et des domaines spécialisés tels que la robotique et les soins de santé, une fois qu'ils sont familiarisés avec les spécificités de ces domaines. Cependant, les grands modèles de langage (LLM) et les modèles de langage visuel (VLM) existants présentent souvent des écarts importants entre les données sur lesquelles ils ont été formés et les divers domaines dans lesquels ils sont appliqués. En particulier, la formation de modèles d'agents pour prédire des actions spécifiques pose des défis considérables lorsqu'il s'agit d'élaborer une stratégie unique capable d'apprendre efficacement de multiples systèmes de contrôle dans différents domaines. En général, l'approche adoptée dans la plupart des travaux modernes lors de l'application d'un système dans un domaine spécifique consiste à commencer par un modèle de base pré-entraîné, puis à affiner un modèle distinct pour chaque domaine spécifique. Cette approche ne permet pas de saisir les points communs entre les domaines et se traduit par un ensemble plus restreint de données pour l'apprentissage, au lieu d'utiliser les données de chaque domaine.

7.3 Agents interactifs pour la multimodalité et l'interréalité

Le développement d'agents d'IA capables de comprendre et d'exécuter des tâches dans différentes réalités est un défi permanent, avec quelques succès récents dans la génération d'images et de scènes Huang et al. (2023a). En particulier, il est difficile pour les agents de comprendre les environnements du monde réel et de la réalité virtuelle en raison des différences visuelles et des propriétés physiques indépendantes des environnements. Dans le contexte de la réalité croisée, la migration de la simulation vers la réalité est une question particulièrement importante lorsque l'on utilise des stratégies entraînées par simulation pour traiter des données du monde réel, comme nous l'expliquons dans la section suivante.

7.4 Passage de la simulation à la réalité

Techniques permettant de déployer dans le monde réel des modèles formés en simulation. Les agents incarnés, en particulier ceux basés sur des stratégies d'apprentissage par renforcement (RL), sont souvent formés dans des environnements simulés. Ces simulations ne reproduisent pas exactement les caractéristiques du monde réel (par exemple, les interférences, la lumière, la gravité et d'autres propriétés physiques). En raison de cette différence entre la simulation et la réalité, les modèles formés en simulation ont souvent du mal à donner de bons résultats lorsqu'ils sont appliqués au monde réel. Ce problème est connu sous le nom de problème de "passage de la simulation à la réalité". Plusieurs approches peuvent être adoptées pour résoudre ce problème :

randomisation par domaineLa randomisation du domaine est une technique permettant d'entraîner des modèles tout en faisant varier de manière aléatoire les paramètres (par exemple, l'apparence de l'objet, le bruit du capteur et les propriétés optiques) dans des environnements simulés pour faire face à l'incertitude et à la variation du monde réel Tobin et al. (2017). Par exemple, lors de l'apprentissage de compétences de préhension basées sur l'apprentissage par renforcement (RL), l'introduction d'un caractère aléatoire dans la forme d'un objet peut permettre à la stratégie de s'adapter à des objets de formes légèrement différentes Saito et al. (2022).
adaptation du domaine: L'adaptation de domaine ou la migration de domaine est une technique qui comble le fossé entre les domaines simulés et réels en entraînant un modèle à l'aide d'un grand nombre d'images simulées et d'un petit nombre d'images du monde réel. Dans les configurations pratiques, les méthodes de conversion d'image à image non appariées telles que CycleGAN Zhu et al. (2017b) sont utilisées en raison de la difficulté de préparer des images appariées entre les domaines. Il existe plusieurs versions améliorées de l'apprentissage par renforcement, notamment Reinforcement Learning -CycleGAN Rao et al. (2020), et des versions améliorées de l'apprentissage par imitation, par exemple RetinaGAN Ho et al. (2021).
Simulation amélioréeLa simulation réaliste est la clé de la migration de la simulation vers la réalité. Une partie de ce travail est réalisée grâce à des techniques d'identification des systèmes Zhu et al. (2017c) ; Allevato et al. (2020), visant à identifier les paramètres de simulation pour imiter les environnements du monde réel. En outre, l'utilisation de simulateurs photoréalistes serait efficace dans l'apprentissage par renforcement basé sur l'image Martinez-Gonzalez et al. (2020) ; Müller et al. (2018) ; Shah et al. (2018) ; Sasabuchi et al. (2023).

Alors que les méthodes continuent d'évoluer, la migration de la simulation vers la réalité reste un défi central dans la recherche sur les agents incarnés. La recherche théorique et empirique est essentielle pour faire progresser ces techniques.

8 Amélioration continue et auto-amélioration de l'IA des agents

Actuellement, les agents d'IA basés sur des modèles de base ont la capacité d'apprendre à partir de nombreuses sources de données différentes, ce qui fournit une source de données plus flexible pour la formation. Les deux principaux résultats sont les suivants : (1) les données d'interaction avec l'utilisateur et l'être humain peuvent être utilisées pour améliorer l'agent, et (2) les modèles de base existants et les artefacts de modèles peuvent être utilisés pour générer des données de formation. Nous examinons chacun de ces points plus en détail dans les sections suivantes, mais nous notons que les agents d'intelligence artificielle actuels sont principalement associés à des modèles de base préformés existants, et qu'ils n'apprennent généralement pas à partir d'interactions continues avec l'environnement. Nous pensons qu'il s'agit d'une direction future passionnante, et les travaux préliminaires de Bousmalis et al. suggèrent que les agents auto-améliorants pour le contrôle des robots sont capables d'apprendre et de s'améliorer continuellement grâce aux interactions avec l'environnement sans avoir besoin de supervision Bousmalis et al. (2023).

8.1 Données sur l'interaction avec l'homme

L'idée centrale de l'utilisation des données d'interaction humaine est d'utiliser un grand nombre d'interactions agent-homme pour former et améliorer l'agent pour les itérations futures. Plusieurs stratégies peuvent être utilisées pour améliorer un agent grâce à l'interaction homme-homme.

Données de formation supplémentairesL'interaction homme-machine : La façon la plus simple d'utiliser l'interaction homme-machine est peut-être d'utiliser les exemples d'interaction eux-mêmes comme données d'entraînement pour les itérations futures de l'agent. Cela nécessite généralement une stratégie de filtrage pour distinguer les exemples réussis de l'agent des exemples d'interaction non réussis. Le filtrage peut être fondé sur des règles (par exemple, pour atteindre un état final souhaité), sur un modèle (par exemple, pour classer les interactions réussies par rapport à celles qui ne le sont pas) ou sélectionné manuellement après une inspection et/ou une modification a posteriori des exemples d'interaction.
Apprentissage des préférences humainesPendant l'interaction avec l'utilisateur, le système d'agent peut proposer à l'utilisateur plusieurs résultats de modèles différents et lui permettre de choisir le meilleur résultat. Cette méthode est généralement utilisée pour les grands modèles linguistiques (LLM) tels que ChatGPT et GPT-4, où l'utilisateur peut sélectionner un résultat (parmi plusieurs) qui correspond le mieux à ses préférences.
Formation à la sécurité (exercice d'équipe rouge)Les exercices d'équipe rouge, dans le contexte de l'IA agent, se réfèrent à une équipe adverse dédiée (humaine ou informatique) qui tente d'exploiter et d'exposer les faiblesses et les vulnérabilités d'un système d'IA agent. Bien que de nature antagoniste, les exercices en équipe rouge sont souvent utilisés pour comprendre comment améliorer les mesures de sécurité de l'IA et réduire l'occurrence de résultats nuisibles. Le principe de base est de découvrir des moyens cohérents d'induire des résultats indésirables de l'agent afin que les modèles puissent être formés sur des données qui corrigent explicitement ce comportement.

8.2 Données générées par le modèle de base

Les universités et l'industrie ayant généré des modèles de base robustes, des méthodes ont été mises au point pour extraire et générer des données de formation significatives à partir de ces modèles, en utilisant diverses techniques de repérage et d'appariement des données.

Mise au point des instructions du grand modèle de langage (LLM)La méthode de génération d'instructions à partir de grands modèles linguistiques (LLM) qui suivent les données d'apprentissage permet d'affiner les petits modèles open-source basés sur les résultats de grands LLM propriétaires Wang et al. Par exemple, Alpaca Taori et al. (2023) et Vicuna Zheng et al. (2023) sont basés sur la famille de grands modèles de langage (LLM) open-source LLaMA de Touvron et al. (2023), qui ont été réglés sur la base d'une variété de résultats de ChatGPT et de participants humains. Cette approche de réglage des instructions peut être considérée comme une forme de distillation des connaissances, où les grands modèles de langue (LLM) agissent comme des modèles d'enseignement pour les plus petits étudiants. Il est important de noter que, bien qu'il ait été démontré que l'ajustement des instructions des grands modèles de langue (LLM) peut transférer le style d'écriture et certaines capacités de suivi des instructions du modèle de l'enseignant au modèle de l'étudiant, il existe toujours un écart important entre l'authenticité et la compétence du modèle de l'enseignant et du modèle de l'étudiant Gudibande et al. (2023).
Paires visuel-verbalLLaVA : Certains travaux récents ont tenté d'augmenter la quantité et la diversité des données de pré-entraînement disponibles pour la modélisation visuo-linguistique (VLM) en générant automatiquement des légendes et d'autres textes pour le contenu visuel. Par exemple, LLaVA Liu et al. (2023c) a utilisé 150 000 exemples de comportements de suivi de commande à partir d'entrées textuelles et visuelles, qui ont été principalement générées par le Large Language Model (LLM). D'autres travaux ont montré que le réétiquetage d'images à l'aide de modèles de langage visuel (VLM) peut améliorer la qualité des données d'apprentissage et des modèles de génération d'images ultérieurs Segalis et al. Dans le domaine de la compréhension vidéo, il a été démontré que le réétiquetage des vidéos à l'aide de modèles de langage visuel (VLM) et de grands modèles de langage (LLM) améliorait les performances et la qualité des modèles de langage visuel (VLM) ultérieurs formés sur les vidéos réétiquetées Wang et al.

9 Jeux de données sur les agents et classements

Afin d'accélérer la recherche dans ce domaine, nous proposons deux tests de référence pour les jeux multi-agents et les tâches de langage visuel basées sur des agents, respectivement. Nous publierons deux nouveaux ensembles de données - "CuisineWorld" et "VideoAnalytica" - ainsi qu'un ensemble de modèles de référence. -En plus d'un ensemble de modèles de référence, les participants sont encouragés à explorer de nouveaux modèles et systèmes et à soumettre leurs résultats à l'ensemble de test de notre tableau de classement.

9.1 L'ensemble de données "CuisineWorld" pour les jeux multi-agents

CuisineWorld est un jeu textuel similaire à Overcooked ! Il fournit une plateforme permettant aux agents pilotés par l'IA de coopérer et de jouer ensemble. Cet ensemble de données permettra de tester l'efficacité de la collaboration des systèmes multi-agents, en donnant un aperçu de la capacité du Grand Modèle de Langage (LLM) et d'autres systèmes à travailler ensemble dans des scénarios dynamiques. En particulier, l'ensemble de données se concentrera sur la façon dont les agents comprennent les objectifs et sur la façon dont ils se coordonnent. Cet ensemble de données prend en charge deux modes : un mode centralisé de planification et un mode décentralisé. Les participants peuvent choisir un mode de jeu et soumettre leurs résultats à notre tableau de classement.

9.1.1 Critères de référence

Pour notre concours, nous publierons un benchmark, le benchmark CuisineWorld, qui comprend une interface textuelle incluant un fichier de définition de tâches extensible et une interface pour l'interaction multi-agents et l'interaction homme-machine. Nous introduisons des tâches d'interaction de jeu dont le but est de générer des stratégies de collaboration multi-agents pertinentes et appropriées qui maximisent l'efficacité de la collaboration. Nous évaluons l'efficacité de la collaboration à l'aide de la mesure d'évaluation proposée : CoS.

L'ensemble de données "CuisineWorld" a été collecté par Microsoft, UCLA et l'université de Stanford. L'objectif du concours est d'explorer la manière dont les différentes techniques d'interaction existantes et nouvelles basées sur le Grand Modèle de Langage (LLM) sous-jacent fonctionnent sur ce benchmark, et d'établir une base solide pour les tâches d'une infrastructure de jeu multi-agents.

L'ensemble des données de CuisineWorld comprend :

Un ensemble bien défini de tâches de collaboration multi-agents.
Un système API pour faciliter les interactions entre agents.
Un système d'évaluation automatisé.

(Le lien pour télécharger l'ensemble de données sera bientôt fourni et cet article sera mis à jour pour l'inclure ici).

9.1.2 Tâches

Nous fournissons un ensemble de données et des critères de référence associés, appelés Microsoft MindAgent, et mettons en conséquence un ensemble de données "CuisineWorld" à la disposition de la communauté des chercheurs.
Nous fournirons des points de référence pour évaluer et classer les algorithmes "MindAgent" soumis. Nous fournirons également des résultats de référence générés à l'aide d'infrastructures courantes.

9.1.3 Indicateurs et jugements

La qualité de l'efficacité de la collaboration multi-agent est déterminée par la nouvelle métrique automatisée "cos" (de MindAgent Gong et al. (2023a)). Le score final de notre métrique est calculé comme la moyenne des métriques d'efficacité de collaboration évaluées par le système multi-agent à travers toutes les tâches. Les évaluateurs humains devront noter les réponses individuelles et fournir des jugements subjectifs sur l'engagement, l'étendue et la qualité globale des interactions entre l'utilisateur et l'agent.

9.1.4 Évaluation

Évaluation automatiséeNous prévoyons de commencer à publier le classement à la date de publication (à déterminer). Nous prévoyons de commencer à publier le classement à la date de publication (TBD), où les participants inscrits seront invités à soumettre leurs résultats sur des tâches liées à l'ensemble de données "CuisineWorld" (l'ensemble de données que nous publions pour le classement). La soumission des résultats sera clôturée à la date de fin (TBD). Chaque équipe devra soumettre les résultats qu'elle a générés sur l'ensemble de tests afin d'évaluer automatiquement la métrique "cos".
L'évaluation manuelle dans nos tableaux. Les participants au classement devront fournir un fichier de soumission généré par un script d'évaluation local. Nous utiliserons le système evalAI pour vérifier le fichier de soumission et nous aurons la possibilité de réexécuter le code pour les meilleurs candidats. Par conséquent, les équipes doivent également soumettre leur code avec un fichier d'auto-description sur la façon dont elles l'ont exécuté. L'évaluation manuelle sera effectuée par l'équipe d'organisation.
Annonce des lauréats. Nous annoncerons les gagnants et afficherons les notes finales des soumissions sur notre tableau de classement.

9.2 Ensemble de données de pré-entraînement audio-vidéo-langues.

Nous présentons VideoAnalytica : une nouvelle référence pour l'analyse des présentations vidéo en vue de leur compréhension. VideoAnalytica se concentre sur l'utilisation des présentations vidéo en tant qu'aide pour mieux comprendre le raisonnement complexe de haut niveau intégré dans les vidéos d'instruction de longue durée. L'objectif est d'évaluer les capacités de raisonnement cognitif des modèles de langage vidéo, en les poussant au-delà des simples tâches de reconnaissance et de compréhension de base vers une compréhension plus complexe et nuancée de la vidéo. VideoAnalytica met l'accent sur l'intégration de modalités multiples (par exemple, audio, vidéo et langage) et sur la capacité des modèles à appliquer des connaissances spécifiques à un domaine pour comprendre les informations présentées dans la vidéo et les interpréter. VideoAnalytica s'attaque plus particulièrement à deux tâches principales :

1.
Recherche de texte vidéo : Cette tâche consistait à extraire avec précision un texte pertinent d'une vidéo pédagogique. Le défi consiste à différencier les informations pertinentes de celles qui ne le sont pas, ce qui nécessite une compréhension approfondie du contenu de la vidéo et une analyse de la présentation afin de retrouver la requête correcte. Pour accroître encore la complexité de ces tâches, nous introduisons dans l'ensemble de données des exemples négatifs difficiles générés par le grand modèle linguistique (LLM). Nous validons manuellement les exemples négatifs générés et supprimons les instances qui rendent la tâche invalide et injuste (par exemple, les exemples négatifs sont valides).
2.
Quiz informatifs assistés par vidéo : Cette tâche exige que le modèle réponde à des questions basées sur des informations extraites de la vidéo. L'accent est mis sur les questions complexes qui nécessitent un raisonnement analytique et une compréhension approfondie de la présentation vidéo.

Afin de faciliter le développement d'un agent audio-vidéo-verbal pour l'analyse de la compréhension des vidéos, nous avons introduit un tableau de référence pour deux tâches dans VideoAnalytica.

Les participants au classement devront soumettre leurs solutions à l'évaluation. L'évaluation sera basée sur la performance du modèle sur deux tâches et les résultats seront affichés sur le tableau de classement. Les participants devront soumettre leur code, ainsi qu'une explication détaillée de leur approche et de leur méthodologie.
Considérations éthiques : Les classements sont axés sur la compréhension et l'interprétation du contenu vidéo, qui peut être utilisé pour la surveillance ou d'autres applications portant atteinte à la vie privée. Il est donc essentiel de prendre en compte les implications éthiques et les abus potentiels de la technologie. Nous encourageons les participants à prendre en compte ces aspects dans leurs soumissions et à promouvoir l'utilisation éthique de l'IA.

10 Déclaration d'impact élargi

Ce document et notre forum associé ^6^^6^https://multimodalagentai.github.io ont pour but d'être un catalyseur pour la recherche innovante, de favoriser la collaboration et de conduire la prochaine vague d'adoption de l'IA. En nous concentrant sur les intelligences multimodales, nous mettons l'accent sur l'orientation future de l'interaction homme-machine, des tableaux de bord et des solutions. Nous détaillons trois domaines dans lesquels nous apportons une contribution significative à la communauté au sens large.

Avant tout, nous espérons que notre forum incitera les chercheurs en IA à développer des solutions basées sur des problèmes concrets tels que les jeux, la robotique, les soins de santé et la compréhension de vidéos de longue durée. Plus précisément, le développement d'intelligences multimodales dans les jeux pourrait transformer l'industrie du jeu en conduisant à des expériences de jeu plus immersives et personnalisées. Dans le domaine de la robotique, le développement de systèmes robotiques adaptatifs pourrait révolutionner les industries, de la fabrication à l'agriculture, en permettant de remédier aux pénuries de main-d'œuvre et d'accroître l'efficacité. Dans le domaine des soins de santé, l'utilisation de grands modèles de langage (LLM) et de modèles de langage visuel (VLM) en tant qu'intelligences diagnostiques ou assistants de soins aux patients pourrait conduire à des diagnostics plus précis, à une amélioration des soins aux patients et à un meilleur accès aux services de soins de santé, en particulier dans les zones mal desservies. En outre, la capacité de ces modèles à interpréter de longues vidéos peut avoir un large éventail d'applications, allant de l'amélioration de l'apprentissage en ligne à l'amélioration des services d'assistance technique. Dans l'ensemble, les sujets abordés dans nos forums auront des répercussions importantes en aval sur les industries et les êtres humains dans le monde entier.

Deuxièmement, nous espérons que notre forum sera une ressource précieuse pour les praticiens et les chercheurs en IA, servant de plateforme pour explorer et mieux comprendre les divers tableaux de bord complexes présentés par la mise en œuvre d'intelligences IA dans une variété d'environnements et de contextes. Cette exploration comprend, par exemple, la compréhension des limites spécifiques et des dangers potentiels des systèmes d'IA agentique développés pour des domaines spécifiques tels que les diagnostics de santé. Dans ce domaine, des problèmes tels que des hallucinations dangereuses dans le comportement de l'IA peuvent poser des risques significatifs, soulignant l'importance cruciale d'une conception et d'essais minutieux. Toutefois, lorsqu'il s'agit d'intelligences artificielles conçues pour l'industrie du jeu, ces classements spécifiques peuvent être moins pertinents ou moins évidents. Dans ces domaines du divertissement, les développeurs peuvent donner la priorité à différents obstacles, tels que la nécessité pour l'IA d'effectuer une génération plus ouverte et de faire preuve de créativité, en s'adaptant de manière dynamique aux scénarios de jeu imprévisibles et aux interactions des joueurs. En participant au forum, les participants comprendront mieux comment ces différents environnements dictent l'orientation du développement de l'IA et comment adapter au mieux les solutions d'IA pour répondre à ces différents besoins et surmonter les classements pertinents.

Troisièmement, les différents éléments de notre événement, y compris les présentations d'experts, les posters informatifs et les gagnants de nos deux classements, sont conçus pour fournir une vue d'ensemble substantielle mais concise des tendances les plus récentes et significatives, des directions de recherche et des concepts innovants dans le domaine des intelligences multimodales. Ces présentations résumeront les principaux résultats et développements, révélant de nouveaux systèmes, idées et technologies dans le domaine de l'IA pour les intelligences multimodales. Ce recueil de connaissances sera non seulement utile aux participants au forum qui souhaitent approfondir leur compréhension et leur expertise dans ce domaine, mais il constituera également un référentiel de ressources riche et dynamique. Les visiteurs du site web de notre forum peuvent utiliser ce répertoire d'informations pour découvrir et comprendre les avancées de pointe et les idées novatrices qui détermineront l'avenir de l'IA pour les intelligences multimodales. Nous nous efforçons d'être une base de connaissances utile tant pour les novices que pour les vétérans dans ce domaine. En s'engageant dans ces ressources, nous espérons que les participants et les visiteurs en ligne découvriront les changements transformateurs et les nouvelles approches qui façonnent le paysage passionnant de l'IA pour les intelligences multimodales.

11 Considérations éthiques

Les systèmes d'IA multimodale ont de nombreuses applications. Outre l'IA interactive, les modèles multimodaux fondamentaux peuvent contribuer à la génération de contenu pour les robots et les intelligences artificielles, et aider les applications de productivité qui facilitent la relecture, la paraphrase, la prédiction des mouvements ou la composition de scènes en 3D ou en 2D. Les avancées fondamentales dans le domaine de l'IA du corps intelligent permettent d'atteindre ces objectifs, et nombre d'entre elles bénéficieront d'une meilleure compréhension de la manière de construire la modélisation et l'empathie dans la réalité simulée ou le monde réel. On peut dire que bon nombre de ces applications sont susceptibles d'avoir des retombées positives.

Cependant, cette technologie peut également être exploitée par des acteurs malveillants. Les systèmes d'IA intelligents qui génèrent du contenu peuvent être utilisés pour manipuler ou tromper les gens. Il est donc important que cette technologie soit développée conformément à des lignes directrices sur l'IA responsable. Par exemple, en informant clairement les utilisateurs que le contenu est généré par des systèmes d'IA et en leur donnant le contrôle de la personnalisation de ces systèmes. L'IA du corps intelligent peut être utilisée pour développer de nouvelles méthodes de détection des contenus manipulateurs - en partie parce qu'elle possède les riches propriétés hallucinatoires d'un grand modèle de base - et contribuer ainsi à résoudre un autre problème du monde réel.

Par exemple, 1) il est essentiel que les intelligences de modélisation du langage large (LLM) et de modélisation du langage visuel (VLM) soient déployées de manière éthique dans le domaine de la santé, en particulier dans des domaines sensibles tels que les soins de santé. Les intelligences IA formées sur des données biaisées peuvent exacerber les disparités en matière de santé en fournissant des diagnostics inexacts aux populations vulnérables. En outre, le traitement des données sensibles des patients par les intelligences artificielles soulève de graves problèmes de protection de la vie privée et de confidentialité.2) Dans l'industrie du jeu, les intelligences artificielles peuvent modifier le rôle des développeurs en les amenant à se concentrer sur l'amélioration du processus d'apprentissage des intelligences plutôt que sur la création de scripts pour les personnages non joueurs. De même, les systèmes robotiques adaptatifs pourraient redéfinir le rôle de l'industrie manufacturière, en exigeant de nouvelles compétences plutôt qu'en remplaçant les travailleurs humains. Il est essentiel de réagir de manière responsable à ces changements pour minimiser les perturbations socio-économiques potentielles.

En outre, l'IA du corps intelligent se concentre sur l'apprentissage de stratégies de collaboration en simulation, ce qui est risqué si les stratégies sont directement appliquées au monde réel en raison d'un biais de distribution. Des tests robustes et des mécanismes de surveillance continue de la sécurité devraient être mis en place pour minimiser le risque de comportement imprévisible dans les scénarios du monde réel. Notre ensemble de données "VideoAnalytica" a été collecté sur Internet et, étant donné qu'il ne s'agit pas d'une source totalement représentative, nous avons procédé à des examens éthiques et à des procédures juridiques auprès de Microsoft et de l'université de Washington. Malgré cela, nous devons être conscients des biais possibles dans le corpus. Les distributions de données peuvent être caractérisées de plusieurs manières. Dans cet atelier, nous avons saisi les différences entre la distribution des niveaux d'intelligence dans notre ensemble de données et d'autres ensembles de données existants. Cependant, un ensemble de données ou un atelier peut contenir bien d'autres éléments. Nous pensons qu'il faut davantage de méthodes ou de discussions en rapport avec la tâche ou le sujet réel, et en mettant ces données ou systèmes à disposition.

Nous consacrerons une partie de notre projet à l'examen de ces questions éthiques, à l'exploration de stratégies d'atténuation potentielles et au déploiement d'intelligences artificielles multimodales responsables. Avec ce document, nous espérons aider davantage de chercheurs à travailler ensemble pour répondre à ces questions.

12 Déclaration sur la diversité

En étudiant l'adaptabilité des modèles d'IA du corps intelligent dans divers domaines, nous embrassons naturellement une grande variété de classements, de perspectives et de solutions. Dans cet esprit, notre projet vise à construire une communauté diversifiée en explorant une variété de sujets dans le domaine de l'IA multimodale et du corps intelligent.

En gardant ces principes à l'esprit, ce projet se concentre sur les systèmes multimodaux avancés qui interagissent efficacement dans les environnements physiques et virtuels et facilitent une interaction efficace avec les humains. En tant que tel, nous avons l'intention d'attirer des experts et des praticiens d'un large éventail de spécialisations techniques, de cultures, de pays et de domaines académiques pour discuter de sujets importants, y compris, mais sans s'y limiter, les suivants :

Application du modèle de base : développement d'intelligences avec des modalités intégrées (audio, image, texte, entrées de capteurs) visant à améliorer leur reconnaissance et leur réponse à diverses applications.
Systèmes génériques de bout en bout : développer des modèles de bout en bout formés à l'aide de données à grande échelle dans le but de créer des solutions d'IA génériques et adaptables.
Principe d'ancrage modal : intégration d'informations provenant de différentes modalités afin d'améliorer la cohérence et l'efficacité du traitement des données.
Interfaces intuitives entre l'homme et l'ordinateur : développer des interactions efficaces et significatives entre l'homme et les intelligences.
Apprivoiser les grands modèles linguistiques (LLM)/les modèles linguistiques visuels (VLM) : explorer de nouvelles façons d'aborder les problèmes courants dans les modèles à grande échelle, tels que les illusions et les biais dans les résultats.

Nous aspirons à élargir notre compréhension collective du potentiel et des limites de l'IA pour les intelligences en tirant parti de nos perspectives uniques et diverses. Nous sommes convaincus que cette approche permettra non seulement d'enrichir les perspectives individuelles, mais aussi d'améliorer les connaissances collectives de la communauté et de favoriser une vision globale plus inclusive du tableau de bord plus large auquel sont confrontées les intelligences multimodales de l'IA.

Annexe AGPT-4V Détails de l'astuce de l'agent

Sauf indication contraire, nous utilisons les invites système par défaut de GPT-4V. Nous montrons en détail le processus de demande d'un jeu Minecraft à GPT-4V et la façon dont nous avons généré les réponses de GPT-4V dans la Figure 31.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 31 : Nous fournissons des extraits de code pour montrer le processus complet d'appel à GPT-4V pour les vidéos Minecraft. Tout d'abord, nous encodons les images de la vidéo, puis nous appelons le point de terminaison GPT-4V. La réponse du modèle est affichée en bas de l'écran.

Annexe BGPT-4V pour le bord de saignée

Bleeding Edge est un jeu de combat en équipe à la troisième personne dans lequel les joueurs tentent de capturer des objectifs ou de collecter plus de ressources que l'équipe ennemie. La figure 32 présente des exemples d'entrées et de sorties lors de l'utilisation de GPT-4V pour le jeu Bleeding Edge. Par rapport à Minecraft, nous avons constaté qualitativement que GPT-4V comprend moins bien le contenu visuel et les règles du jeu. Cela peut être dû (1) à la grande quantité de données Minecraft dans les données d'entraînement de GPT-4V, et (2) à la plus grande complexité visuelle de Bleeding Edge par rapport à Minecraft.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 32 : GPT-4V est capable de générer un contenu significatif pour des jeux tels que Bleeding Edge, qui présentent une perspective à la troisième personne et des scènes visuellement complexes. Afin d'introduire un grand nombre d'images (48) dans le GPT-4V, nous avons introduit ces images sous forme de grille et superposé des numéros d'image sur chaque image (comme indiqué ci-dessus).

Annexe CGPT-4V pour Microsoft Flight Simulator

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 33 : GPT-4V peut générer des descriptions de contenu significatives pour les jeux Microsoft Flight Simulator. Pendant que le joueur pilote l'avion dans le simulateur de vol, l'agent GPT-4V peut fournir une description de haut niveau de l'action, en l'affichant à travers la vue du cockpit et la vue extérieure de l'avion, en gérant les différentes commandes et instruments de vol pour maintenir une vitesse et une altitude correctes tout en naviguant dans l'espace aérien virtuel. Afin de saisir une grande vidéo, nous sélectionnons un certain nombre d'images clés (6 images) à envoyer à GPT-4V. Nous saisissons chaque image clé individuellement, sans utiliser de grille (comme le montre la figure ci-dessus).

Comme le montre la figure 33, l'agent GPT-4V fournit une description de haut niveau des actions du joueur dans Microsoft Flight Simulator. Il décrit comment le joueur, à travers la vue du cockpit et la vue extérieure de l'avion, pilote l'avion, gère les différentes commandes de vol et les instruments pour maintenir une vitesse et une altitude correctes, tout en naviguant dans l'espace aérien virtuel.

Annexe DGPT-4V pour Assassin's Creed : Odyssey

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 34 : GPT-4V est capable de générer des descriptions de contenu significatives pour le jeu Assassin's Creed : Odyssey. Les agents basés sur la GPT-4V peuvent également fournir des descriptions d'action de haut niveau, c'est-à-dire que "les personnages de l'image [participent] à des batailles nocturnes dans le cadre de campagnes historiques, manient des lances et utilisent des capacités spéciales telles que le "bull rush", combattent plusieurs ennemis avec des indicateurs de niveau, tout en gérant leurs valeurs de vie et de capacité dans un jeu de rôle à la troisième personne". Gérer sa vie et ses capacités dans un jeu de rôle à la troisième personne". Afin de saisir une grande vidéo, nous sélectionnons un certain nombre d'images clés (8 images) à envoyer au GPT-4V. Nous saisissons chaque image clé individuellement, sans utiliser de grille (comme indiqué ci-dessus).

Comme le montre la figure 34, l'agent GPT-4V fournit une description d'action de haut niveau du personnage dans l'image, c'est-à-dire que le personnage participe à des batailles nocturnes dans une campagne historique, manie une lance et utilise des capacités spéciales telles que la "ruée vers le taureau", combat plusieurs ennemis avec des indicateurs de niveau et gère leurs valeurs de vie et de capacité dans un jeu de rôle d'action à la troisième personne. Le GPT-4V montre également le joueur s'engageant dans un scénario de combat de mêlée à grande échelle, contrôlant un personnage dont l'armure porte des accents rouges et qui est invité à utiliser la capacité "bull rush" en fonction des instructions affichées à l'écran. L'environnement est sombre et plein de flammes, suggérant un champ de bataille, et le personnage du joueur fait face à de multiples ennemis avec des indicateurs de niveau et des barres de sang au-dessus de la tête. L'action fait partie d'un tutoriel ou d'une séquence de combat au cours de laquelle le joueur apprend et exécute des capacités de combat.

Annexe EGPT-4V pour Gears of War 4

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
L'agent GPT-4V fournit une description de haut niveau de l'action, c'est-à-dire que le joueur participe à un scénario de combat dans un environnement futuriste visuellement riche qui rappelle un complexe industriel ou militaire. Le personnage, vêtu d'une armure et équipé d'armes à feu, se déplace dans la zone et utilise des systèmes de couverture et de ciblage pour attaquer l'ennemi. Parmi les actions capturées, le personnage vise à couvert, tire sur les ennemis, subit des dégâts (indiqués par des signaux visuels à l'écran) et s'engage dans un combat rapproché. L'environnement est éclairé de nuit, avec des sources de lumière artificielle qui mettent en évidence les zones ou les actions intéressantes. À certains moments, le personnage du joueur apparaît sous la forme d'une silhouette transparente, qui peut indiquer une capacité spéciale ou un état temporaire, comme l'invincibilité ou la furtivité. Afin de saisir une grande vidéo, nous sélectionnons un certain nombre d'images clés (10 images) à envoyer au GPT-4V. Nous saisissons chaque image clé individuellement, sans utiliser de grille (comme illustré ci-dessus).

Comme le montre la FIG. 35, sur la base de la séquence vidéo de 10 images fournie, l'agent GPT-4V peut fournir une description générale des mouvements du joueur dans le jeu vidéo :

"Le joueur navigue dans un environnement industriel nocturne, se cachant stratégiquement derrière divers objets tels que des caisses et des murs. Le personnage est armé et engage le combat avec les entités ennemies. Le joueur utilise des armes à feu et peut également utiliser des attaques au corps à corps, comme indiqué dans Close Quarters Combat. Il semble gérer ses munitions et sa durée de vie, comme l'indiquent les signaux visuels à l'écran (par exemple, un indicateur rouge clignotant, qui indique généralement que le personnage subit des dégâts).

En outre, le joueur semble se déplacer de manière tactique, passant d'une position de couverture à une autre pour avancer ou se défendre contre les ennemis. À certains moments, les boucliers semblent être activés, ce qui suggère que le joueur réagit aux tirs entrants en utilisant des capacités défensives. Les personnages semblent également recharger leurs armes, ce qui suggère un élément de gestion des ressources pendant le combat. Le sang et les effets d'impact indiquent les coups portés aux ennemis.

Le personnage du joueur coopère avec des alliés, car d'autres personnages peuvent être vus dans les environs et sont impliqués dans des actions de combat similaires. L'environnement comporte des éléments interactifs, tels que des barils qui explosent, que le joueur peut utiliser à son avantage.

Les scénarios décrivent une action rapide qui met l'accent sur les mouvements stratégiques, le tir et la connaissance de la situation afin de vaincre les adversaires et d'atteindre des objectifs spécifiques dans le jeu".

Annexe FGPT-4V pour Le ciel étoilé

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figure 36 : capacité de GPT-4V à générer des descriptions de contenu significatives pour le jeu Starsky et Hutch sur console X-Box. L'agent GPT-4V fournit des descriptions de haut niveau de l'action dans ce jeu d'exploration sur le thème de l'espace. Afin de saisir une vidéo de grande taille, nous avons sélectionné un certain nombre d'images clés (10 images) à envoyer à GPT-4V. Nous avons saisi chaque image clé individuellement, sans utiliser de grille (comme indiqué ci-dessus).

Comme le montre la figure 36, sur la base de la séquence vidéo de 10 images fournie pour Stars, l'agent GPT-4V fournit une description générale des actions du joueur dans le jeu vidéo. Selon GPT-4V, "L'image représente une séquence d'événements dans le jeu Stars, montrant les interactions du joueur dans l'environnement minier. Voici une description de la séquence :

Le joueur se trouve dans une caverne souterraine faiblement éclairée par des stalactites, à côté d'un autre personnage portant un équipement spatial. Ils font face à un point de repère surligné indiquant un objectif ou un lieu d'intérêt.
Le joueur traverse l'intérieur d'une industrie, peut-être une station minière, et s'approche d'un autre personnage. L'affichage tête haute (HUD) montre une ligne de dialogue pour le "Superviseur Lin", ce qui indique une interaction avec le PNJ (personnage non joueur) et peut-être un briefing ou une mise à jour de la mission.
Le joueur semble suivre le PNJ Superviseur Lin à travers les grottes, ce qui laisse présager la partie guidée du jeu, dans laquelle les PNJ dirigent le joueur vers des lieux ou des quêtes spécifiques.
Le dialogue en charge de la forêt laisse entrevoir un point de décision ou une mise à jour de la quête qui pourrait guider les joueurs vers de nouveaux objectifs liés à la ressource "gros filon".
Le joueur rencontre à nouveau le superviseur Lin, qui lui donne des instructions ou des informations sur les gisements de métaux, ce qui laisse présager le début d'une mission minière ou l'exploration d'une nouvelle zone.
Dans ce cadre, le joueur semble observer ou interagir avec une machine, et un autre personnage, Isabel, indique des actions ou des dialogues liés au fonctionnement de l'appareil ou au travail technique.
Le joueur regarde vers le bas et voit un terrain accidenté et deux objets lumineux, qui peuvent représenter des ressources à collecter ou des points d'intérêt pour la mission.
Le joueur examine une ressource spécifique, étiquetée "Beryllium Deposit" sur l'affichage tête haute, indiquant qu'une activité de collecte de ressources ou d'exploitation minière est en cours.
Le joueur se promène dans la grotte, éventuellement à la recherche d'autres ressources ou pour se rendre à l'objectif suivant, comme l'a montré plus tôt un autre personnage en tenue spatiale.
Le joueur se trouve dans une zone sombre de la grotte avec deux marqueurs lumineux indiquant le chemin ou l'objectif à atteindre.

Tout au long de l'imagerie, le joueur semble être engagé dans une mission qui implique l'exploration, l'interaction avec les PNJ, la collecte de ressources, et éventuellement l'utilisation de machines dans un environnement minier. Les éléments de l'affichage tête haute, tels que les points de passage, le texte du dialogue et les mises à jour de la mission, fournissent un contexte aux actions du joueur et aux objectifs du jeu.

Profil de l'auteur

Zane Durante

Candidat au doctorat en informatique, Université de Stanford
Courriel : durante@stanford.edu
Site web : https://zanedurante.github.io/
Zane Durante est doctorant au Stanford Vision Lab, sous la direction du Dr Fei-Fei Li. Ses recherches portent sur la compréhension des vidéos, l'association de la vision par ordinateur au langage naturel et les applications de l'intelligence artificielle dans les soins hospitaliers. Il dirige une collaboration en cours entre la Stanford School of Medicine et le Stanford Vision Lab pour développer un ensemble de données de descriptions en langage naturel de clips vidéo de scènes hospitalières. Son travail de doctorat est financé par une bourse de recherche de la National Science Foundation.

Qiuyuan Huang

Chercheur principal à Microsoft Research, Redmond, WA, États-Unis.
Courriel : qihua@microsoft.com
Site web : https://www.microsoft.com/en-us/research/people/qihua/
Qiuyuan Huang est chercheur principal au sein du groupe Deep Learning de Microsoft Research (MSR) à Redmond, WA. Ses recherches actuelles portent sur l'apprentissage profond, la multimodalité et le traitement du langage naturel, en particulier l'intelligence artificielle pour les jeux, la robotique et les soins de santé ; l'intelligence de raisonnement basée sur les connaissances pour l'intelligence artificielle interactive ; le calcul symbolique neuronal pour l'inférence ; et les modèles de base à grande échelle pour le traitement du langage naturel et la multimodalité.

Naoki Wake

Un chercheur de Microsoft à Redmond, Wash.
Courriel : naoki.wake@microsoft.com
Site web : https://www.microsoft.com/en-us/research/people/nawake/
Naoki Wake est chercheur au sein du groupe de recherche en robotique appliquée de Microsoft. Ses recherches actuelles portent sur le développement de systèmes de perception multimodale et de systèmes collaboratifs de gestuelle vocale pour les robots. Naoki a obtenu sa licence en ingénierie à l'Université de Tokyo en 2014 et son doctorat en sciences et technologies de l'information en 2019.

Ran Gong

Doctorant en informatique à l'UCLA.
Courriel : nikepupu@ucla.edu
Site web : https://nikepupu.github.io
Ran Gong est doctorant au sein du laboratoire VCLA de l'UCLA. Son domaine de recherche se situe à l'intersection de la robotique, de la vision par ordinateur, de l'infographie et de l'apprentissage automatique. Ses recherches se concentrent sur la simulation et l'interaction incarnées dans le but de créer des comportements intelligents capables de résoudre différentes tâches dans différents environnements et de collaborer avec les humains. Il est titulaire d'une licence en sciences informatiques et en ingénierie de l'UCLA.

Jae Sung Park

Doctorant, Université de Washington
Courriel : jspark96@cs.washington.edu
Site web : https://homes.cs.washington.edu/~jspark96/
Jae Sung est un étudiant en doctorat supervisé par Yejin Choi et Ali Farhadi. Ses recherches portent sur le développement de modèles de raisonnement multimodal. Il cherche à doter les modèles de fondations qui placent les concepts linguistiques dans la modalité visuelle et leur permettent de comprendre le contenu multimédia de la même manière que les humains traitent les informations visuelles. Jae Sung a obtenu sa licence en informatique à l'université de Californie, à Berkeley.

Bidipta Sarkar

Université de Stanford
Courriel : bidiptas@stanford.edu
Site web : https://bsarkar321.github.io/
Bidipta Sarkar est un étudiant de premier cycle à l'université de Stanford et membre du laboratoire ILIAD de Stanford. Ses recherches portent sur la création d'agents artificiellement intelligents capables d'interagir avec leur environnement et de travailler en toute sécurité avec des humains et d'autres agents autonomes.

Rohan Taori

Candidat au doctorat en informatique, Université de Stanford
Courriel : rtaori@cs.stanford.edu
Site web : https://www.rohantaori.com/
Rohan Taori est doctorant au laboratoire d'intelligence artificielle de l'université de Stanford. Ses recherches portent sur les fondements de l'apprentissage automatique dans le contexte de systèmes réels. Récemment, Rohan a repoussé les limites des grands modèles de langage open-source, en les affinant pour en faire des assistants polyvalents utiles. Rohan s'intéresse également à l'augmentation des grands modèles de langage avec des capacités multimodales, leur permettant de raisonner sur des images et des vidéos. Rohan a obtenu son B.S. en informatique à l'Université de Californie, Berkeley.

Yusuke Noda

Ingénieur logiciel principal, Microsoft Gaming, Redmond, WA.
Courriel : yusuke.noda@microsoft.com
Site web : https://www.linkedin.com/in/yusuke-noda-908797/
Yusuke Noda est ingénieur logiciel principal pour la plateforme de jeux de Microsoft. Il a dirigé le développement de l'infrastructure de jeu pour la Xbox One et la Xbox Cloud Gaming et possède plus de 16 ans d'expérience dans le développement d'une infrastructure efficace pour les technologies cloud et de jeu.

Demetri Terzopoulos

Professeur distingué de l'UCLA, informaticien et entrepreneur récompensé par l'Académie.
Courriel : dt@cs.ucla.edu
Site web : https://web.cs.ucla.edu/~dt/
Le Dr Demetri Terzopoulos est professeur émérite et professeur d'informatique à l'UCLA, où il dirige le laboratoire d'infographie et de vision de l'UCLA. Il est également cofondateur et scientifique en chef de VoxelCloud, Inc., une société multinationale d'IA dans le domaine de la santé. Il est ou a été Guggenheim Fellow, membre de la Société royale de Londres (FRS) et de la Société royale du Canada (FRSC), membre de l'Association for Computing Machinery (ACM), membre à vie de l'Institute of Electrical and Electronics Engineers (IEEE), membre de l'Asia Pacific Association for Artificial Intelligence (AAIA), membre distingué de l'Institut international d'ingénierie et de technologie (IETI), membre de l'Académie européenne des sciences (EAS) et de l'Académie des sciences de New York (NYAS). Il est également membre de l'Académie européenne des sciences (EAS) et de l'Académie des sciences de New York (NYAS), et membre à vie de Sigma Xi.

Yejin Choi

Chaire Wisnner-Slivaka et Brett Helsel Professor à l'université de Washington, Senior Research Manager et MacArthur Fellow à l'Allen Institute for Artificial Intelligence.
Courriel : yejin@cs.washington.edu
Site web : https://homes.cs.washington.edu/~yejin/
Yejin est titulaire de la chaire Wisnner-Slivaka et de la chaire Brett Helsel à l'Université de Washington et responsable de recherche senior à l'Allen Institute for Artificial Intelligence. Elle a reçu le prix Anita Borg Early Career Award en 2018. Elle est lauréate d'une bourse de la Fondation MacArthur Fellows pour 2020. Elle a reçu les prix Distinguished Paper pour AAAI 2020, Neurips 2021, ICML 2022, et ACL 2023, et les prix Best Paper pour NAACL 2022 et ACL 2023. Elle est l'une des principales organisatrices de COLM 2024, un événement universitaire axé sur la recherche en modélisation du langage. Ses principaux domaines de recherche sont le traitement du langage naturel, l'apprentissage automatique et le raisonnement par le bon sens dans l'intelligence artificielle, ainsi que des intérêts plus larges dans la vision par ordinateur et les humanités numériques.

Fei-Fei Li

Professeur d'informatique, Université de Stanford
Courriel : feifeili@stanford.edu
Site web : https://profiles.stanford.edu/fei-fei-li/
Fei-Fei est la première professeure Sequoia du département d'informatique de l'université de Stanford et codirectrice de l'Institut pour l'intelligence artificielle centrée sur l'humain à Stanford. Elle a été directrice du laboratoire d'intelligence artificielle de Stanford de 2013 à 2018. Pendant son congé sabbatique à Stanford, de janvier 2017 à septembre 2018, Mme Lee a été vice-présidente de Google et scientifique en chef pour l'intelligence artificielle et l'apprentissage machine chez Google Cloud. Depuis, elle a été membre du conseil d'administration ou conseillère de plusieurs entreprises publiques ou privées.

Katsushi Ikeuchi

Directeur de recherche principal chez Microsoft et membre à vie de l'IEEE. Microsoft Research, Redmond, Washington, États-Unis. Membre à vie de l'IEEE.
Courriel : katsuike@microsoft.com
Site web : https://www.microsoft.com/en-us/research/people/katsuike/
Katsushi Ikeuchi a obtenu sa licence en ingénierie mécanique à l'université de Kyoto en 1973 et son doctorat en ingénierie de l'information à l'université de Tokyo en 1978. Après avoir passé trois ans au laboratoire d'intelligence artificielle du MIT, cinq ans au laboratoire de technologie électronique du ministère japonais du commerce international et de l'industrie, dix ans à l'institut de robotique de l'université Carnegie Mellon et dix-neuf ans à l'institut des sciences industrielles de l'université de Tokyo, il a rejoint Microsoft en tant que chercheur principal en 2015. Au cours de son mandat à la CMU et à l'Université de Tokyo, il a supervisé plus de 50 étudiants en doctorat.

Ses recherches portent sur la vision artificielle, la robotique et l'infographie. Il a reçu plusieurs prix du meilleur article dans ces domaines de recherche, notamment le David Marr Award in Computational Vision et le IEEE Robotics and Automation Society K. S. Fu Memorial Best Paper Award.

Il a notamment été président général de IROS95, ITSC99, IV01, ICCV05, ACCV07, ICCV17 ; président de programme de CVPR96, ICCV03, ICRA09, ICPR12, ICCV15 ; EIC de IJCV (2000-2017), EIC de IJ ITS (2012-2014), rédacteur en chef adjoint de IEEE Trans. EIC pour IJCV (2000-2017), EIC pour IJ ITS (2012-2014), Associate Editor pour IEEE Trans. RA, IEEE Trans. PAMI ; et Distinguished Lecturer pour IEEE Signal Processing Society 2000-2002, IEEE Robotics and Automation Society 2004-2006, et IEEE Computer Society 2008-2010.

Grâce à ses travaux de recherche et à ses services à la communauté, il a reçu des bourses (à vie) de l'IEEE, de l'IEICE, de l'IPSJ et du RSJ. Il a reçu le prix du chercheur émérite de l'IEEE-PAMI, la médaille avec le ruban violet de l'empereur du Japon, le prix Okawa de la fondation Okawa et plusieurs prix pour ses travaux de recherche décernés par des associations professionnelles japonaises.

Hoi Vo

Chercheur en technologie. Microsoft Games et X-Box Emerging Technologies, Redmond, WA, États-Unis.
Courriel : hoiv@microsoft.com
Site web : https://www.linkedin.com/in/hoi-vo-193420/
Hoi Vo est chercheur technique au sein de la division des jeux de Microsoft, où il se concentre sur l'intégration de l'intelligence artificielle dans les nouvelles applications de jeux. Il a joué un rôle clé dans la mise en place du service Xbox Cloud Gaming et a dirigé les efforts en matière de cloud et de jeux au sein des équipes de Microsoft, y compris la plateforme Windows Azure de Microsoft. Il se concentre sur l'optimisation des modèles d'IA pour qu'ils fonctionnent efficacement à la périphérie tout en exploitant le cloud pour gérer des scénarios dépassant les capacités du matériel, notamment en affinant les modèles pour les rendre plus convaincants pour une variété d'expériences de jeu.

Jianfeng Gao

Scientifique émérite, vice-président de Microsoft et membre de l'IEEE. Microsoft Research, Redmond, WA, États-Unis. Membre de l'IEEE.
Courriel : jfgao@microsoft.com
Site web : https://www.microsoft.com/en-us/research/people/jfgao/
Jianfeng Gao est scientifique émérite et vice-président de Microsoft Research, membre de l'IEEE, membre émérite de l'ACM et directeur actuel du Deep Learning Group chez Microsoft Research. AI Partner Research Manager. Il a dirigé le développement de solutions d'IA prédictive pour les ventes et le marketing. Il a également travaillé sur l'apprentissage profond pour le traitement du texte et des images (voir les tutoriels ACL/SIGIR 2018, les tutoriels Deep Learning 2017 et les tutoriels IJCAI 2016, ou le site intranet de Microsoft), et a dirigé le développement de systèmes d'IA pour le dialogue, la compréhension de la lecture automatique (MRC) et la réponse aux questions (QA). Depuis 2022, il a mené des recherches sur l'IA auto-améliorante qui améliore et adapte le LLM (par exemple ChatGPT/GPT4) pour développer des systèmes d'IA commerciaux.

une note de remerciement

Nous sommes particulièrement reconnaissants à Peter Lee, Doug Burger, Desney Tan, Johannes Gehrke, Ryen White, Ece Kamar, Subhojit Som et Kareem Choudhry pour leurs conseils, leur soutien et leurs encouragements. Nous remercions Haiyan Zhang, Spencer Perreault, Dave Bignell, Katja Hofmann, Sam Devlin, Shanzheng Tan, Raluca Georgescu, Bill Dolan, Nebojsa Jojic, Sudha Rao, Adrian Brown et Andrzej Banburski-Fahey pour leurs discussions préliminaires et leur aide en matière de jeu. Nous remercions Kiran Muthabatulla, Antonio Criminisi, Tom Cashman, Nguyen Bach, Jennifer Marsman et Jaron Lanier de l'équipe Microsoft Mesh, Microsoft OCTO et l'équipe Microsoft Office pour leurs contributions au travail sur la réalité mixte et les ensembles de données, ainsi que pour leur aide et leurs contributions généreuses à ce projet. et leur aide généreuse ainsi que leurs commentaires sur le projet. Nous sommes particulièrement reconnaissants à Paul Bennett, Corby Rosset, Michel Galley, Chenglong Wang, Baolin Peng, Hao Chen, Silviu Cucerzan, Ahmed Awadallah et Saleema Amershi pour leurs suggestions et commentaires sur la section NLP. pour leurs commentaires sur la section NLP. Les auteurs remercient sincèrement Paul Smolensky, Yonatan Bisk, Kezhen Chen, Borui Wang, Liangke Gui, Dingmin Wang, Xin (Eric) Wang, Zhe Gan, Xiaojian Ma, Zilong Zheng, Song-chun Zhu, Dragomir R. Wang, et D. S. Wang pour leurs suggestions et commentaires sur la section NLP. Nous remercions également les membres de l'équipe d'experts de Microsoft, Dragomir R. Radev, Daniel McDuff et Harry Shum, pour leurs travaux antérieurs, leurs commentaires, leurs suggestions, leurs multiples révisions minutieuses de ce document et leur incitation à consulter la littérature. Enfin, nous remercions sincèrement l'équipe Microsoft Holulens, l'équipe Microsoft X-box et l'équipe Meta Quest pour avoir généreusement fourni les appareils ; l'équipe MSR Central Engineering (CE), l'équipe Microsoft 343 pour la collecte et le partage des données ; et les équipes Microsoft AOAI et GCR pour leur soutien au point de terminaison Azure-OpenAI.

Nous tenons également à remercier nos collègues du Stanford AI-Assisted Care Partnership qui nous ont aidés à comprendre les applications médicales explorées dans ce travail. Nous sommes particulièrement reconnaissants à Ehsan Adeli, Paul Tang, Amit Kaushal, Roger Bohn, Kevin Schulman et Arnold Milstein pour leur expertise clinique et leurs conseils.

Cette recherche a été soutenue par Microsoft Research Project Fair 2023, Microsoft HackBox 2023 et l'équipe OCTO.