Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]

1.7K 00

《Agent AI: Surveying the Horizons of Multimodal Interaction》

原文：https://ar5iv.labs.arxiv.org/html/2401.03568

摘要

多模态 AI 系统很可能在我们日常生活中无处不在。使这些系统更具交互性的一种有前景的方法是将它们作为物理和虚拟环境中的智能体来实现。目前，系统利用现有的基础模型作为创建具身智能体的基本构建模块。将智能体嵌入到这样的环境中，有助于模型处理和解释视觉和上下文数据的能力，这对于创建更复杂和具有上下文感知能力的 AI 系统至关重要。例如，一个能够感知用户行为、人类行为、环境物体、音频表达以及场景的集体情感的系统，可以用来告知和指导智能体在给定环境中的响应。为了加速基于智能体的多模态智能研究，我们将“Agent AI”定义为一类交互系统，该系统可以感知视觉刺激、语言输入和其他基于环境的数据，并可以产生有意义的具身行为。特别是，我们探索旨在通过整合外部知识、多感官输入和人类反馈来改进基于下一具身行为预测的智能体的系统。我们认为，通过在有基础的环境中开发智能体 AI 系统，还可以减轻大型基础模型的幻觉及其产生环境不正确输出的倾向。“Agent AI”的新兴领域涵盖了多模态交互中更广泛的具身和智能体方面。除了在物理世界中行动和交互的智能体之外，我们还设想未来人们可以轻松创建任何虚拟现实或模拟场景，并与嵌入在虚拟环境中的智能体进行交互。

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 1: Agent AI 系统的概述，该系统可以在不同的领域和应用中感知和行动。Agent AI 正在成为通向通用人工智能 (AGI) 的一条有希望的途径。Agent AI 训练已经展示了在物理世界中进行多模态理解的能力。它通过利用生成式 AI 和多个独立数据源，为与现实无关的训练提供了一个框架。当在跨现实数据上进行训练时，为智能体和行动相关任务训练的大型基础模型可以应用于物理和虚拟世界。我们展示了一个 Agent AI 系统的总体概述，该系统可以在许多不同的领域和应用中感知和行动，可能作为使用智能体范式通向 AGI 的一条途径。

1 引言
1. 1.1 动机
2. 1.2 背景
3. 1.3 概述
2 Agent AI 集成
1. 2.1 无限 AI 智能体
2. 2.2 使用大型基础模型的 Agent AI
  1. 2.2.1 幻觉
  2. 2.2.2 偏见和包容性
  3. 2.2.3 数据隐私和使用
  4. 2.2.4 可解释性和可说明性
  5. 2.2.5 推理增强
  6. 2.2.6 监管
3. 2.3 Agent AI 用于涌现能力
3 Agent AI 范式
1. 3.1 大语言模型和视觉语言模型
2. 3.2 智能体 Transformer 定义
3. 3.3 智能体 Transformer 创建
4 Agent AI 学习
1. 4.1 策略和机制
  1. 4.1.1 强化学习 (RL)
  2. 4.1.2 模仿学习 (IL)
  3. 4.1.3 传统 RGB
  4. 4.1.4 情境学习
  5. 4.1.5 智能体系统中的优化
2. 4.2 智能体系统（零样本和少样本级别）
  1. 4.2.1 智能体模块
  2. 4.2.2 智能体基础设施
3. 4.3 智能体基础模型（预训练和微调级别）
5 Agent AI 分类
1. 5.1 通用智能体领域
2. 5.2 具身智能体
  1. 5.2.1 行动智能体
  2. 5.2.2 交互智能体
3. 5.3 模拟和环境智能体
4. 5.4 生成式智能体
  1. 5.4.1 AR/VR/混合现实智能体
5. 5.5 知识和逻辑推理智能体
  1. 5.5.1 知识智能体
  2. 5.5.2 逻辑智能体
  3. 5.5.3 用于情感推理的智能体
  4. 5.5.4 神经符号智能体
6. 5.6 大语言模型和视觉语言模型智能体
6 Agent AI 应用任务
1. 6.1 用于游戏的智能体
  1. 6.1.1 NPC 行为
  2. 6.1.2 人与 NPC 的互动
  3. 6.1.3 基于智能体的游戏分析
  4. 6.1.4 用于游戏场景合成
  5. 6.1.5 实验和结果
2. 6.2 机器人技术
  1. 6.2.1 用于机器人技术的大语言模型/视觉语言模型智能体。
  2. 6.2.2 实验和结果。
3. 6.3 医疗保健
  1. 6.3.1 当前的医疗保健能力
4. 6.4 多模态智能体
  1. 6.4.1 图像-语言理解和生成
  2. 6.4.2 视频和语言理解和生成
  3. 6.4.3 实验和结果
5. 6.5 视频-语言实验
6. 6.6 用于自然语言处理的智能体
  1. 6.6.1 大语言模型智能体
  2. 6.6.2 通用大语言模型智能体
  3. 6.6.3 指令跟随大语言模型智能体
  4. 6.6.4 实验和结果
7 跨模态、领域和现实的 Agent AI
1. 7.1 用于跨模态理解的智能体
2. 7.2 用于跨领域理解的智能体
3. 7.3 用于跨模态和跨现实的交互智能体
4. 7.4 从模拟到现实的迁移
8 Agent AI 的持续和自我改进
1. 8.1 基于人类交互的数据
2. 8.2 基础模型生成的数据
9 智能体数据集和排行榜
1. 9.1 用于多智能体游戏的“CuisineWorld”数据集
  1. 9.1.1 基准
  2. 9.1.2 任务
  3. 9.1.3 指标和评判
  4. 9.1.4 评估
2. 9.2 音频-视频-语言预训练数据集。
10 更广泛的影响声明
11 伦理考量
12 多元化声明
A GPT-4V 智能体提示详细信息
B 用于 Bleeding Edge 的 GPT-4V
C 用于 Microsoft Flight Simulator 的 GPT-4V
D 用于 Assassin’s Creed Odyssey 的 GPT-4V
E 用于 GEARS of WAR 4 的 GPT-4V
F 用于 Starfield 的 GPT-4V

1 引言

1.1 动机

从历史上看，人工智能系统在 1956 年的达特茅斯会议上被定义为能够从环境中收集信息并以有用的方式与之互动的“人造生命形式”。受此定义启发，Minsky 的麻省理工学院小组在 1970 年构建了一个名为“复制演示”的机器人系统，该系统观察“积木世界”场景并成功重建了观察到的多面体积木结构。该系统包括观察、规划和操作模块，揭示了每个子问题都极具挑战性，需要进一步研究。人工智能领域分裂成各个专业子领域，这些子领域在解决这些问题和其他问题方面取得了很大进展，但过度简化模糊了人工智能研究的总体目标。

为了超越现状，有必要回到受亚里士多德整体论驱动的人工智能基础。幸运的是，最近大语言模型 (LLM/Large Language Model) 和视觉语言模型 (VLM/Visual Language Model) 的革命使得创建符合整体理想的新型人工智能智能体成为可能。抓住这个机会，本文探讨了整合语言能力、视觉认知、上下文记忆、直观推理和适应性的模型。它探讨了使用大语言模型和视觉语言模型完成这种整体综合的潜力。在我们的探索中，我们还重新审视了基于亚里士多德“目的因”，即目的论的“系统存在的原因”的系统设计，这可能在先前的人工智能发展中被忽视了。

随着强大的预训练大语言模型和视觉语言模型的出现，自然语言处理和计算机视觉的复兴得到了催化。大语言模型现在展示了惊人的能力来解读现实世界语言数据的细微差别，其能力通常与人类专业知识相当甚至超越人类 OpenAI (2023)。最近，研究人员表明，大语言模型可以扩展为在各种环境中充当智能体，在与特定领域的知识和模块配对时执行复杂的动作和任务 Xi et al. (2023)。这些场景的特点是复杂的推理，对智能体角色及其环境的理解，以及多步骤规划，测试了智能体在其环境约束内做出高度细致和复杂决策的能力 Wu et al. (2023); Meta Fundamental AI Research Diplomacy Team et al.(2022)Meta Fundamental AI Research (FAIR) Diplomacy Team, Bakhtin, Brown, Dinan, Farina, Flaherty, Fried, Goff, Gray, Hu, et al. (FAIR).

在这些初步努力的基础上，人工智能社区正处于重大范式转变的风口浪尖，即从创建用于被动、结构化任务的人工智能模型，转向能够假设在多样化和复杂环境中动态、智能体角色的模型。在这种背景下，本文研究了使用大语言模型和视觉语言模型作为智能体的巨大潜力，强调了兼具语言能力、视觉认知、情境记忆、直观推理和适应性的模型。利用大语言模型和视觉语言模型作为智能体，尤其是在游戏、机器人和医疗保健等领域，不仅为最先进的人工智能系统提供了一个严格的评估平台，而且预示了以智能体为中心的人工智能将对社会和行业产生的变革性影响。当得到充分利用时，智能体模型可以重新定义人类体验并提高运营标准。这些模型带来的全面自动化的潜力预示着行业和社会经济动态的巨大转变。这些进步将与多方面的排行榜交织在一起，不仅是技术上的，而且是伦理上的，我们将在第 11 节中详细阐述。我们深入研究了智能体人工智能这些子领域的重叠领域，并在图 1 中说明了它们的相互关联性。

1.2 背景

现在，我们将介绍支持智能体人工智能的概念、理论背景和现代实现的相关的研究论文。

大型基础模型:

大语言模型和视觉语言模型一直在推动开发通用智能机器的努力 (Bubeck et al., 2023; Mirchandani et al., 2023)。尽管它们是使用大型文本语料库进行训练的，但它们卓越的问题解决能力并不局限于规范的语言处理领域。大语言模型有潜力处理以前被认为是人类专家或特定领域算法专属的复杂任务，从数学推理 (Imani et al., 2023; Wei et al., 2022; Zhu et al., 2022) 到回答专业法律问题 (Blair-Stanek et al., 2023; Choi et al., 2023; Nay, 2022)。最近的研究表明，可以使用大语言模型为机器人和游戏人工智能生成复杂的计划 (Liang et al., 2022; Wang et al., 2023a, b; Yao et al., 2023a; Huang et al., 2023a)，这标志着大语言模型作为通用智能智能体的重要里程碑。

具身人工智能:

一些工作利用大语言模型执行任务规划 (Huang et al., 2022a; Wang et al., 2023b; Yao et al., 2023a; Li et al., 2023a)，特别是大语言模型的万维网规模领域知识和涌现的零样本具身能力，以执行复杂的任务规划和推理。最近的机器人研究还利用大语言模型执行任务规划 (Ahn et al., 2022a; Huang et al., 2022b; Liang et al., 2022)，通过将自然语言指令分解为一系列子任务（以自然语言形式或 Python 代码形式），然后使用低级控制器执行这些子任务。此外，他们还结合环境反馈来提高任务性能 (Huang et al., 2022b), (Liang et al., 2022), (Wang et al., 2023a), 和 (Ikeuchi et al., 2023)。

交互式学习：

为交互式学习设计的人工智能智能体使用机器学习技术和用户交互的组合进行操作。最初，人工智能智能体在大型数据集上进行训练。此数据集包含各种类型的信息，具体取决于智能体的预期功能。例如，为语言任务设计的人工智能将在大量的文本数据语料库上进行训练。训练包括使用机器学习算法，其中可能包括深度学习模型（如神经网络）。这些训练模型使人工智能能够识别模式、进行预测并根据其训练的数据生成响应。人工智能智能体还可以从与用户的实时交互中学习。这种交互式学习可以通过多种方式发生：1) 基于反馈的学习：人工智能根据用户的直接反馈调整其响应 Li et al. (2023b); Yu et al. (2023a); Parakh et al. (2023); Zha et al. (2023); Wake et al. (2023a, b, c)。例如，如果用户纠正了人工智能的响应，则人工智能可以使用此信息来改进未来的响应 Zha et al. (2023); Liu et al. (2023a)。2) 观察式学习：人工智能观察用户交互并隐式学习。例如，如果用户经常提出类似的问题或以特定方式与人工智能交互，则人工智能可能会调整其响应以更好地适应这些模式。它允许人工智能智能体理解和处理人类语言、多模态设置、解释跨现实情境并生成人类用户的响应。随着时间的推移，通过更多的用户交互和反馈，人工智能智能体的性能通常会持续提高。此过程通常由人类操作员或开发人员监督，他们确保人工智能正在适当地学习，并且没有形成偏差或不正确的模式。

1.3 概述

多模态智能体人工智能 (MAA/Multimodal Agent AI) 是一系列系统，这些系统基于对多模态感官输入的理解，在给定环境中生成有效的动作。随着大语言模型 (LLM/Large Language Model) 和视觉语言模型 (VLM/Visual Language Model) 的出现，在从基础研究到应用的各个领域提出了许多多模态智能体人工智能系统。虽然这些研究领域通过与每个领域的传统技术（例如，视觉问答和视觉语言导航）集成而迅速发展，但它们具有共同的兴趣，例如数据收集、基准测试和伦理观点。在本文中，我们重点关注多模态智能体人工智能的一些代表性研究领域，即多模态、游戏 (VR/AR/MR)、机器人和医疗保健，我们的目标是提供有关这些领域中讨论的共同关注点的全面知识。因此，我们希望学习多模态智能体人工智能的基础知识，并获得进一步推进其研究的见解。具体的学习成果包括：

多模态智能体人工智能概述：深入探讨其在当代应用中的原理和作用，为研究人员提供对其重要性和用途的全面掌握。
方法论：通过游戏、机器人和医疗保健的案例研究详细说明大语言模型和视觉语言模型如何增强多模态智能体人工智能。
性能评估：指导使用相关数据集评估多模态智能体人工智能，重点关注其有效性和泛化能力。
伦理考量：讨论部署智能体人工智能的社会影响和伦理排行榜，突出负责任的开发实践。
新兴趋势和未来排行榜：对每个领域的最新发展进行分类，并讨论未来的方向。

基于计算机的动作和通用智能体 (GA/Generalist Agent) 对于许多任务都很有用。为了使通用智能体对其用户真正有价值，它可以自然地进行交互，并可以推广到广泛的上下文和模态。我们的目标是在智能体人工智能社区中培养一个充满活力的研究生态系统，并创造一种共同的身份感和目标感。多模态智能体人工智能有可能广泛应用于各种上下文和模态，包括来自人类的输入。因此，我们相信这个智能体人工智能领域可以吸引各种各样的研究人员，从而促进一个动态的智能体人工智能社区和共同的目标。在学术界和工业界的知名专家的带领下，我们期望本文将是一次互动且丰富的体验，包括智能体指导、案例研究、任务会议和实验讨论，确保为所有研究人员提供全面且引人入胜的学习体验。

本文旨在提供有关当前智能体人工智能领域研究的一般和全面的知识。为此，本文的其余部分组织如下。第 2 节概述了智能体人工智能如何通过与相关新兴技术（尤其是大型基础模型）集成而受益。第 3 节描述了我们为训练智能体人工智能提出的新范式和框架。第 4 节概述了智能体人工智能训练中广泛使用的方法。第 5 节对各种类型的智能体进行分类和讨论。第 6 节介绍了智能体人工智能在游戏、机器人和医疗保健中的应用。第 7 节探讨了研究界为开发一种通用的智能体人工智能所做的努力，该智能体人工智能能够应用于各种模态、领域，并弥合模拟到现实的差距。第 8 节讨论了智能体人工智能的潜力，它不仅依赖于预训练的基础模型，而且还通过利用与环境和用户的交互来不断学习和自我改进。第 9 节介绍了我们为训练多模态智能体人工智能而设计的新数据集。第 11 节讨论了人工智能智能体、局限性和我们论文的社会影响的伦理考量这一热门话题。

2 智能体人工智能集成

正如先前研究中提出的，基于大语言模型和视觉语言模型的基础模型在具身人工智能领域仍然表现出有限的性能，特别是在理解、生成、编辑以及在未见过的环境或场景中进行交互方面 Huang et al. (2023a); Zeng et al. (2023)。因此，这些限制导致人工智能智能体的输出不理想。当前以智能体为中心的人工智能建模方法侧重于直接可访问且明确定义的数据（例如，世界状态的文本或字符串表示），并且通常使用从其大规模预训练中学习到的与领域和环境无关的模式来预测每个环境的动作输出 Xi et al. (2023); Wang et al. (2023c); Gong et al. (2023a); Wu et al. (2023)。在 (Huang et al., 2023a) 中，我们研究了通过结合大型基础模型进行知识引导的协作和交互式场景生成的任务，并展示了有希望的结果，表明基于知识的大语言模型智能体可以提高二维和三维场景理解、生成和编辑的性能，以及其他人机交互 Huang et al. (2023a)。通过集成智能体人工智能框架，大型基础模型能够更深入地理解用户输入，从而形成复杂且自适应的人机交互系统。大语言模型和视觉语言模型的涌现能力在生成式人工智能、具身人工智能、多模态学习的知识增强、混合现实生成、文本到视觉编辑、游戏或机器人任务中二维/三维仿真的人机交互中发挥着看不见的作用。智能体人工智能在基础模型方面的最新进展为解锁具身智能体中的通用智能提供了迫在眉睫的催化剂。大型动作模型或智能体视觉语言模型为通用具身系统开辟了新的可能性，例如在复杂环境中进行规划、解决问题和学习。智能体人工智能在元宇宙中迈出了进一步的步伐，并为通用人工智能的早期版本指明了方向。

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 2: 用于跨现实中二维/三维具身生成和编辑交互的多模态智能体人工智能。

2.1 无限人工智能智能体

人工智能智能体有能力根据其训练和输入数据进行解释、预测和响应。虽然这些能力是先进的并且在不断改进，但重要的是要认识到它们的局限性以及它们所训练的底层数据的影响。人工智能智能体系统通常具有以下能力：1) 预测建模：人工智能智能体可以根据历史数据和趋势预测可能的结果或建议后续步骤。例如，他们可能会预测文本的延续、问题的答案、机器人的下一个动作或场景的解决方案。2) 决策制定：在某些应用中，人工智能智能体可以根据其推论做出决策。通常，智能体将根据最有可能实现指定目标的内容做出决策。对于推荐系统等人工智能应用，智能体可以根据其对用户偏好的推断来决定推荐哪些产品或内容。3) 处理歧义：人工智能智能体通常可以通过根据上下文和训练推断出最可能的解释来处理模糊的输入。但是，它们这样做的能力受到其训练数据和算法范围的限制。4) 持续改进：虽然一些人工智能智能体有能力从新数据和交互中学习，但许多大型语言模型在训练后不会持续更新其知识库或内部表示。它们的推论通常仅基于截至其上次训练更新时可用的数据。

我们在图 2 中展示了用于多模态和跨现实不可知集成的增强型交互式智能体，并具有涌现机制。人工智能智能体需要为每个新任务收集大量训练数据，这对于许多领域来说可能成本高昂或不可能。在本研究中，我们开发了一个无限智能体，该智能体学习将来自通用基础模型（例如，GPT-X、DALL-E）的内存信息转移到新的领域或场景，以便在物理或虚拟世界中进行场景理解、生成和交互式编辑。

这种无限智能体在机器人技术中的一个应用是 RoboGen Wang et al. (2023d)。在本研究中，作者提出了一个自主运行任务建议、环境生成和技能学习周期的管道。RoboGen 是一项将大型模型中嵌入的知识转移到机器人技术的努力。

2.2 具有大型基础模型的智能体人工智能

最近的研究表明，大型基础模型在创建充当基准的数据方面起着至关重要的作用，这些基准用于确定智能体在环境施加的约束内的动作。例如，将基础模型用于机器人操作 Black et al. (2023); Ko et al. (2023) 和导航 Shah et al. (2023a); Zhou et al. (2023a)。为了说明，Black et al. 采用图像编辑模型作为高级规划器来生成未来子目标的图像，从而指导低级策略 Black et al. (2023)。对于机器人导航，Shah et al. 提出了一个系统，该系统采用大语言模型从文本中识别地标，并采用视觉语言模型将这些地标与视觉输入相关联，从而通过自然语言指令增强导航 Shah et al. (2023a)。

人们对生成针对语言和环境因素的条件性人类运动的兴趣也日益浓厚。已经提出了几种人工智能系统来生成根据特定语言指令定制的运动和动作 Kim et al. (2023); Zhang et al. (2022); Tevet et al. (2022)，并适应各种三维场景 Wang et al. (2022a)。这项研究强调了生成模型在增强人工智能智能体在各种场景中的适应性和响应能力方面的日益增长的能力。

2.2.1 幻觉

生成文本的智能体通常容易产生幻觉，即生成的文本无意义或与提供的源内容不符的情况 Raunak et al. (2021); Maynez et al. (2020)。幻觉可以分为两类，内在幻觉和外在幻觉 Ji et al. (2023)。内在幻觉是与源材料相矛盾的幻觉，而外在幻觉是指生成的文本包含源材料中最初未包含的附加信息的情况。

减少语言生成中幻觉率的一些有希望的途径包括使用检索增强生成 Lewis et al. (2020); Shuster et al. (2021) 或其他通过外部知识检索来支持自然语言输出的方法 Dziri et al. (2021); Peng et al. (2023)。通常，这些方法旨在通过检索其他源材料并通过提供检查生成响应和源材料之间是否存在矛盾的机制来增强语言生成。

在多模态智能体系统的背景下，视觉语言模型也已被证明会产生幻觉 Zhou et al. (2023b)。基于视觉的语言生成产生幻觉的一个常见原因是过度依赖于训练数据中对象和视觉线索的共现 Rohrbach et al. (2018)。完全依赖于预训练的大语言模型或视觉语言模型并使用有限的环境特定微调的人工智能智能体可能特别容易出现幻觉，因为它们依赖于预训练模型的内部知识库来生成动作，并且可能无法准确理解它们所部署的世界状态的动态。

2.2.2 偏见与包容性

基于大语言模型（LLM）或大型多模态模型（LMM）的 AI 智能体，由于其设计和训练过程中固有的多种因素而存在偏见。在设计这些 AI 智能体时，我们必须注意包容性，并意识到所有终端用户和利益相关者的需求。在 AI 智能体的背景下，包容性 指的是为确保智能体的响应和交互具有包容性、尊重性，并对来自不同背景的广泛用户保持敏感而采取的措施和原则。我们将在下面列出智能体偏见和包容性的关键方面。

训练数据：基础模型是在从互联网上收集的大量文本数据上进行训练的，这些数据包括书籍、文章、网站和其他文本资源。这些数据通常反映了人类社会中存在的偏见，模型可能会在无意中学习并重现这些偏见。这包括与种族、性别、民族、宗教和其他个人属性相关的刻板印象、偏见和有偏见的观点。特别是，通过在互联网数据上进行训练，而且通常只使用英文文本进行训练，模型会隐式地学习西方、受过教育的、工业化的、富裕的和民主的（WEIRD）社会的文化规范 Henrich et al. ( 2010 )，这些社会在互联网上的存在比例过大。然而，必须认识到，由人类创建的数据集不可能完全没有偏见，因为它们经常反映社会偏见以及最初生成和/或编译数据的个人的偏见。
历史和文化偏见：AI 模型是在来自不同内容的大型数据集上训练的。因此，训练数据通常包括来自不同文化的历史文本或材料。特别是，来自历史来源的训练数据可能包含代表特定社会文化规范、态度和偏见的冒犯性或贬损性语言。这可能导致模型延续过时的刻板印象，或者不能完全理解当代的文化变迁和细微差别。
语言和语境限制：语言模型可能难以理解和准确表达语言中的细微差别，例如讽刺、幽默或文化典故。这可能导致在某些情况下出现误解或有偏见的反应。此外，口语的许多方面并没有被纯文本数据捕获，这导致人类对语言的理解与模型如何理解语言之间存在潜在的脱节。
政策和指南：AI 智能体在严格的政策和指南下运作，以确保公平性和包容性。例如，在生成图像时，有一些规则可以使人物的描绘多样化，避免与种族、性别和其他属性相关的刻板印象。
过度概括：这些模型倾向于根据训练数据中看到的模式生成响应。这可能导致过度概括，模型可能会产生似乎对某些群体进行刻板印象或做出广泛假设的响应。
持续监控和更新：AI 系统会持续监控和更新，以解决任何新出现的偏见或包容性问题。来自用户的反馈以及 AI 伦理方面的持续研究在此过程中起着至关重要的作用。
放大主流观点：由于训练数据通常包含更多来自主流文化或群体的内容，因此模型可能更偏向于这些观点，从而可能低估或歪曲少数群体的观点。
道德和包容性设计：AI 工具的设计应以道德考量和包容性作为核心原则。这包括尊重文化差异、促进多样性，并确保 AI 不会延续有害的刻板印象。
用户指南：还指导用户如何以促进包容性和尊重的方式与 AI 互动。这包括避免可能导致有偏见或不适当输出的请求。此外，它可以帮助减轻模型从用户互动中学习有害材料的情况。

尽管采取了这些措施，AI 智能体仍然存在偏见。智能体 AI 研究和开发的持续努力侧重于进一步减少这些偏见，并增强智能体 AI 系统的包容性和公平性。减轻偏见的努力：

多样化和包容性的训练数据：正在努力在训练数据中包含更多样化和包容性的来源。
偏见检测和纠正：正在进行的研究侧重于检测和纠正模型响应中的偏见。
道德指南和政策：模型通常受旨在减轻偏见并确保尊重和包容性互动的道德指南和政策的约束。
多样化的代表性：确保 AI 智能体生成的内容或提供的响应代表广泛的人类经验、文化、种族和身份。这在图像生成或叙事构建等场景中尤其相关。
偏见缓解：积极努力减少 AI 响应中的偏见。这包括与种族、性别、年龄、残疾、性取向和其他个人特征相关的偏见。目标是提供公平和平衡的响应，而不是延续刻板印象或偏见。
文化敏感性：AI 的设计具有文化敏感性，承认和尊重文化规范、实践和价值观的多样性。这包括理解并适当地响应文化参考和细微差别。
可访问性：确保 AI 智能体可供具有不同能力的用户访问，包括残疾人士。这可能涉及加入使有视觉、听觉、运动或认知障碍的人更容易互动的特性。
基于语言的包容性：为全球用户群提供对多种语言和方言的支持，并对语言内部的细微差别和变化保持敏感 Liu et al. ( 2023b )。
道德和尊重的互动：该智能体被编程为与所有用户进行道德和尊重的互动，避免可能被视为冒犯、有害或不尊重的回应。
用户反馈和适应：纳入用户反馈，以不断提高 AI 智能体的包容性和有效性。这包括从互动中学习，以更好地理解和服务于多样化的用户群。
遵守包容性指南：遵守 AI 智能体中既定的包容性指南和标准，这些指南和标准通常由行业团体、道德委员会或监管机构制定。

尽管做出了这些努力，但重要的是要意识到响应中存在偏见的可能性，并以批判性思维来解释它们。AI 智能体技术和伦理实践的持续改进旨在随着时间的推移减少这些偏见。智能体 AI 包容性的总体目标之一是创建一个对所有用户都尊重且易于访问的智能体，无论他们的背景或身份如何。

2.2.3 数据隐私和使用

AI 智能体的一个关键伦理考量涉及理解这些系统如何处理、存储和潜在检索用户数据。我们将在下面讨论关键方面：

数据收集、使用和目的。

当使用用户数据来提高模型性能时，模型开发人员可以访问 AI 智能体在生产中以及与用户互动时收集的数据。某些系统允许用户通过用户帐户或向服务提供商发出请求来查看他们的数据。重要的是要认识到 AI 智能体在这些互动过程中收集了哪些数据。这可能包括文本输入、用户使用模式、个人偏好，有时还包括更敏感的个人信息。用户还应该了解从他们的互动中收集的数据是如何使用的。如果由于某种原因，AI 持有关于特定个人或群体的错误信息，则应该有一种机制供用户在识别出该错误后帮助纠正它。这对于准确性以及尊重所有用户和群体都很重要。检索和分析用户数据的常见用途包括改进用户互动、个性化响应和系统优化。对于开发人员来说，确保数据不被用于用户未同意的目的（例如未经请求的营销）非常重要。

存储和安全。

开发人员应了解用户互动数据的存储位置，以及为保护其免受未经授权的访问或泄露而采取的安全措施。这包括加密、安全服务器和数据保护协议。确定智能体数据是否与第三方共享以及在何种条件下共享非常重要。这应该是透明的，通常需要用户同意。

数据删除和保留。

用户了解用户数据存储的时间以及用户如何请求删除其数据也很重要。许多数据保护法赋予用户被遗忘的权利，这意味着他们可以要求删除其数据。AI 智能体必须遵守欧盟的 GDPR 或加利福尼亚州的 CCPA 等数据保护法律。这些法律管理数据处理实践以及用户对其个人数据的权利。

数据可移植性和隐私政策。

此外，开发人员必须创建 AI 智能体的隐私政策，以记录并向用户解释如何处理他们的数据。这应详细说明数据收集、使用、存储和用户权利。开发人员应确保他们获得用户对数据收集的同意，尤其是对于敏感信息。用户通常可以选择退出或限制他们提供的数据。在某些司法管辖区，用户甚至可能有权以可以转移到其他服务提供商的格式请求其数据的副本。

匿名化。

对于在更广泛的分析或 AI 训练中使用的数据，理想情况下应将其匿名化以保护个人身份。开发人员必须了解他们的 AI 智能体在交互期间如何检索和使用历史用户数据。这可能是为了个性化或提高响应的相关性。

总而言之，了解 AI 智能体的数据隐私包括了解如何收集、使用、存储和保护用户数据，并确保用户了解他们关于访问、更正和删除其数据的权利。了解用户和 AI 智能体的数据检索机制对于全面了解数据隐私也至关重要。

2.2.4 可解释性和可说明性

模仿学习 → 解耦

智能体通常使用强化学习(RL)或模仿学习(IL)中的连续反馈循环进行训练，从随机初始化的策略开始。然而，这种方法在不熟悉的环境中获得初始奖励方面面临瓶颈，尤其是在奖励稀疏或仅在长步骤交互结束时才可用的情况下。因此，一个更优的解决方案是使用通过模仿学习训练的无限记忆智能体，它可以从专家数据中学习策略，从而改善对未见环境空间的探索和利用，以及新兴的基础设施，如图 3 所示。凭借专家特征来帮助智能体更好地探索和利用未见的环境空间。智能体 AI 可以直接从专家数据中学习策略和新的范式流程。

传统的模仿学习让智能体模仿专家演示者的行为来学习策略。然而，直接学习专家策略可能并不总是最好的方法，因为智能体可能无法很好地泛化到未见的情况。为了解决这个问题，我们提出学习一个带有上下文提示或隐式奖励函数的智能体，该函数捕获专家行为的关键方面，如图 3 所示。这为无限记忆智能体配备了从专家演示中学习到的用于任务执行的物理世界行为数据。它有助于克服现有模仿学习的缺点，例如需要大量的专家数据以及复杂任务中潜在的错误。智能体 AI 背后的关键思想有两个部分：1) 无限智能体，它收集物理世界的专家演示作为状态-动作对；2) 模仿智能体生成器的虚拟环境。模仿智能体产生模仿专家行为的动作，而智能体通过减少专家动作和学习策略生成的动作之间的差异的损失函数来学习从状态到动作的策略映射。

解耦 → 泛化

智能体不是依赖于特定于任务的奖励函数，而是从专家演示中学习，这些演示提供了一组涵盖各种任务方面的多样化的状态-动作对。然后，智能体通过模仿专家的行为来学习将状态映射到动作的策略。模仿学习中的解耦是指将学习过程与特定于任务的奖励函数分离，从而允许策略在不同的任务中泛化，而无需明确依赖于特定于任务的奖励函数。通过解耦，智能体可以从专家演示中学习，并学习一种可以适应各种情况的策略。解耦使迁移学习成为可能，其中在一个领域学习的策略可以通过最少的微调来适应其他领域。通过学习不与特定奖励函数绑定的通用策略，智能体可以利用它在一个任务中获得的知识在其他相关任务中表现良好。由于智能体不依赖于特定的奖励函数，它可以适应奖励函数或环境的变化，而无需进行大量的重新训练。这使得学习到的策略在不同的环境中更加稳健和通用。在这种情况下，解耦是指学习过程中两个任务的分离：学习奖励函数和学习最优策略。

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 3: 使用智能体从候选文本中识别与图像相关的文本的新兴交互机制示例。该任务涉及使用来自网络的多模态 AI 智能体和人工标注的知识交互样本来整合外部世界信息。

泛化 → 涌现行为

泛化解释了涌现的属性或行为如何从更简单的组件或规则中产生。其关键思想在于识别控制系统行为的基本要素或规则，例如单个神经元或基本算法。因此，通过观察这些简单组件或规则如何相互作用。这些组件的相互作用通常会导致复杂行为的出现，而仅通过检查单个组件是无法预测的。跨不同复杂程度的泛化允许系统学习适用于这些层面的通用原则，从而导致涌现属性。这使系统能够适应新的情况，展示了从更简单的规则中涌现出更复杂的行为。此外，跨不同复杂程度进行泛化的能力有助于知识从一个领域转移到另一个领域，这有助于在系统适应时在新环境中涌现复杂行为。

2.2.5 推理增强

AI 智能体的推理能力在于其基于训练和输入数据进行解释、预测和响应的能力。虽然这些能力是先进的并且在不断改进，但重要的是要认识到它们的局限性以及它们所训练的底层数据的影响。特别是在大语言模型(LLM)的背景下，它指的是其根据其训练的数据和接收到的输入得出结论、进行预测和生成响应的能力。AI 智能体中的推理增强是指使用额外的工具、技术或数据来增强 AI 的自然推理能力，以提高其性能、准确性和实用性。这在复杂的决策场景中或在处理细致入微或专业的内容时尤其重要。我们将在下面列出特别重要的推理增强来源：

数据丰富。

加入额外的（通常是外部的）数据源以提供更多上下文或背景，可以帮助 AI 智能体做出更明智的推理，尤其是在其训练数据可能有限的领域。例如，AI 智能体可以从对话或文本的上下文中推断含义。它们分析给定的信息，并使用它来理解用户查询的意图和相关细节。这些模型擅长识别数据中的模式。它们利用这种能力根据在训练期间学习的模式来推断关于语言、用户行为或其他相关现象的信息。

算法增强。

改进 AI 的底层算法以进行更好的推理。这可能涉及使用更高级的机器学习模型，整合不同类型的 AI（如将自然语言处理(NLP)与图像识别相结合），或更新算法以更好地处理复杂的任务。语言模型中的推理涉及理解和生成人类语言。这包括掌握语气、意图和不同语言结构的细微差别。

人在回路中(HITL)。

在人类判断至关重要的领域（如伦理考量、创造性任务或模棱两可的场景）中，让人类参与以增强 AI 的推理可能特别有用。人类可以提供指导、纠正错误或提供智能体无法自行推断的见解。

实时反馈集成。

使用来自用户或环境的实时反馈来增强推理是提高推理期间性能的另一种有前景的方法。例如，AI 可能会根据实时用户响应或动态系统中的变化条件来调整其建议。或者，如果智能体在模拟环境中采取违反某些规则的行动，则可以动态地向智能体提供反馈以帮助其纠正自身。

跨领域知识转移。

利用来自一个领域的知识或模型来改进另一个领域的推理，在专业学科中生成输出时特别有用。例如，为语言翻译开发的技术可能应用于代码生成，或者来自医疗诊断的见解可以增强机械中的预测性维护。

针对特定用例的定制。

为特定应用或行业定制 AI 的推理能力可能涉及在专门的数据集上训练 AI 或微调其模型，以更好地适应特定任务，例如法律分析、医疗诊断或财务预测。由于一个领域内的特定语言或信息可能与来自其他领域的语言形成鲜明对比，因此在特定领域的知识上微调智能体可能是有益的。

伦理和偏见考量。

确保增强过程不会引入新的偏见或伦理问题非常重要。这涉及仔细考虑额外数据的来源或新的推理增强算法对公平性和透明度的影响。在进行推理时，尤其是在关于敏感主题的推理时，AI 智能体有时必须应对伦理考量。这包括避免有害的刻板印象、尊重隐私和确保公平性。

持续学习和适应。

定期更新和完善 AI 的能力，以跟上新的发展、变化的数据格局和不断变化的用户需求。

总而言之，AI 智能体中的推理增强涉及通过额外的数据、改进的算法、人工输入和其他技术来增强其自然推理能力的方法。根据用例，这种增强对于处理复杂的任务并确保智能体输出的准确性通常至关重要。

2.2.6 监管

最近，智能体 AI 取得了显著的进步，并且其与具身系统的集成为通过更具沉浸感、动态感和吸引力的体验与智能体进行交互开辟了新的可能性。为了加快这一进程并减轻智能体 AI 开发中的繁琐工作，我们建议开发下一代 AI 赋能的智能体交互管道。开发一个人机协作系统，使人类和机器能够进行有意义的沟通和互动。该系统可以利用大语言模型(LLM)或视觉语言模型(VLM)的对话能力和广泛的动作来与人类玩家交谈并识别人类的需求。然后，它将根据要求执行适当的动作来帮助人类玩家。

当使用大语言模型(LLM)/视觉语言模型(VLM)进行人机协作系统时，必须注意，这些模型作为黑盒子运行，会产生不可预测的输出。这种不确定性在物理设置中（例如操作实际的机器人）可能变得至关重要。解决此挑战的一种方法是通过提示工程来限制大语言模型(LLM)/视觉语言模型(VLM)的焦点。例如，在根据指令进行机器人任务规划时，据报道，在提示中提供环境信息比仅依赖文本 Gramopadhye 和 Szafir (2022) 产生更稳定的输出。该报告得到了明斯基的 AI 框架理论 Minsky (1975) 的支持，该理论表明，大语言模型(LLM)/视觉语言模型(VLM)要解决的问题空间由给定的提示定义。另一种方法是设计提示，使大语言模型(LLM)/视觉语言模型(VLM)包含解释性文本，以使用户能够理解模型关注或识别的内容。此外，实现更高层，允许在人工指导下进行预执行验证和修改，可以促进在此类指导下工作的系统的运行（图 4）。

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 4: 在 Wake 等人 (2023c) 中开发的机器人教学系统。（左）系统工作流程。该过程包括三个步骤：任务规划，其中 ChatGPT 根据指令和环境信息规划机器人任务；演示，用户以可视化方式演示动作序列。所有步骤都由用户审核，如果任何步骤失败或显示缺陷，可以根据需要重新访问之前的步骤。（右）一个 Web 应用程序，允许上传演示数据以及用户和 ChatGPT 之间的交互。

2.3 用于涌现能力的智能体 AI

尽管交互式智能体 AI 系统的采用越来越多，但大多数提出的方法在未见环境或场景中的泛化性能方面仍然面临挑战。当前的建模实践要求开发人员为每个领域准备大型数据集，以微调/预训练模型；然而，如果该领域是新的，则此过程成本高昂甚至不可能。为了解决这个问题，我们构建了利用通用基础模型（ChatGPT、Dall-E、GPT-4 等）的知识记忆来处理新场景的交互式智能体，特别是为了在人和智能体之间生成协作空间。我们发现了一种涌现机制——我们称之为具有知识推理交互的混合现实——它有助于与人类协作，以解决复杂现实环境中的挑战性任务，并能够探索未见的环境以适应虚拟现实。对于这种机制，智能体学习 i) 跨模态的微反应：从显式网络来源收集每个交互任务的相关个体知识（例如，理解未见的场景），并通过从预训练模型的输出中隐式推断；ii) 在与现实无关的宏观行为：改进语言和多模态领域的交互维度和模式，并根据表征的角色、某些目标变量、混合现实和大语言模型(LLM)中协作信息的影响多样化进行更改。我们研究了知识引导的交互协同效应的任务，以便与各种 OpenAI 模型协作进行场景生成，并展示了交互式智能体系统如何在我们的设置中进一步提升大型基础模型的有希望的结果。它整合并提高了复杂自适应 AI 系统的泛化深度、意识和可解释性。

3 智能体 AI 范式

在本节中，我们将讨论一种用于训练智能体 AI 的新范式和框架。我们希望通过提出的框架实现以下几个目标：

•
利用现有的预训练模型和预训练策略，有效地引导我们的智能体理解重要的模态，例如文本或视觉输入。
•
支持足够的长期任务规划能力。
•
引入一个记忆框架，允许将学习到的知识编码并在以后检索。
•
允许使用环境反馈来有效地训练智能体学习采取哪些行动。

我们在图 5 中展示了一个高级的新智能体图，概述了这种系统的重要子模块。

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 5: 我们提出的用于多模态通用智能体的新智能体范式。如图所示，有 5 个主要模块：1) 环境和感知，包括任务规划和技能观察；2) 智能体学习；3) 记忆；4) 智能体行动；5) 认知。

3.1 大语言模型和视觉语言模型

我们可以使用大语言模型（LLM）或视觉语言模型（VLM）来引导智能体的组件，如图 5 所示。特别是，大语言模型已被证明在任务规划方面表现良好 Gong 等人 (2023a)，包含大量的世界知识 Yu 等人 (2023b)，并展现出令人印象深刻的逻辑推理能力 Creswell 等人 (2022)。此外，像 CLIP Radford 等人 (2021) 这样的视觉语言模型提供了一个与语言对齐的通用视觉编码器，以及提供零样本视觉识别能力。例如，最先进的开源多模态模型，如 LLaVA Liu 等人 (2023c) 和 InstructBLIP Dai 等人 (2023) 依赖于冻结的 CLIP 模型作为视觉编码器。

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 6: 我们展示了通过将大语言模型（LLM）与大型视觉模型（LVM）相结合来创建多模态 AI 智能体的当前范式。一般来说，这些模型接受视觉或语言输入，并使用预训练和冻结的视觉和语言模型，学习连接和桥接模态的较小的子网络。例如 Flamingo Alayrac 等人 (2022), BLIP-2 Li 等人 (2023c), InstructBLIP Dai 等人 (2023), 和 LLaVA Liu 等人 (2023c)。

3.2 智能体 Transformer 定义

除了使用冻结的大语言模型和视觉语言模型作为 AI 智能体之外，还可以使用一个单一的智能体 Transformer 模型，该模型将视觉 Token 和语言 Token 作为输入，类似于 Gato Reed 等人 (2022)。除了视觉和语言，我们还添加了第三种通用类型的输入，我们将其表示为智能体 Token。从概念上讲，智能体 Token 用于为模型的输入和输出空间的智能体行为保留一个特定的子空间。对于机器人或游戏，这可以表示为控制器的输入动作空间。当训练智能体使用特定的工具时，例如图像生成或图像编辑模型，或用于其他 API 调用时，也可以使用智能体 Token。如图 7 所示，我们可以将智能体 Token 与视觉和语言 Token 结合起来，为训练多模态智能体 AI 生成统一的接口。与使用大型专有大语言模型作为智能体相比，使用智能体 Transformer 有几个优点。首先，该模型可以很容易地定制到非常特定的智能体任务，这些任务可能很难用自然语言表示（例如，控制器输入或其他特定动作）。因此，智能体可以从环境交互和特定领域的数据中学习以提高性能。其次，通过访问智能体 Token 的概率，可以更容易地理解模型为什么采取或不采取特定行动。第三，某些领域（如医疗保健和法律）具有严格的数据隐私要求。最后，一个相对较小的智能体 Transformer 可能比一个较大的专有语言模型便宜得多。

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 7: 统一的智能体多模态 Transformer 模型。我们没有连接冻结的子模块并使用现有的基础模型作为构建块，而是提出了一种用于智能体系统的统一的端到端训练范式。我们仍然可以使用图 6 中的大语言模型和大型视觉模型初始化子模块，但也可以使用智能体 Token，这是用于训练模型在特定领域（例如，机器人）中执行智能体行为的专用 Token。有关智能体 Token 的更多详细信息，请参见第 3.2 节。

3.3 智能体 Transformer 的创建

如上图 5 所示，我们可以将新的智能体范式与大语言模型和视觉语言模型引导的智能体一起使用，并利用大型基础模型生成的数据来训练智能体 Transformer 模型，以学习执行特定目标。在此过程中，智能体模型经过训练，可以专门针对特定任务和领域进行定制。这种方法允许您利用预先存在的基础模型所学习到的特征和知识。我们在下面以两个步骤显示该过程的简化概述：

在领域内定义目标。

为了训练智能体 Transformer，需要明确定义每个特定环境下智能体的目标和动作空间。这包括确定智能体需要执行哪些特定任务或操作，并为每个任务或操作分配唯一的智能体 Token。此外，任何可用于识别任务成功完成的自动规则或程序都可以显著提高可用于训练的数据量。否则，将需要基础模型生成的数据或人工注释的数据来训练模型。收集数据并可以评估智能体的性能后，就可以开始持续改进的过程。

持续改进。

持续监控模型的性能和收集反馈是该过程中的基本步骤。反馈应用于进一步微调和更新。同样至关重要的是要确保模型不会使偏见或不道德的结果永久化。这需要仔细检查训练数据，定期检查输出中的偏差，并且如果需要，训练模型以识别和避免偏差。一旦模型达到令人满意的性能，就可以将其部署到预期的应用程序中。持续监控仍然至关重要，以确保模型按预期执行并促进必要的调整。有关此过程、训练数据来源以及有关智能体 AI 持续学习的更多详细信息，请参见第 8 节。

4 智能体 AI 学习

4.1 策略和机制

在不同领域进行交互式 AI 的策略扩展了使用训练有素的智能体主动寻求收集用户反馈、行动信息、用于生成和交互的有用知识来调用大型基础模型的范式。有时，无需再次训练大语言模型/视觉语言模型，我们通过在测试时为智能体提供改进的上下文提示来提高它们的性能。另一方面，它始终涉及通过三元系统的组合进行知识/推理/常识/推理交互建模 - 一个系统从多模型查询中执行知识检索，第二个系统从相关智能体执行交互生成，最后一个系统通过改进的方式训练新的、信息丰富的自我监督训练或预训练，包括强化学习或模仿学习。

4.1.1 强化学习（RL）

利用强化学习（RL）训练表现出智能行为的交互式智能体有着悠久的历史。强化学习是一种基于其行动所获得的奖励（或惩罚）来学习状态和行动之间最佳关系的方法。强化学习是一个高度可扩展的框架，已应用于包括机器人技术在内的众多应用，但是，它通常面临几个排行榜问题，并且大语言模型/视觉语言模型已显示出其减轻或克服其中一些困难的潜力：

奖励设计策略学习的效率很大程度上取决于奖励函数的设计。设计奖励函数不仅需要了解强化学习算法，还需要深入了解任务的性质，因此通常需要根据专家经验来设计函数。一些研究探索了使用大语言模型/视觉语言模型设计奖励函数 Yu 等人 (2023a); Katara 等人 (2023); Ma 等人 (2023)。
数据收集和效率 鉴于其探索性质，基于强化学习的策略学习需要大量数据 Padalkar 等人 (2023)。当策略涉及管理长序列或集成复杂操作时，对大量数据的需求变得尤为明显。这是因为这些场景需要更细致的决策，并从更广泛的情况中学习。在最近的研究中，人们致力于增强数据生成以支持策略学习 Kumar 等人 (2023); Du 等人 (2023)。此外，在某些研究中，这些模型已集成到奖励函数中，以改进策略学习 Sontakke 等人 (2023)。与这些发展并行的是，另一项研究侧重于使用视觉语言模型 Tang 等人 (2023); Li 等人 (2023d) 和大语言模型 Shi 等人 (2023) 在学习过程中实现参数效率。
长时程步骤 关于数据效率问题，随着行动序列长度的增加，强化学习变得更具挑战性。这是由于行动和奖励之间的关系不明确（称为信用分配问题），以及需要探索的状态数量增加，需要大量的时间和数据。对于长而复杂的任务，一种典型的方法是将它们分解为一系列子目标，并应用预训练的策略来解决每个子目标（例如，Takamatsu 等人 (2022)）。这个想法属于任务和运动规划（TAMP）框架 Garrett 等人 (2021)。任务和运动规划由两个主要组成部分组成：任务规划，它需要识别高级操作序列，以及运动规划，它需要找到物理上一致、无碰撞的轨迹来实现任务计划的目标。大语言模型非常适合任务和运动规划，最近的研究通常采用这样一种方法，即使用大语言模型执行高级任务规划，而低级控制则通过基于强化学习的策略来解决 Xu 等人 (2023); Sun 等人 (2023a); Li 等人 (2023b); Parakh 等人 (2023)。大语言模型的高级功能使它们能够有效地将抽象指令分解为子目标 Wake 等人 (2023c)，从而有助于增强机器人系统中的语言理解能力。

4.1.2 模仿学习（IL）

虽然强化学习旨在基于探索行为并最大化与环境交互的奖励来训练策略，但模仿学习（IL）旨在利用专家数据来模仿经验丰富的智能体或专家的行为。例如，在机器人技术中，基于模仿学习的主要框架之一是行为克隆（BC）。行为克隆是一种通过直接复制来训练机器人模仿专家行动的方法。在这种方法中，记录专家在执行特定任务中的行动，并训练机器人在类似情况下复制这些行动。最近的基于行为克隆的方法通常结合了大语言模型/视觉语言模型的技术，从而实现了更高级的端到端模型。例如，Brohan 等人提出了 RT-1 Brohan 等人 (2022) 和 RT-2 Brohan 等人 (2023)，基于 Transformer 的模型，它们以一系列图像和语言作为输入，输出基座和手臂的动作序列。据报道，这些模型由于在大量训练数据上进行训练而显示出很高的泛化性能。

4.1.3 传统 RGB

多年来，利用图像输入学习智能体行为一直备受关注 Mnih 等人 (2015)。使用 RGB 输入的固有挑战是维度灾难。为了解决这个问题，研究人员要么使用更多数据 Jang 等人 (2022); Ha 等人 (2023)，要么在模型设计中引入归纳偏差以提高样本效率。特别是，作者将 3D 结构整合到用于操作的模型架构中 Zeng 等人 (2021); Shridhar 等人 (2023); Goyal 等人 (2023); James 和 Davison (2022)。对于机器人导航，作者 Chaplot 等人 (2020a, b) 利用地图作为表示。地图可以通过神经网络聚合所有先前的 RGB 输入来学习，也可以通过 3D 重建方法（如神经辐射场）来学习 Rosinol 等人 (2022)。

为了获得更多数据，研究人员使用图形模拟器合成合成数据 Mu 等人 (2021); Gong 等人 (2023b)，并尝试缩小 sim2real 差距 Tobin 等人 (2017); Sadeghi 和 Levine (2016); Peng 等人 (2018)。最近，人们共同努力策划大规模数据集，旨在解决数据稀缺问题 Padalkar 等人 (2023); Brohan 等人 (2023)。另一方面，为了提高样本复杂性，人们也广泛研究了数据增强技术 Zeng 等人 (2021); Rao 等人 (2020); Haarnoja 等人 (2023); Lifshitz 等人 (2023)。

4.1.4 上下文学习

上下文学习被证明是使用像 GPT-3 Brown 等人 (2020); Min 等人 (2022) 这样的大语言模型解决自然语言处理任务的有效方法。通过在大语言模型提示的上下文中提供任务示例，可以看到少样本提示是使模型输出在自然语言处理的各种任务中上下文化的一种有效方法。示例的多样性和上下文中展示的示例的质量等因素可能会提高模型输出的质量 An 等人 (2023); Dong 等人 (2022)。在多模态基础模型的上下文中，当仅给出少量示例时，像 Flamingo 和 BLIP-2 Alayrac 等人 (2022); Li 等人 (2023c) 这样的模型已被证明在各种视觉理解任务中有效。当采取某些行动时，通过整合特定于环境的反馈，可以进一步改进环境中智能体的上下文学习 Gong 等人 (2023a)。

4.1.5 智能体系统中的优化

智能体系统的优化可以分为空间和时间两个方面。空间优化考虑智能体如何在物理空间内运行以执行任务。这包括机器人之间的协调、资源分配和保持有组织的空间。

为了有效地优化智能体 AI 系统，特别是大量智能体并行运行的系统，以前的工作侧重于使用大批量强化学习 Shacklett 等人 (2023)。由于特定任务的多智能体交互数据集很少，因此自我博弈强化学习使智能体团队能够随着时间的推移而改进。然而，这也可能导致非常脆弱的智能体，它们只能在自我博弈下工作，而不能与人类或其他独立的智能体一起工作，因为它们过度拟合自我博弈训练范式。为了解决这个问题，我们可以改为发现一组不同的约定 Cui 等人 (2023); Sarkar 等人 (2023)，并训练一个了解各种约定的智能体。基础模型可以进一步帮助与人类或其他独立的智能体建立约定，从而实现与新智能体的顺利协调。

另一方面，时间优化侧重于智能体如何随着时间的推移执行任务。这包括任务调度、排序和时间线效率。例如，优化机器人手臂的轨迹是有效优化连续任务之间移动的一个示例 Zhou 等人 (2023c)。在任务调度级别，已经提出了像 LLM-DP Dagan 等人 (2023) 和 ReAct Yao 等人 (2023a) 这样的方法，通过交互式地整合环境因素来解决有效的任务规划。

4.2 Agent 系统（零样本和少样本级别）

4.2.1 Agent 模块

我们对 Agent 范式的初步探索涉及使用大语言模型（LLM）或视觉语言模型（VLM）开发用于交互式多模态 Agent 的 Agent AI “模块”。我们最初的 Agent 模块有助于训练或上下文学习，并采用极简设计，目的是展示 Agent 有效调度和协调的能力。我们还探索了最初的基于提示的记忆技术，这些技术有助于更好地规划，并为该领域未来的行动方法提供信息。为了说明这一点，我们的“MindAgent”基础设施包含 5 个主要模块：1）具有任务规划的环境感知，2）Agent 学习，3）记忆，4）通用 Agent 动作预测和 5）认知，如图 5所示。

4.2.2 Agent 基础设施

基于 Agent 的 AI 是娱乐、研究和工业领域中一个庞大且快速发展的社区。大型基础模型的发展显着提高了 Agent AI 系统的性能。然而，以这种方式创建 Agent 受限于创建高质量数据集所需的日益增加的工作量和总体成本。在 Microsoft，通过使用先进的硬件、多样化的数据源和强大的软件库，构建高质量的 Agent 基础设施对多模态 Agent 副驾驶产生了重大影响。随着 Microsoft 不断推进 Agent 技术的边界，AI Agent 平台有望在未来几年内继续成为多模态智能领域的主导力量。尽管如此，Agent AI 交互目前仍然是一个复杂的过程，需要多种技能的结合。最近在大型生成式 AI 模型领域取得的进展，有可能大大降低目前交互式内容所需的高成本和时间，无论是对于大型工作室，还是为较小的独立内容创作者提供设计超出他们目前能力的高质量体验的能力。多模态 Agent 内部当前的人机交互系统主要基于规则。它们确实具有响应人类/用户操作的智能行为，并在某种程度上拥有网络知识。然而，这些交互通常会受到软件开发成本的限制，从而无法在系统中实现特定的行为。此外，当前的模型并非旨在帮助用户在无法完成特定任务的情况下实现目标。因此，需要一个 Agent AI 系统基础设施来分析用户的行为并在需要时提供适当的支持。

4.3 Agent 式基础模型（预训练和微调级别）

预训练基础模型的使用在各种用例中的广泛适用性方面提供了显着的优势。这些模型的集成使得能够为各种应用开发定制的解决方案，从而避免了为每个特定任务准备大量标记数据集的需求。

导航领域的一个显着例子是 LM-Nav 系统 Shah et al. (2023a)，该系统在新方法中结合了 GPT-3 和 CLIP。它有效地利用了由语言模型生成的文本地标，将它们锚定在机器人获取的图像中进行导航。这种方法展示了文本和视觉数据的无缝融合，显着增强了机器人导航的能力，同时保持了广泛的适用性。

在机器人操作中，一些研究提出了使用现成的 LLM（例如，ChatGPT），同时使用开放词汇对象检测器。LLM 和高级对象检测器（例如，Detic Zhou et al. (2022)）的结合有助于理解人类的指令，同时将文本信息置于场景信息中 Parakh et al. (2023)。此外，最新的进展展示了将提示工程与先进的多模态模型（例如 GPT-4V(ision) Wake et al. (2023b)）结合使用的潜力。这种技术为多模态任务规划开辟了道路，突出了预训练模型在各种环境中的多功能性和适应性。

5 Agent AI 分类

5.1 通用 Agent 领域

基于计算机的动作和通用 Agent (GA) 对于许多任务都很有用。大型基础模型和交互式 AI 领域的最新进展为 GA 启用了新的功能。然而，为了使 GA 对其用户真正有价值，它必须易于交互，并能推广到广泛的环境和模态。我们在第 6 节中高质量地扩展了关于 Agent 基础 AI 的主要章节，特别是在与这些主题总体相关的领域中：

多模态 Agent AI (MMA) 是一个即将到来的论坛^1^^1^当前 URL: https://multimodalagentai.github.io/，供我们的研究和行业社区彼此互动，并与更广泛的 Agent AI 研究和技术社区互动。大型基础模型和交互式 AI 领域的最新进展为通用 Agent (GA) 启用了新的功能，例如在受限环境中预测用户行为和任务规划（例如，MindAgent Gong et al. (2023a)，细粒度多模态视频理解 Luo et al. (2022)，机器人技术 Ahn et al. (2022b)；Brohan et al. (2023)），或为用户提供包含知识反馈的聊天伴侣（例如，医疗保健系统的网站客户支持 Peng et al. (2023)）。有关代表性工作和最新代表性工作的更多详细信息如下所示。我们希望讨论我们对 MAA 未来的愿景，并激励未来的研究人员在该领域工作。本文和我们的论坛涵盖以下主要主题，但不限于这些主题：

主要主题： 多模态 Agent AI，通用 Agent AI
次要主题： 具身 Agent、动作 Agent、基于语言的 Agent、视觉和语言 Agent、知识和推理 Agent、用于游戏、机器人技术、医疗保健等的 Agent。
扩展主题： 视觉导航、模拟环境、重排、Agent 式基础模型、VR/AR/MR、具身视觉和语言。

接下来，我们列出以下代表性的 Agent 类别：

5.2 具身 Agent

我们的生物大脑存在于身体中，我们的身体在不断变化的世界中移动。具身人工智能的目标是创建 Agent，例如机器人，学习创造性地解决需要与环境交互的挑战性任务。虽然这是一个巨大的挑战，但深度学习的重大进步和 ImageNet 等大型数据集的日益普及，使得在以前被认为难以处理的各种 AI 任务上实现了超人的性能。计算机视觉、语音识别和自然语言处理在语言翻译和图像分类等被动输入输出任务中经历了变革性的革命，而强化学习在游戏等交互式任务中也取得了世界一流的性能。这些进步为具身 AI 提供了强大的动力，使得越来越多的用户能够快速朝着可以与机器交互的智能 Agent 迈进。

5.2.1 动作 Agent

动作 Agent 是指需要在模拟物理环境或现实世界中执行物理动作的 Agent。特别是，它们需要积极参与与环境的活动。我们根据其应用领域将动作 Agent 大致分为两种不同的类别：游戏 AI 和机器人技术。

在游戏 AI 中，Agent 将与游戏环境和其他独立实体进行交互。在这些设置中，自然语言可以实现 Agent 和人类之间的顺畅沟通。根据游戏的不同，可能有一项特定的任务要完成，从而提供真正的奖励信号。例如，在竞争性外交游戏中，使用人类对话数据和带有强化学习的动作策略训练语言模型，可以实现人类水平的博弈 Meta Fundamental AI Research Diplomacy Team et al.(2022)Meta Fundamental AI Research (FAIR) Diplomacy Team, Bakhtin, Brown, Dinan, Farina, Flaherty, Fried, Goff, Gray, Hu, et al. (FAIR)。

在某些情况下，Agent 会像城镇中的普通居民一样行动 Park et al. (2023a)，而不会试图优化特定目标。基础模型在这些设置中很有用，因为它们可以通过模仿人类行为来模拟看起来更自然的交互。当使用外部记忆增强时，它们会产生令人信服的 Agent，可以进行对话、安排日常活动、建立关系并拥有虚拟生活。

5.2.2 交互式 Agent

交互式 Agent 简单地指可以与世界交互的 Agent，这是一类比动作 Agent 更广泛的 Agent。它们的交互形式不一定需要物理动作，但可能涉及向用户传达信息或修改环境。例如，具身的交互式 Agent 可以通过对话回答用户关于某个主题的问题，或者帮助用户解析现有信息，类似于聊天机器人。通过将 Agent 的能力扩展到包括信息共享，Agent AI 的核心设计和算法可以有效地适应一系列应用，例如诊断 Lee et al. (2023) 和知识检索 Agent Peng et al. (2023)。

5.3 模拟和环境 Agent

AI Agent 学习如何在环境中行动的有效方法是通过与环境交互的反复试验的经验。一种代表性的方法是强化学习（RL），它需要大量的失败经验来训练 Agent。虽然存在使用物理 Agent 的方法 Kalashnikov et al. (2018)，但使用物理 Agent 既耗时又昂贵。此外，当实际环境中的失败可能很危险时（例如，自动驾驶、水下车辆），在物理环境中进行训练通常是不可行的。因此，使用模拟器来学习策略是一种常见的方法。

已经提出了许多用于具身 AI 研究的模拟平台，范围从导航 Tsoi et al. (2022)；Deitke et al. (2020)；Kolve et al. (2017) 到物体操作 Wang et al. (2023d)；Mees et al. (2022)；Yang et al. (2023a)；Ehsani et al. (2021)。一个例子是 Habitat Savva et al. (2019)；Szot et al. (2021)，它提供了一个 3D 室内环境，人类和机器人 Agent 可以在其中执行各种任务，例如导航、指令遵循和问题回答。另一个具有代表性的模拟平台是 VirtualHome Puig et al. (2018)，它支持人类化身在 3D 室内环境中进行物体操作。在游戏领域，Carroll et al. 推出了“Overcooked-AI”，这是一个旨在研究人类和 AI 之间合作任务的基准环境 Carroll et al. (2019)。与此类似，一些工作旨在将真实的人工干预纳入 Agent 与环境之间交互的重点之外 Puig et al. (2023)；Li et al. (2021a)；Srivastava et al. (2022)。这些模拟器有助于在涉及 Agent 和机器人交互的实际环境中学习策略，以及利用人类演示动作进行基于 IL 的策略学习。

在某些情况下，学习策略的过程可能需要在模拟器中集成专门的功能。例如，在学习基于图像的策略时，通常需要逼真的渲染来促进对真实环境的适应性 Mittal et al. (2023)；Zhong et al. (2023)。使用逼真的渲染引擎对于生成反映各种条件（例如照明环境）的图像是有效的。此外，需要采用物理引擎的模拟器来模拟与物体的物理交互 Liu and Negrut (2021)。模拟中物理引擎的集成已被证明有助于获取适用于现实场景的技能 Saito et al. (2023)。

5.4 生成式 Agent

最近在大型生成式 AI 模型领域取得的进展，有可能大大降低目前交互式内容所需的高成本和时间，无论是对于大型游戏工作室，还是为较小的独立工作室提供创建超出他们目前能力的高质量体验的能力。此外，将大型 AI 模型嵌入沙盒环境中，将允许用户编写自己的体验，并以目前无法实现的方式表达他们的创造力。

此 Agent 的目标不仅仅是将交互式 3D 内容添加到场景中，还包括：

向对象添加任意行为和交互规则，允许用户通过最少的提示创建自己的 VR 规则。
通过使用多模态 GPT4-v 模型，以及其他涉及视觉 AI 模型的模型链，从纸上的草图生成整个关卡几何图形。
使用扩散模型对场景中的内容进行重新纹理化
通过简单的用户提示创建自定义着色器和视觉特效

一个潜在的短期应用是 VR 创建故事板/原型工具，允许单个用户以比目前可行的方式快一个数量级的速度创建一个体验/游戏的粗略（但功能齐全）的草图。然后，可以使用这些工具扩展和改进这样一个原型。

5.4.1 AR/VR/混合现实 Agent

AR/VR/混合现实（统称为 XR）设置目前需要熟练的艺术家和动画师来创建角色、环境和对象，以便在虚拟世界中模拟交互。这是一个成本高昂的过程，涉及概念艺术、3D 建模、纹理处理、绑定和动画。XR Agent 可以通过促进创作者之间的交互和构建帮助构建最终虚拟环境的工具来协助此过程。

我们早期的实验已经表明，GPT 模型可以在 Unity 引擎中的少样本机制中使用（无需任何额外的微调）来调用引擎特定的方法，使用 API 调用从互联网下载 3D 模型并将其放入场景中，并为它们分配行为和动画的状态树 Huang et al. (2023a)。这种行为可能是由于使用 Unity 的开源游戏存储库中存在类似代码而出现的。因此，GPT 模型能够根据简单的用户提示在场景中加载许多对象，从而构建丰富的视觉场景。

这一类 Agent 的目标是构建一个平台和一套工具，在大型 AI 模型（GPT 系列模型以及扩散图像模型）和渲染引擎之间提供有效的接口。我们在这里探索两个主要途径：

将大型模型集成到 Agent 基础设施中的各种编辑器工具中，从而显着加快开发速度。
通过生成遵循用户指令并在运行时编译的代码，从用户体验中控制渲染引擎，从而允许用户以任意方式编辑他们正在交互的 VR/模拟，甚至引入新的 Agent 机制。

引入专注于 XR 设置的 AI 副驾驶对 XR 创作者很有用，他们可以使用副驾驶来完成繁琐的任务，例如提供简单的资产或编写代码样板，从而使创作者可以专注于他们的创意愿景并快速迭代想法。

此外，Agent 可以通过添加新资产、更改环境动态或构建新设置来帮助用户以交互方式修改环境。这种运行时动态生成的形式也可以由创作者指定，使用户的体验感觉新鲜并随着时间的推移不断发展。

5.5 知识和逻辑推理智能体

推理和应用知识的能力是人类认知的决定性特征，在逻辑演绎以及理解心智理论等复杂任务中尤为明显 ^2^^2^https://plato.stanford.edu/entries/cognitive-science。对知识进行推理确保了 AI 的响应和行为与已知事实和逻辑原则一致。这种连贯性是维持 AI 系统信任和可靠性的关键机制，尤其是在医疗诊断或法律分析等关键应用中。在这里，我们介绍了一些结合了知识和推理之间相互作用的智能体，这些智能体旨在解决智能和推理的特定方面。

5.5.1 知识智能体

知识智能体以两种方式对其获取的知识系统进行推理：隐式和显式。隐式知识通常是像 GPT 系列这样的大型语言模型 Brown et al. （2020）；OpenAI （2023）在接受大量文本数据训练后所封装的知识。这些模型可以生成给人以理解印象的响应，因为它们利用了在训练过程中隐式学习的模式和信息。相反，显式知识是结构化的，可以直接查询，例如在知识库或数据库中找到的信息，传统上通过引用可验证的外部资源来增强 AI 的推理能力。

尽管语言模型取得了进步，但它们的隐式知识是静态的，并且会随着世界的发展而过时 Lewis et al. （2020）；Peng et al. （2023）。这种局限性使得必须整合持续更新的显式知识来源，以确保 AI 系统能够提供准确和最新的响应。隐式和显式知识的融合使 AI 智能体具备了更细致的理解能力，以及像人类智能一样在上下文中应用知识的能力 Gao et al. （2022）。这种整合对于构建以知识为中心的 AI 智能体至关重要，这些智能体不仅拥有信息，而且可以理解、解释和使用这些信息，从而缩小了广泛学习和深刻知识之间的差距 (Marcus and Davis, 2019；Gao et al., 2020）。这些智能体旨在以灵活的方式和关于世界的动态信息进行推理，从而增强它们的稳健性和适应性 (Marcus, 2020)。

5.5.2 逻辑智能体

通常，逻辑智能体是系统中设计用于应用逻辑推理来处理数据或解决特定于逻辑推理或逻辑论证任务的组件。在像 GPT-4 这样的大型基础模型的背景下，逻辑智能体指的是设计用于处理逻辑推理任务的专门组件或子模块。这些任务通常涉及理解和操作抽象概念、从给定的前提中推断结论，或解决需要结构化、逻辑方法的问题。广义上讲，像 GPT-4 这样的基础模型是在大量的文本数据语料库上训练的，并学习执行各种任务，包括那些需要某种形式的逻辑推理的任务。因此，它们的逻辑推理能力被集成到整体架构中，并且它们通常不拥有独立的、孤立的“逻辑智能体”。虽然 GPT-4 和类似的模型可以执行涉及逻辑的任务，但它们的方法与人类或传统的基于逻辑的系统的运作方式根本不同。它们不遵循正式的逻辑规则，也不对逻辑有明确的理解；相反，它们基于从训练数据中学习到的模式生成响应。因此，它们在逻辑任务中的表现可能令人印象深刻，但也可能因训练数据的性质和模型设计的固有局限性而导致不一致或受限。在架构中嵌入单独的逻辑子模块的一个例子是 (Wang et al., 2023e)，它通过将文本解析为逻辑段并在 Token 嵌入中显式建模逻辑层次结构，从而修改了 LLM 在预训练期间使用的 Token 嵌入过程。

5.5.3 用于情感推理的智能体

情感理解和同理心是智能体在许多人机交互中需要具备的重要技能。为了说明这一点，创建引人入胜的对话智能体的一个重要目标是让智能体在行动时表现出更强的情感和同理心，同时最大限度地减少在社交上不适当或冒犯性的输出。为了推进对话智能体的这一目标，我们发布了具有同理心的神经图像评论 (NICE) 数据集 Chen et al. (2021)，该数据集包含近 200 万张图像以及相应的人工生成的评论和一组人类情感注释。我们还提供了一种新的预训练模型——用于图像评论的情感生成建模 (MAGIC) Chen et al. (2021)——旨在生成图像的评论，这些评论以捕捉风格和情感的语言表示为条件，并有助于生成更富有同情心、情感化、引人入胜和在社交上适当的评论。我们的实验表明，该方法在训练更像人类且引人入胜的图像评论智能体方面是有效的。开发具有同理心意识的智能体是交互式智能体的一个有希望的方向，并且重要的是为广泛的群体和人群创建具有情感理解能力的智能体，尤其考虑到许多当前的语言模型在它们的情感理解和同理心推理能力方面表现出偏差 Mao et al. (2022)；Wake et al. (2023d)。

5.5.4 神经符号智能体

神经符号智能体在神经元和符号的混合系统上运行 d’Avila Garcez and Lamb (2020)。解决自然语言表述的问题是一项具有挑战性的任务，因为它需要显式捕获输入中隐含的离散符号结构信息。然而，大多数通用神经序列模型没有显式捕获此类结构信息，从而限制了它们在这些任务上的性能。Chen et al. (2020) 的工作提出了一种基于结构化神经表示智能体的新型编码器-解码器模型，TP-N2F 的编码器采用 TPR“绑定”在向量空间中编码自然语言符号结构，解码器使用 TPR“解绑”在符号空间中生成由关系元组表示的顺序程序，每个元组都包含一个关系（或操作）和一些参数。

像 GPT-4 这样的指令跟随视觉语言 (VL) 模型提供了一个灵活的接口，它以零样本的方式支持广泛的多模态任务。然而，在完整图像上运行的接口不能直接使用户“指向”和访问图像内的特定区域。这种能力不仅对于支持基于参考的 VL 基准非常重要，而且对于需要精确的图像内推理的实际应用也至关重要。在 (Park et al., 2023b) 中，我们构建了局部视觉常识模型，该模型允许用户指定（多个）区域作为输入。我们通过从大型语言模型 (LLM) 中采样局部常识知识来训练我们的模型：具体来说，我们提示 LLM 根据全局字面图像描述和一组 VL 模型自动生成的局部字面区域描述来收集常识知识。该流程是可扩展且完全自动的，因为不需要对齐的或人工编写的图像和文本对。通过单独训练的选择高质量示例的评论模型，我们发现仅从图像扩展的局部常识语料库上的训练可以成功地提炼现有的 VL 模型，以支持以引用作为输入的接口。零样本设置中的经验结果和人工评估表明，与传递生成的指代表达式的基线相比，我们的提炼方法可以产生更精确的推理 VL 模型。

5.6 大语言模型和视觉语言模型智能体

许多工作利用大语言模型作为智能体来执行任务规划 (Huang et al., 2022a；Wang et al., 2023b；Yao et al., 2023a；Li et al., 2023a)，并利用大语言模型的互联网规模的领域知识和零样本规划能力来执行诸如规划和推理之类的智能体任务。最近的机器人研究还利用大语言模型来执行任务规划 (Ahn et al., 2022a；Huang et al., 2022b；Liang et al., 2022)，方法是将自然语言指令分解为一系列子任务，可以采用自然语言形式或 Python 代码，然后使用低级控制器执行这些子任务。此外，Huang et al. (2022b)、Liang et al. (2022) 和 Wang et al. (2023a) 还整合了环境反馈以提高任务性能。还有许多工作证明了在大型文本、图像和视频数据上训练的通用视觉对齐大型语言模型能够作为创建可以在各种环境中体现和行动的多模态智能体的基础 Baker et al. (2022)；Driess et al. (2023)；Brohan et al. (2023)。

6 智能体 AI 应用任务

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 8：通过 GPT-4V 进行 Minecraft 地牢游戏感模拟和生成，用于用户交互游戏动作预测和交互编辑的具身智能体。

6.1 游戏智能体

游戏提供了一个独特的沙盒来测试大语言模型和视觉语言模型的智能体行为，推动了它们协作和决策能力的边界。我们特别描述了三个领域，这些领域突出了智能体与人类玩家和其他智能体互动以及在环境中采取有意义行动的能力。

6.1.1 NPC 行为

在现代游戏系统中，非玩家角色 (NPC) 的行为主要由开发人员编写的预定义脚本决定。这些脚本包含基于游戏环境中各种触发因素或玩家操作的一系列反应和交互。然而，这种脚本化的性质通常会导致可预测的或重复的 NPC 行为，而这种行为无法根据玩家的操作或游戏的动态环境而演变。这种僵化阻碍了动态游戏环境中所预期的沉浸式体验。因此，人们越来越有兴趣利用大语言模型来诱导 NPC 行为的自主性和适应性，使交互更加细致和引人入胜。人工智能驱动的 NPC 可以从玩家行为中学习，适应不同的策略，并提供更具挑战性和更不可预测的游戏体验。大型语言模型 (LLM) 可以为游戏中 NPC 行为的演变做出重大贡献。通过处理大量的文本，大语言模型可以学习模式并生成更多样化且更像人类的响应。它们可用于创建动态对话系统，使与 NPC 的交互更具吸引力且更不可预测。此外，大语言模型可以通过玩家反馈和游戏内数据进行训练，以不断改进 NPC 行为，使其更符合玩家的期望和游戏动态。

6.1.2 人机 NPC 交互

人类玩家和 NPC 之间的交互是游戏体验的关键方面。传统的交互模式主要是一维的，NPC 以预设的方式对玩家的输入做出反应。这种限制扼杀了在虚拟领域内实现更自然和更丰富的交互（类似于人与人之间的交互）的潜力。大语言模型和视觉语言模型技术的出现有望改变这种模式。通过采用这些技术，游戏系统可以分析和学习人类行为，以提供更像人类的交互。这不仅增强了游戏的真实感和参与度，而且还提供了一个在受控但复杂的环境中探索和理解人机交互的平台。

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 9：当在提示中给出“动作历史记录”和“游戏目标”时，GPT-4V 可以有效地预测高层次的下一步动作。此外，GPT-4V 准确地识别出玩家手中拿着木头原木，并可以将这种感知到的信息纳入其未来行动计划中。尽管 GPT-4V 似乎能够预测一些低级动作（例如按下“E”键打开背包），但模型的输出本质上不适合进行原始的低级动作预测（包括鼠标移动），并且可能需要用于低级动作控制的补充模块。

6.1.3 基于智能体的游戏分析

游戏是日常生活中不可或缺的一部分，估计吸引了世界一半的人口 https://www.dfcint.com/global-video-game-audience-reaches-3-7-billion/。此外，它对心理健康也有积极影响 https://news.microsoft.com/source/features/work-life/mind-games-how-gaming-can-play-a-positive-role-in-mental-health/。然而，当代游戏系统在与人类玩家的交互方面存在缺陷，因为它们的行为主要由游戏开发人员手工制作。这些预先编程的行为通常无法适应玩家的需求。因此，游戏中需要新的 AI 系统，这些系统可以分析玩家行为并在必要时提供适当的支持。智能交互系统有可能彻底改变游戏玩家与游戏系统进行交互的方式。NPC 与游戏玩家的交互不再受游戏开发人员设计的有限规则集的限制。它们有可能无缝地适应游戏玩家的体验，提供及时的反馈以丰富游戏体验并提升人机交互的协同作用。

大语言模型可以作为分析游戏内文本数据（包括聊天记录、玩家反馈和叙事内容）的强大工具。它们可以帮助识别玩家行为、偏好和交互的模式，这对于游戏开发人员改进游戏机制和叙事非常宝贵。此外，视觉语言模型可以解析来自游戏会话的大量图像和视频数据，以帮助分析游戏世界中的用户意图和操作。此外，大语言模型和视觉语言模型可以促进游戏中智能智能体的开发，这些智能体可以以复杂且类似人类的方式与玩家和其他智能体进行交流，从而增强整体游戏体验。除了大语言模型和视觉语言模型之外，用户输入数据还为创建游戏智能体提供了一个有希望的途径，这些智能体通过模仿人类玩家来建模感知、游戏玩法和游戏理解。通过结合玩家交互和反馈、像素输入以及自然语言规划和理解，智能体模型可以帮助持续改进游戏动态，从而推动游戏环境以更以玩家为中心的方式发展。

6.1.4 游戏场景合成

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 10：在未见过的 Minecraft 视频上的掩码视频预测。从左到右：原始帧、掩码帧、重建帧和带有补丁的重建帧。

场景合成是创建和增强沉浸式游戏环境的重要组成部分。它需要自动或半自动地在游戏中生成三维 (3D) 场景和环境。此过程包括生成地形、放置对象、创建逼真的照明，有时甚至包括动态天气系统。

现代游戏通常具有广阔的开放世界环境。手动设计这些景观可能非常耗时且需要大量资源。自动地形生成（通常利用程序化或 AI 驱动的技术）可以产生复杂、逼真的景观，而无需太多人工干预。大语言模型和视觉语言模型可以利用互联网规模的知识来制定规则，以设计视觉上令人印象深刻且独特的非重复景观。此外，大语言模型和视觉语言模型可用于确保生成资产的语义一致性和可变性。以逼真且美观的方式在场景中放置建筑物、植被和其他元素等对象对于沉浸感至关重要。

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 11：在 Minecraft 游戏场景中使用小型智能体预训练模型进行的低级下一步动作预测。

视觉语言模型和大语言模型可以通过遵循预定义或学习的规则和美学来帮助对象放置，从而加快关卡设计过程。视觉语言模型和大语言模型可以进一步训练以理解设计和美学的原理，从而有助于程序化生成内容。它们可以帮助制定程序算法可以遵循的规则或指导方针，以生成在视觉上吸引人且在上下文中适当的对象和场景。

逼真的照明和大气效果是创建可信且引人入胜的游戏环境的基础。高级算法可以模拟自然照明条件和动态天气效果，从而增强场景的真实感和氛围。大语言模型可以通过几种创新方式帮助开发系统以实现更逼真的照明和大气效果。视觉语言模型可以分析来自真实世界照明和大气条件的大量数据集，以帮助开发更逼真的算法来模拟游戏中的这些效果。通过了解自然照明和天气的模式和复杂性，这些模型可以为开发密切模仿现实的算法做出贡献。大语言模型和视觉语言模型还可以用于开发根据玩家操作、游戏状态或外部输入实时调整照明和大气效果的系统。它们可以处理来自玩家的自然语言命令来修改游戏环境，从而提供更具交互性和沉浸感的体验。

6.1.5 实验和结果

使用大语言模型或视觉语言模型的零样本/少样本学习。

正如我们在图 8 和图 9 中所示，我们使用 GPT-4V 进行高层次描述和动作预测。图 8 显示了一些使用 GPT-4V 生成动作描述和编辑的定性示例。智能体增强的文本开启了一种利用游戏动作先验生成 3D 场景的新方法，以帮助提高场景的自然性。因此，GPT-4V 生成与游戏视频相关的相关高层次描述。

小型智能体预训练模型。

为了展示我们的智能体视觉语言架构，我们首先研究其在 Minecraft 数据上进行预训练的应用，该领域广泛用于游戏智能体。如图 7 所示，给定一个输入动作智能体、视频关键帧和相应的文本，可以使用标准编码器-解码器将智能体动作和图像转换为动作文本 Token 和图像补丁 Token，然后使用智能体视觉语言解码器将其转换为动作预测句子。整体架构如图 7 所示。我们使用几个 Minecraft 演示评估我们的方法。Minecraft 视频数据由 5 分钟的片段组成，我们用于预训练的视频包含 78K 个视频，我们使用 5K 个视频（占预训练数据的 6%）进行第一轮预训练。我们在 16 个 NVIDIA v100 GPU 上训练一个 2.5 亿参数模型一天，并在图 10 和图 11 中可视化我们的模型输出。图 10 表明，我们相对较小的智能体架构可以为训练期间未见过的 Minecraft 场景生成合理的输出。图 11 显示了模型预测与真实人类玩家动作的比较，表明我们的小型智能体模型具有潜在的低级理解能力。

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 12：情境学习游戏基础设施的 MindAgent。规划技能和工具使用：游戏环境需要多样化的规划技能和工具使用来完成任务。它生成相关的游戏信息，并将游戏数据转换为大语言模型可以处理的结构化文本格式。大语言模型：我们基础设施的主要工作引擎做出决策，从而充当多智能体系统的调度员。内存历史记录：用于存储相关信息的实用工具。动作模块：从文本输入中提取动作并将其转换为特定领域的语言，并验证 DSL，使其在执行期间不会发生错误。

多智能体基础设施。

正如在图 5 中的智能体范式所示，我们为名为“CuisineWorld”的新游戏场景设计了一种新的基础设施 Gong et al. (2023a)。我们在图 12 中详细介绍了我们的方法。我们的基础设施允许通过利用 GPT-4 作为中央规划器并在多个游戏领域工作来实现多智能体协作。我们研究了系统的多智能体规划能力，并将该基础设施部署到真实世界的视频游戏中，以展示其多智能体和人机协作的有效性。此外，我们还展示了“Cuisineworld”，这是一个基于文本的多智能体协作基准，它提供了一种新的自动指标协作评分 (CoS) 来量化协作效率。

有关游戏描述、高层次动作预测和 GPT-4V 提示的更多示例和详细信息，请参阅附录。我们展示了 Bleeding Edge 的示例，见图 32 和附录 B；Microsoft Flight Simulator 的示例，见图 33 和附录 C；ASSASSIN’s CREED ODYSSEY 的示例，见图 34 和附录 D；GEARS of WAR 4 的示例，见图 35 和附录 E；以及 Starfield 的示例，见图 36 和附录 F。我们还提供了用于生成 Minecraft 示例的 GPT4V 提示过程的详细屏幕截图，见图 31 和附录 A。

6.2 机器人技术

机器人是需要与环境进行有效交互的典型智能体。在本节中，我们将介绍高效机器人操作的关键要素，回顾最新的大语言模型/视觉语言模型（LLM/VLM）技术已应用的研究主题，并分享我们最近研究的成果。

视觉运动控制。

视觉运动控制是指视觉感知和运动动作的整合，以在机器人系统中有效地执行任务。这种整合至关重要，因为它使机器人能够解释来自其环境的视觉数据，并相应地调整其运动动作，以与环境准确地交互。例如，在装配线上，配备视觉运动控制的机器人可以感知物体的位置和方向，并精确地调整其机械臂以与这些物体交互。这种能力对于确保机器人操作在从工业自动化到协助老年人日常家务的各种应用中的精确性和有效性至关重要。此外，视觉运动控制有助于机器人适应动态环境，其中环境状态可能快速变化，需要根据视觉反馈实时调整运动动作。

此外，在安全操作的背景下，视觉信息对于检测执行错误和确认每个机器人动作的前置和后置条件至关重要。在不受控制的环境中，例如未知的家庭环境中，由于家具形状变化、光照变化和滑移等不可预测的因素，机器人更容易面临意外结果。仅以前馈方式执行预先计划的动作方案在这些环境中可能会带来重大风险。因此，利用视觉反馈来持续验证每一步的结果是确保机器人系统稳健可靠运行的关键。

语言条件下的操作。

语言条件下的操作是指机器人系统根据语言指令解释和执行任务的能力。这一方面对于创建直观且用户友好的人机交互界面尤为重要。通过自然语言命令，用户可以以类似于人与人之间交流的方式向机器人指定目标和任务，从而降低操作机器人系统的门槛。例如，在实际场景中，用户可以指示服务机器人“从桌子上拿起红色苹果”，机器人会解析此指令，识别所指的物体并执行拿起该物体的任务 Wake et al. (2023c)。核心挑战在于开发强大的自然语言处理和理解算法，这些算法可以准确地解释各种指令，从直接命令到更抽象的指令，并使机器人能够将这些指令转换为可操作的任务。此外，确保机器人可以将这些指令推广到不同的任务和环境中，对于提高机器人在现实世界应用中的多功能性和实用性至关重要。在名为“任务和运动规划”的机器人框架中，使用语言输入来指导机器人的任务规划已引起关注 Garrett et al. (2021)。

技能优化。

最近的研究强调了大语言模型（LLM）在机器人任务规划中的有效性。然而，任务的最佳执行，特别是涉及抓取等物理交互的任务，需要对环境有更深入的理解，而不仅仅是解释人类指令。例如，机器人抓取需要精确的接触点 Wake et al. (2023e) 和手臂姿势 Sasabuchi et al. (2021)，才能有效地执行后续动作。虽然这些要素——精确的接触点和手臂姿势——对于人类来说是直观的，但通过语言表达它们是具有挑战性的。尽管互联网规模的视觉语言模型（VLM）取得了进展，但从场景中捕获这些细微的间接线索并将其有效地转化为机器人技能仍然是一项重大挑战。作为回应，机器人社区越来越关注收集增强的数据集（例如，Wang et al. (2023d); Padalkar et al. (2023)) 或开发直接从人类演示中获取技能的方法 Wake et al. (2021a)。包括“从演示中学习”和“模仿学习”在内的框架正在引领这些发展，在优化物理技能方面发挥着至关重要的作用。

6.2.1 用于机器人的大语言模型/视觉语言模型（LLM/VLM）智能体。

最近的研究表明，大语言模型/视觉语言模型（LLM/VLM）在涉及与环境中人类交互的机器人智能体方面具有潜力。旨在利用最新的大语言模型/视觉语言模型（LLM/VLM）技术的研究主题包括：

多模态系统：最近的研究一直积极关注开发端到端系统，这些系统将最新的大语言模型（LLM）和视觉语言模型（VLM）技术作为输入信息的编码器。特别是，修改这些基础模型以处理多模态信息已成为一种重要趋势。Jiang et al. (2022); Brohan et al. (2023, 2022); Li et al. (2023d); Ahn et al. (2022b); Shah et al. (2023b); Li et al. (2023e)。这种调整旨在根据语言指令和视觉线索指导机器人动作，从而实现有效的具身化。

任务规划和技能训练：与端到端系统相比，基于任务和运动规划（TAMP）的系统首先计算高层任务计划，然后通过低层机器人控制（称为技能）来实现这些计划。

大语言模型（LLM）先进的语言处理能力已证明能够解释指令并将其分解为机器人动作步骤，从而大大推进了任务规划技术 Ni et al. (2023); Li et al. (2023b); Parakh et al. (2023); Wake et al. (2023c)。对于技能训练，一些研究探索了使用大语言模型（LLM）/视觉语言模型（VLM）来设计奖励函数 Yu et al. (2023a); Katara et al. (2023); Ma et al. (2023)，生成数据以促进策略学习 Kumar et al. (2023); Du et al. (2023)，或作为奖励函数的一部分 Sontakke et al. (2023)。结合强化学习和模仿学习等训练框架，这些努力将有助于开发高效的机器人控制器。

现场优化：由于意外和不可预测的环境条件，在机器人技术中执行长时间的任务步骤可能很困难。因此，机器人领域的一个重大挑战包括通过将任务计划与实时环境数据相结合，动态地调整和改进机器人技能。例如，(Ahn et al., 2022b) 提出了一种方法，该方法从视觉信息计算动作的可行性（即，可供性），并将其与计划的任务进行比较。此外，还有一些方法侧重于使大语言模型（LLM）能够输出任务步骤的前置条件和后置条件（例如，物体及其相互关系的状态），以优化其执行 Zhou et al. (2023c)，并检测前置条件错误，以便对任务计划进行必要的修改 Raman et al. (2023)。这些策略旨在通过整合环境信息并在任务计划或控制器级别调整机器人的动作来实现环境导向的机器人执行。

对话智能体：在创建对话机器人时，大语言模型（LLM）可以促进与人类进行自然的、上下文相关的交互 Ye et al. (2023a); Wake et al. (2023f)。这些模型处理和生成模仿人类对话的响应，使机器人能够参与有意义的对话。此外，大语言模型（LLM）在概念 Hensel et al. (2023); Teshima et al. (2022) 和情感属性 Zhao et al. (2023); Yang et al. (2023b); Wake et al. (2023d) 的评估中起着重要作用。这些属性有助于理解人类意图和生成有意义的手势，从而有助于人机交流的自然性和有效性。

导航智能体： 机器人导航有着悠久的研究历史，侧重于基于地图的路径规划和同时定位与地图构建（SLAM）等核心方面，以创建环境地图。这些功能已成为广泛使用的机器人中间件（如机器人操作系统（ROS）Guimarães et al. (2016)）的标准配置。

虽然经典的导航技术在许多机器人应用中仍然很普遍，但它们通常依赖于静态或预先创建的地图。最近，人们对使机器人能够在更具挑战性的环境中导航的先进技术越来越感兴趣，这些技术利用了计算机视觉和自然语言处理等领域的突破。一个代表性的任务是物体导航 Chaplot et al. (2020a); Batra et al. (2020); Gervet et al. (2023); Ramakrishnan et al. (2022); Zhang et al. (2021)，其中机器人使用物体名称而不是地图坐标进行导航，这需要对环境中物体名称进行视觉定位。此外，最近人们关注于在基础模型之上，以零样本方式在完全不熟悉的全新环境中导航机器人的技术，即所谓的零样本物体导航 Gadre et al. (2023); Dorbala et al. (2023); Cai et al. (2023)。此外，视觉语言导航（VLN）Anderson et al. (2018a) 是一项代表性任务，其中任务涉及在先前未见的真实环境中通过自然语言指令导航智能体 Shah et al. (2023a); Zhou et al. (2023a); Dorbala et al. (2022); Liang et al. (2023); Huang et al. (2023b)。视觉语言导航（VLN）解释句子而不是物体名称，例如“走到你左边的浴室”，因此它需要更高的功能来解析输入文本 Wang et al. (2019)。

基础模型的出现通过增强对人类语言指令的理解和对环境信息的视觉解释，有助于开发这种自适应的、即时导航技术。有关代表性视觉语言导航（VLN）研究的更详细解释，请参见 6.2.2。

6.2.2 实验与结果。

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 13：集成了 ChatGPT 驱动的任务规划器的机器人教学系统概述。该过程包括两个步骤：任务规划，用户使用任务规划器创建动作序列，并根据需要通过反馈调整结果；以及演示，用户以视觉方式演示动作序列，以提供机器人操作所需的信息。视觉系统收集将用于机器人执行的视觉参数。

越来越多的证据表明，最近的视觉语言模型（VLM）和大语言模型（LLM）在符号任务规划（例如，做什么）方面具有良好的能力。然而，每个任务都需要低级控制策略（例如，如何做）才能实现环境之间的成功交互。虽然强化学习和模仿学习是以数据驱动的方式学习策略的有希望的方法，但另一种有希望的方法是通过现场演示直接从人类那里获得策略，这种方法称为“从观察中学习”Wake et al. (2021a); Ikeuchi et al.。在本节中，我们将介绍一项研究，其中我们使用 ChatGPT 进行任务规划，并通过使用可供性信息对其进行参数化来丰富该计划，以促进有效和精确的执行（图 13）。

该流程由两个模块组成：任务规划和参数化。在任务规划中，系统接收语言指令和工作环境的描述。这些指令以及预定义的机器人动作和输出规范被编译成一个提供给 ChatGPT 的综合提示，然后 ChatGPT 生成一系列分解的任务及其文本描述（图 13；左侧窗格）。值得注意的是，我们采用少样本方法，这意味着 ChatGPT 没有接受过此任务的训练，这在适用性方面具有优势，因为它消除了对硬件相关数据收集和模型训练的需求。此外，输出中的文本描述使用户能够根据需要检查和调整结果，这是安全可靠操作的关键功能。图 14 显示了在 VirtualHome Puig et al. (2018) 之上对智能体仿真进行的定性结果。结果表明，任务计划合理且在调整输出方面具有灵活性，这表明我们的方法具有广泛的适用性。

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 14：通过自动生成的反馈调整输出序列的示例。我们使用开源模拟器 VirtualHome 进行实验。给定指令“拿起桌子上的馅饼，然后用炉子加热。”，任务规划器会规划 VirtualHome 中提供的一系列函数。如果在执行中检测到错误，任务规划器会根据自动生成的错误消息更正其输出。

虽然任务规划器保证了任务序列之间的一致性，但要在现实中成功操作，还需要详细的参数。例如，抓取类型对于携带容器同时不洒出内容至关重要，而这种参数在模拟器中通常会被忽略（参见图 14 中抓取馅饼的示例）。因此，在我们的机器人系统中，用户需要以视觉方式演示每个动作（图 13；右侧窗格）。这些任务具有执行所需的预定义参数，我们的视觉系统会从视频中提取这些参数 Wake et al. (2021b)。值得注意的是，我们的机器人系统并非旨在精确复制人类动作（即，远程操作），而是旨在处理各种现实条件，例如物体位置的变化。因此，从人类演示中提取的参数不仅包含精确的运动路径，还包含指示有效环境运动的可供性信息（例如，用于避碰的航点 Wake et al. (2023a)，抓取类型 Wake et al. (2023e) 和上肢姿势 Sasabuchi et al. (2021); Wake et al. (2021a))。上肢的姿势在具有高自由度的机器人中至关重要，并且被设计为为与操作机器人共存的人类呈现可预测的姿势。具有可供性的任务序列被转换为一系列可通过强化学习获得的、可重用的机器人技能，并由机器人执行 Takamatsu et al. (2022)。

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 15：利用 GPT-4V 和 GPT-4 的多模态任务规划器概述。该系统处理视频演示和文本指令，生成用于机器人执行的任务计划。

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 16：视频分析仪输出的示例。以固定间隔提取五个帧，并将其输入到 GPT-4V 中。我们在第 6.2.2 节中描述了整个流程。

通过将其与视觉语言模型（VLM）集成，可以扩展由大语言模型（LLM）驱动的任务规划，以实现更通用的机器人系统。在这里，我们展示一个示例，其中我们使用 GPT-4V（ision）在多模态输入上下文中扩展上述任务规划器（图 15），人类执行旨在由机器人复制的动作。在本文中，仅显示了提示的一部分。完整的提示可在 microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts 上找到。

该流程接收演示视频和文本，然后输出一系列机器人动作。视觉分析仪旨在理解人类在视频中执行的动作。我们使用了 GPT-4V，并提供了一个提示，以生成一种类似于人与人之间交流的文本指令风格。图 16 展示了如何使用文本输入允许用户对 GPT-4V 的识别结果提供反馈以进行更正。这种旨在提高识别结果准确性的功能也能够实现更稳健的操作。

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 17：利用 GPT-4V 的场景分析仪的输出示例。我们在第 6.2.2 节中描述了我们的整个流程。

接下来，场景分析仪基于指令和视频数据的首帧（或环境图像）将预期工作环境编译为文本信息。此环境信息包括 GPT-4V 识别的物体名称列表、物体的可抓取属性以及物体之间的空间关系。虽然这些计算过程是 GPT-4V 中的黑盒，但会基于 GPT-4V 的知识以及图像/文本输入输出信息。图 17 显示了我们场景分析仪的示例输出。如图所示，GPT-4V 成功选择了与操作相关的物体。例如，当人类在桌子上重新放置垃圾邮件容器时，输出中会包含一个桌子，而在冰箱打开任务中会忽略该桌子。这些结果表明，场景分析仪会根据人类的动作对场景信息进行编码。我们提示 GPT-4V 解释物体选择过程的结果以及这些选择背后的原因。在实践中，我们发现这种方法产生了合理的输出。最后，基于给定的文本指令和环境信息，任务规划器输出一系列任务 Wake et al. (2023c)。

用于机器人导航的具身智能体。

视觉语言导航（VLN）的任务是导航一个具身智能体，以在真实的 3D 环境中执行自然语言指令。在 3D 环境中导航 Zhu et al. (2017a); Mirowski et al. (2016); Mousavian et al. (2018); Hemachandra et al. (2015) 是在物理世界中运行的移动智能系统的基本能力。在过去的几年中，已经提出了大量的任务和评估协议 Savva et al. (2017); Kolve et al. (2017); Song et al. (2017); Xia et al. (2018); Anderson et al. (2018a)，如 Anderson et al. (2018b) 中总结的那样。视觉语言导航（VLN）Anderson et al. (2018a) 侧重于在真实的 3D 环境中进行以语言为基础的导航。为了解决视觉语言导航（VLN）任务，(Anderson et al., 2018a) 建立了一个基于注意力的序列到序列基线模型。然后，(Wang et al., 2018) 引入了一种混合方法，该方法结合了无模型和基于模型的强化学习（RL）来提高模型的泛化能力。最后，(Fried et al., 2018) 提出了一种说话者-跟随者模型，该模型采用数据增强、全景动作空间和修改后的波束搜索进行视觉语言导航（VLN），从而在 Room-to-Room 数据集上建立了当前最先进的性能。在之前工作的基础上，我们在 (Wang et al., 2019) 中提出了用于视觉语言导航（VLN）的强化跨模态匹配（RCM）。RCM 模型建立在 Fried et al. (2018) 的基础上，但在许多重要方面有所不同：(1) RCM 将一种新型的多奖励强化学习（RL）与用于视觉语言导航（VLN）的模仿学习相结合，而说话者-跟随者模型 Fried et al. (2018) 仅使用监督学习，如 (Anderson et al., 2018a) 中所示。(2) RCM 推理导航器执行跨模态定位，而不是对单模态输入执行时间注意力机制。(3) RCM 匹配评论器在架构设计方面与说话者相似，但前者用于为强化学习（RL）和自监督模仿学习（SIL）训练提供循环重建内在奖励，而后者用于增强监督学习的训练数据。在 (Wang et al., 2019) 中，我们研究了如何解决此任务的三个关键领导者难题：跨模态定位、不适定的反馈和泛化问题。如图 18 所示，我们提出了一种新型的强化跨模态匹配方法，该方法通过强化学习（RL）在局部和全局强制执行跨模态定位。特别是，使用匹配评论器来提供内在奖励，以鼓励指令和轨迹之间的全局匹配，并使用推理导航器在局部视觉场景中执行跨模态定位。对视觉语言导航（VLN）基准数据集的评估表明，我们的 RCM 模型在 SPL 上明显优于以前的方法 10%，并实现了新的最先进的性能。为了提高学习策略的泛化能力，我们进一步引入了一种自监督模仿学习（SIL）方法，通过模仿其自身过去良好的决策来探索未见的环境。我们证明，自监督模仿学习（SIL）可以逼近更好、更有效的策略，从而极大地缩小了已见环境和未见环境之间的成功率性能差距（从 30.7% 缩小到 11.7%）。此外，在 Wang et al. (2019) 中，我们引入了一种用于探索的自监督模仿学习方法，以明确解决泛化问题，而这在之前的工作中没有得到充分研究。与这项工作同时进行的是，Thomason et al. (2018); Ke et al. (2019); Ma et al. (2019a, b) 从各个方面研究了视觉语言导航（VLN）任务，并且 Nguyen et al. (2018) 引入了视觉语言导航（VLN）任务的变体，以便在需要时请求语言帮助来查找物体。请注意，我们是第一个提出探索视觉语言导航（VLN）任务的未见环境的人。

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 18：Wang et al. (2019) 的视觉语言导航（VLN）任务具身智能体演示。显示了指令、局部视觉场景以及俯视图中的全局轨迹。智能体无法访问俯视图。路径 A 是遵循指令的演示路径。路径 B 和 C 是智能体执行的两个不同的路径。

6.3 医疗保健

在医疗保健领域，大语言模型（LLM）和视觉语言模型（VLM）可以充当诊断智能体、患者护理助手，甚至治疗辅助工具，但它们也面临着独特的领导者难题和责任。由于 AI 智能体在改善患者护理和挽救生命方面具有巨大的潜力，因此它们被滥用或匆忙部署可能会危及全球成千上万甚至数百万人，这种可能性同样危险。我们将讨论 AI 智能体在医疗保健领域中的一些有希望的途径，并讨论一些面临的关键领导者难题。

诊断智能体。

由于对医学专家的需求很高，并且大语言模型（LLM）有可能帮助对患者进行分类和诊断，因此最近将大语言模型（LLM）用作患者诊断的医疗聊天机器人引起了广泛关注 Lee et al. (2023)。对话智能体，尤其是那些能够有效地向来自不同患者群体的广泛人群传达重要医疗信息的对话智能体，有可能为历史上处于不利地位或被边缘化的群体提供公平的医疗保健机会。此外，世界各地的医生和医疗保健系统大多负担过重且资源不足，导致全球数亿人无法获得充足的医疗服务 World Health Organization and World Bank (2015)。诊断智能体提供了一种特别有利的途径来改善数百万人的医疗保健，因为它们可以构建为具有理解各种语言、文化和健康状况的能力。初步结果表明，可以通过利用大规模网络数据来训练具有医疗保健知识的大语言模型（LMM）Li et al. (2023f)。尽管这是一个令人兴奋的方向，但诊断智能体的前景并非没有风险。我们将在以下部分中重点介绍医疗环境中幻觉的风险，以及潜在的解决方案途径。

知识检索智能体。

在医疗背景下，模型幻觉尤其危险，甚至可能导致严重的患者伤害或死亡，具体取决于错误的严重程度。例如，如果患者错误地收到诊断，表明他们没有实际患有的疾病，则可能会导致灾难性后果。这些后果包括延迟或不适当的治疗，或者在某些情况下，完全缺乏必要的医疗干预。未诊断或误诊的严重性可能导致医疗费用增加、导致进一步身体压力的长期治疗，以及在极端情况下，严重的伤害甚至死亡。因此，可以使用智能体更可靠地检索知识的方法 Peng et al. (2023) 或以基于检索的方式生成文本的方法 Guu et al. (2020) 是很有希望的方向。将诊断智能体与医疗知识检索智能体配对，有可能显着减少幻觉，同时提高诊断对话智能体响应的质量和准确性。

远程医疗和远程监控。

基于智能体的 AI 在远程医疗和远程监控领域也具有巨大的潜力，它可以改善医疗保健的可及性，改善医疗保健提供者和患者之间的沟通，并提高效率和降低频繁的医患互动成本 Amjad et al. (2023)。初级保健临床医生花费大量时间筛选患者消息、报告和电子邮件，这些消息、报告和电子邮件通常与他们无关或不必要查看。支持智能体可以帮助分类来自医生、患者和其他医疗保健提供者的消息，并帮助突出所有各方的重要消息，这具有巨大的潜力。通过使智能体 AI 系统能够与患者、临床医生和其他 AI 智能体进行协调，远程医疗和数字健康行业具有巨大的变革潜力。

6.3.1 当前的医疗保健能力

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 19：在医疗保健图像理解领域中使用 GPT-4V 时的提示和响应示例。从左到右：（1）一名护士和一名医生进行 CT 扫描的图像，（2）不规则心电图扫描的合成图像，以及（3）来自 ISIC Codella et al. (2018) 皮肤病变数据集的图像。我们可以看到 GPT-4V 拥有大量的医学知识，并且能够推理医学图像。然而，由于安全培训，它无法对某些医学图像进行诊断。

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 20：在医疗保健视频理解领域中使用 GPT-4V 时的提示和响应示例。我们将示例视频作为 2x2 网格输入，并覆盖文本以指示帧的顺序。在前两个示例中，我们提示 GPT-4V 检查视频中的帧，以检测在志愿者患者身上进行的临床床边活动。对于最后一个示例，我们尝试提示 GPT-4V 评估超声心动图视频，但由于 GPT-4V 的安全培训，它没有提供详细的响应。为了清楚起见，我们用粗体突出显示描述感兴趣活动的文本，并缩写不必要的模型响应。我们对个人的脸部进行了灰化处理，以保护他们的隐私。

图像理解。

我们在图 19 中展示了现代多模态智能体（如 GPT-4V）在医疗保健背景下的当前能力和局限性。我们可以看到，尽管 GPT-4V 对医院护理中涉及的设备和程序具有大量的内部知识，但它并非始终响应用户更具规范性或诊断性的查询。

视频理解。

我们研究了视觉语言模型（VLM）智能体在两种情况下的医学视频理解性能。首先，我们研究了视觉语言模型（VLM）智能体在临床空间中识别重要患者护理活动的能力。其次，我们探索了视觉语言模型（VLM）在超声等更专业视频中的应用。具体而言，在图 20 中，我们展示了 GPT-4V 在医院护理和医学视频分析方面的一些当前能力和局限性。

6.4 多模态智能体

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 21：交互式多模态智能体包括四大支柱：交互、语音、视觉和语言。副驾驶智能体由不同的服务组成。1) 交互服务有助于为自动化操作、认知和决策制定统一的平台。2) 音频服务将音频和语音处理集成到应用程序和服务中。3) 视觉服务识别和分析图像、视频和数字墨水中的内容。4) 语言服务从结构化和非结构化文本中提取含义。

视觉和语言理解的整合对于开发复杂的多模态 AI 智能体至关重要。这包括图像字幕、视觉问题解答、视频语言生成和视频理解等任务。我们旨在深入研究这些视觉语言任务，探索它们在 AI 智能体背景下提出的领导者难题和机遇。

6.4.1 图像-语言理解和生成

图像-语言理解是一项涉及解释给定图像中具有语言的视觉内容以及生成相关语言描述的任务。此任务对于开发能够以更像人类的方式与世界互动的 AI 智能体至关重要。一些最受欢迎的任务是图像字幕 Lin et al. (2014); Sharma et al. (2018); Young et al. (2014); Krishna et al. (2016)，指代表达 Yu et al. (2016); Karpathy et al. (2014)，以及视觉问题解答 Antol et al. (2015); Ren et al. (2015); Singh et al. (2019)。

最近，知识密集型视觉问题解答任务，如 OKVQA Marino et al. (2019)、KB-VQA Wang et al. (2015)、FVQA Wang et al. (2017) 和 WebQA Chang et al. (2021) 已被引入。多模态智能体应该能够识别图像中的物体，理解它们的空间关系，生成关于场景的准确描述性句子，并利用推理技能来处理知识密集型视觉推理。这不仅需要物体识别能力，还需要对空间关系、视觉语义以及将这些视觉元素映射到具有世界知识的语言结构的能力有深入的理解。

6.4.2 视频和语言理解和生成

视频语言生成。

视频字幕或视频故事讲述是为一系列视频帧生成连贯句子的任务。受视频和语言任务中使用的循环大型基础模型的成功启发，智能体驱动的增强模型的变体在视频语言生成任务中显示出有希望的结果。根本的挑战在于，神经编码器-解码器模型的强大性能对于视觉故事讲述来说效果不佳，因为该任务需要全面理解每个图像的内容以及不同帧之间的关系。该领域的一个重要目标是创建一个智能体感知的文本合成模型，该模型可以有效地编码帧序列并生成一个主题连贯的多句段落。

视频理解。

视频理解将图像理解的范围扩展到动态视觉内容。这涉及解释和推理视频中帧的序列，通常与随附的音频或文本信息相结合。智能体应该能够与来自视觉、文本和音频模式的各种模态进行交互，以展示它们对视频内容的高级理解。该领域的任务包括视频字幕、视频问题解答和活动识别等。视频理解中的领导者难题是多方面的。它们包括视觉和语言内容的时间对齐、处理长序列帧以及解释随着时间的推移而展开的复杂活动。关于音频，智能体可以处理口语、背景噪音、音乐和语调，以理解视频内容的情绪、设置和细微之处。

以前的工作侧重于使用在线提供的现有视频语言训练数据来建立视频基础模型 Li et al. (2020, 2021b); Fu et al. (2022); Bain et al. (2021); Zellers et al. (2021, 2022); Fu et al. (2023)。然而，由于这些数据集的性质有限且常常不一致，因此支持此类训练流程和功能是困难的。视频基础模型使用掩码和对比预训练目标进行设计，然后在各自的任务上进行调整。尽管在多模态基准测试中显示出卓越的成果，但这些模型在仅视频任务（如动作识别）中遇到困难，因为它们依赖于从嘈杂的音频转录构建的有限视频文本数据。这种限制还导致缺乏大语言模型通常拥有的鲁棒性和精细的推理技能。

其他方法，类似于在图像语言理解中使用的方法，利用大型语言模型的强大推理技能和广泛知识来改进视频解释的不同方面。通过像 ChatGPT 和 GPT4 这样的仅语言模型或像 GPT4-V 这样的图像语言模型来简化视频理解的任务，这些模型将音频、视频和语言模态视为单独的可解释输入数据类型，并将智能体定位为强大的开源模型。例如，Huang et al. (2023c); Li et al. (2023g) 通过使用开源视觉分类/检测/字幕模型将视频内容文本化，从而将视频理解转换为自然语言处理（NLP）问题解答公式。Lin et al. (2023) 将 GPT4-V 与视觉、音频和语音方面的专用工具集成，以促进复杂的视频理解任务，例如编写长篇视频中的角色动作和操作脚本。

并行研究探索从大型模型生成缩放数据集，然后在生成的数据上应用视觉指令调整 Liu et al. (2023c); Li et al. (2023c); Zhu et al. (2023)。随后使用大量的音频、语音和视觉专家感知模型来表达视频。使用自动语音识别工具转录语音，并使用各种标记、定位和字幕模型生成视频描述和相关数据 Li et al. (2023g); Maaz et al. (2023); Chen et al. (2023); Wang et al. (2023f)。这些技术演示了在生成的数据集上调整视频语言模型的指令如何可以增强视频推理和通信能力。

6.4.3 实验与结果

知识密集型模型： 如 INK Park et al. (2022) 和 KAT Gui et al. (2022a) 中介绍的那样，一种密集型神经知识任务，它结合了人类注释的所需知识来支持知识密集型检索任务。
多模态智能体： 人们对多模态语言模型（如 Chameleon Lu et al. (2023) 和 MM-React Yang et al. (2023c)）的兴趣日益浓厚。
视觉指令调整： VCL Gui et al. (2022b)、Mini-GPT4 Zhu et al. (2023)、MPLUG-OWL Ye et al. (2023b)、LSKD Park et al. (2023c) 生成图像级指令调整数据集。

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 22：密集型神经知识（INK）Park et al. (2022) 任务的示例，该任务使用知识从一组文本候选项中识别与图像相关的文本。我们的任务涉及利用从 Web 和人工注释知识中检索的视觉和文本知识。

知识密集型智能体。

如图 22 和图 23 所示，基于知识的视觉问题解答和视觉语言检索任务是多模态机器学习中具有挑战性的任务，需要超出图像内容的外部知识。最近关于大型 Transformer 的研究主要侧重于最大限度地提高模型参数的存储信息效率。这一研究方向探索了一个不同的方面：多模态 Transformer 是否可以在其决策过程中使用显式知识。基于 Transformer 的预训练方法在跨多个模态隐式学习知识表示方面显示出卓越的成功。然而，传统方法（主要是单模态）主要研究了知识检索和后续答案预测，从而引发了人们对检索到的知识的质量和相关性以及使用隐式知识和显式知识的推理过程的整合的质疑。为了解决这些问题，我们引入了知识增强 Transformer (KAT)，该 Transformer 在 2022 年 OK-VQA 开放域多模态任务上的性能比其他模型高出 6%。KAT 将来自 GPT3 的隐式知识与来自网站的显式知识相结合，使用编码器-解码器结构，并允许在答案生成期间使用两种知识类型进行并发推理。此外，结合显式知识可以增强模型预测的可解释性。代码和预训练模型可在 https://github.com/guilk/KAT 上找到。

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 23：KAT 模型 Gui et al. (2022a) 使用基于对比学习的模块从显式知识库中检索知识条目，并使用 GPT-3 检索具有支持证据的隐式知识。知识的集成由各自的编码器 Transformer 处理，并通过端到端训练与推理模块和解码器 Transformer 联合进行答案生成。

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 24：VLC 模型 Gui et al. (2022b) 的总体架构。我们的模型由三个模块组成：(1) 特定于模态的投影。我们使用简单的线性投影来嵌入修补的图像，并使用单词嵌入层来嵌入标记化的文本；(2) 多模态编码器。我们使用从 MAE He et al. (2022)（不带标签的 ImageNet-1K）初始化的 12 层 ViT Dosovitskiy et al. (2021) 作为我们的主干；(3) 特定于任务的解码器。我们通过掩码图像/语言建模和仅在预训练期间使用的图像文本匹配来学习我们的多模态表示。我们使用一个 2 层 MLP 来微调我们的多模态编码器，以用于下游任务。重要的是，我们发现掩码图像建模目标在第二阶段预训练中非常重要，而不仅仅是为了初始化视觉 Transformer。

视觉语言 Transformer 智能体。

接下来，我们介绍“从字幕训练视觉语言 Transformer” (VLC) 模型 Gui et al. (2022b)，这是一种仅使用图像字幕对进行预训练的 Transformer。尽管 VLC 仅对图像嵌入使用简单的线性投影层，但与依赖于物体检测器或监督 CNN/ViT 网络的其他方法相比，VLC 在各种视觉语言任务中取得了有竞争力的结果。通过广泛的分析，我们探索了 VLC 作为视觉语言 Transformer 智能体的潜力。例如，我们表明 VLC 的视觉表示对于 ImageNet-1K 分类非常有效，并且我们的可视化确认 VLC 可以准确地将图像块与相应的文本标记匹配。使用更多训练数据进行性能扩展突显了开发大规模、弱监督、开放域视觉语言模型的巨大潜力。

6.5 视频-语言实验

为了解将预训练的图像-大语言模型 (LLM) 用于视频理解的实用性，我们对 InstructBLIP Dai 等人 (2023) 进行了时间扩展和微调，用于视频字幕生成。具体来说，我们使用与 Frozen in Time Bain 等人 (2021) 相同的分割时空注意力方案扩展了 InstructBLIP 的视觉编码器 (EVA-CLIP-G Sun 等人 (2023b))，并在训练期间保持 Q-former 和大语言模型 (LLM) (Flan-T5-XL Chung 等人 (2022)) 冻结。我们冻结视觉编码器的所有空间层，同时在字幕训练期间保持时间层不冻结。这使得我们的模型可以将图像和视频作为输入（与 InstructBLIP 的图像级性能相匹配）。我们在 WebVid10M Bain 等人 (2021) 的 500 万个视频字幕子集上进行训练。我们在图 25 中可视化了两个示例输出。然而，现有的智能体未能完全理解视频内容中精确、细粒度的视觉细节。视觉指令微调方法也存在类似的局限性，它们缺乏通用的人类水平的感知能力，而这些能力仍有待多模态模型和智能体解决。

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 25: 使用 InstructBLIP 的视频微调变体 (第 6.5 节中描述的方法) 时的示例提示和响应。我们的模型能够生成描述场景的长篇文本响应，并能够回答与视频中事件的时间性相关的问题。

指令微调模型在准确总结视频中可见的动作以及有效地识别“坐在长凳上的人”等动作方面表现出前景，如图 25 所示。然而，它们有时会添加不正确的细节，例如“对着镜头微笑的人”，这揭示了在捕捉对话主题或视频氛围方面的不足，而这些元素对于人类观察者来说是显而易见的。这种不足突出了另一个关键的局限性：遗漏了音频和语音模态，这些模态将通过上下文丰富视频理解，帮助进行更准确的解释并防止此类误述。弥合这一差距需要对可用模态进行整体集成，使多模态智能体能够达到类似于人类感知的理解水平，并确保采用完全多模态的方法进行视频解释。

基于 GPT-4V 的音频-视频-语言智能体。

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 26: 第 6.5 节中描述的音频-多模态智能体。幻觉内容以红色突出显示。我们使用 GPT-4V 生成：1) 带有视频帧的视频聊天摘要；2) 带有帧字幕的视频摘要；3) 带有帧字幕和音频信息的视频摘要。

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 27: 一种交互式多模态智能体，它结合了视觉、音频和文本模态进行视频理解。我们的流程挖掘困难的负面幻觉，为 VideoAnalytica 挑战生成困难的查询。有关交互式音频-视频-语言智能体数据集的更多相关详细信息，请参见第 9.2 节。

然后，我们按照 Lin 等人 (2023) 中概述的方法，评估 GPT-4V 作为一种多模态智能体的能力，该智能体集成了视觉、音频和语音，以对视频进行细致而精确的理解。图 26 中描述的结果比较了各种视频智能体在视频摘要任务上的性能。视频指令微调模型 (Li 等人，2023g) 提供了准确的内容，但在全面性和细节方面有所欠缺，遗漏了诸如系统地使用扫帚测量树的高度等特定动作。

为了提高视频描述的准确性，我们使用 GPT-4V 为帧添加字幕，而音频及其转录则来自 OpenAI Whisper 模型。然后，我们提示 GPT-4V 仅使用帧字幕创建视频摘要，然后使用帧字幕和音频转录。最初，我们观察到仅帧字幕会导致虚构事件，例如在第三段中有人咬住一根棍子。这些不准确之处在视频摘要中仍然存在，例如“在一次有趣的转折中，他水平拿着它时咬住了它”之类的描述。如果没有音频输入，智能体无法纠正这些字幕错误，从而导致语义正确但视觉上具有误导性的描述。

但是，当我们向智能体提供音频转录时，它可以准确地描述内容，甚至可以捕捉到详细的身体动作，例如“将扫帚垂直于身体并向下旋转”。这种详细程度的信息量更大，使观看者可以更清楚地了解视频的目的和关键细节。这些发现突出了整合音频、视频和语言交互以开发高质量多模态智能体的重要性。GPT-4V 成为这种先进多模态理解和交互的有希望的基础。

基于 GPT-4V 的具身多模态智能体。

如图 27 所示，我们主要使用 StackOverflow 获取初始问题，然后使用“Bing search”API 检索与该问题相关的视频和音频。接下来，我们主要使用 GPT-4V 获取相关文本信息和高层次视频描述。另一方面，我们通过 ASR 将关键帧音频转换为关键帧的低层次片段描述。最后，我们使用 GPT-4V 生成令人信服的“幻觉”，这些幻觉可以作为视频问答任务的困难负面查询。我们支持在视频的当前帧中进行交互和问答，以及对整体高层次视频描述进行摘要。在推理过程中，我们还结合了通过网络搜索获得的外部知识信息，以提高回答能力。

下面描述了 GPT-4V 的主要提示信息。为了清晰起见，整个提示都缩进了；它超过了一页。

GPT-4V 是一位助手，旨在为可以听到视频但看不到的视障人士提供视频中描述性、信息丰富且全面的详细信息。这项工作是通过综合给定的注释并将它们作为 JSON 输出，来创建高质量、密集的视频描述。具体来说，将为 GPT-4V 提供用于搜索视频的原始查询、视频标题、描述、音频转录以及视频中特定时间的潜在嘈杂描述。同一视频的不同片段被注释为“[时间开始 - 时间结束（以秒为单位）] '文本'”。综合利用转录和描述来推断视频中可能发生的准确细节和视觉演示。GPT-4V 将根据需要组合或分割时间戳，以提供视频的最佳分割。

对 GPT-4V 输出的期望：

以动作为导向的描述：优先考虑音频暗示的合理动作、运动和身体演示，用动态视觉线索丰富你的叙述。
完整的视频覆盖：提供连续一致的音频描述体验，涵盖视频的每一刻，确保没有内容被遗漏。
简洁的分割：以每个 1-2 个句子的重点、简洁的片段构建你的描述，以有效地传达视觉动作而不会过于详细。
上下文音频-视觉合成：将口头音频内容与推断的视觉元素无缝融合，形成反映潜在屏幕活动的叙述。
想象且合理的推测：用与音频对应的创造性但可信的视觉细节来注入你的描述，从而增强场景理解。
准确的时间码对应：将你的描述片段与相应的时间码对齐，确保推测的视觉细节与音频叙述的时间线同步。
自信的叙述传递：自信地呈现描述，就好像推测的视觉效果正在发生一样，以在听众中建立信心。
省略不合理的细节：排除不合理地适合音频和视觉信息建立的上下文中的对象或事件的描述。

最终输出应以 JSON 格式结构化，其中包含字典列表，每个字典详细说明视频的一个片段。

[‘start’：<开始时间（以秒为单位）>，‘end’：<结束时间（以秒为单位）>，‘text’：“<此处输入你详细的单句音频-视觉描述>”]

对于 MC 创建：我们的任务是为视频到文本检索任务创建多项选择题，这些问题可以通过查看标题并通读音频转录轻松解决。为此，我们将获得用于获取视频的原始查询、描述、音频转录以及视频中特定时间的潜在嘈杂描述。

音频转录的格式：-[开始-结束时间（以秒为单位）]“转录”
嘈杂描述的格式：-[时间（以秒为单位）]“描述”

我们恳请 GPT-4V 生成四个查询，其中主要查询与视频内容对齐，其他三个否定查询与我们的主要查询略有不同。选择主要查询不应简单地涉及听音频转录，例如，文本原始查询包含在音频转录中。否定查询应密切相关但不完全与视频内容对齐，需要对视频进行视觉理解才能区分。例如，以细微的方式修改语义，使人们需要观看视频而不仅仅是听来选择原始查询。以类似字幕的语句编译四个查询，第一个查询是改述的原始查询。

逐步思考如何使用视频中的信息提出否定语句。并证明否定查询是不正确的，但仍然是引人注目的选择，需要对视频进行细致的理解。以及人类如何不会意外地选择否定查询而不是原始查询。

最后，我们以下列分析和 4 个查询的形式呈现这项工作。无需生成你如何翻译原始查询。

视频分析：xxx
查询：[query1, query2, query3, query4]
理由：xxx

6.6 用于自然语言处理 (NLP) 的智能体

6.6.1 大语言模型 (LLM) 智能体

识别任务指令并采取行动一直是交互式 AI 和自然语言处理领域几十年来面临的一项基本挑战。随着深度学习的最新进展，人们越来越有兴趣共同研究这些领域，以改进人机协作。我们确定了三个具体方向，以及其他方向，以改进以语言为基础的智能体：

工具使用和从知识库查询。 该方向强调将外部知识库、网络搜索或其他有用的工具集成到 AI 智能体的推理过程中的重要性。通过利用来自各种来源的结构化和非结构化数据，智能体可以增强其理解并提供更准确和上下文相关的响应。此外，它还培养了智能体在面对不熟悉的情况或查询时主动寻求信息的能力，从而确保更全面和知情的响应。示例包括 Toolformer Schick 等人 (2023) 和 Retrieve What You Need Wang 等人 (2023g)。
改进的智能体推理和规划。 增强智能体的推理和规划能力对于有效的人机协作至关重要。这涉及到开发能够理解复杂指令、推断用户意图和预测潜在未来场景的模型。这可以通过要求智能体反思过去的行动和失败来实现，如 ReAct Yao 等人 (2023a)，或者通过将智能体思维过程构建为一种搜索形式 Yao 等人 (2023b)。通过模拟不同的结果并评估各种行动的后果，智能体可以做出更明智的、上下文相关的决策。
整合系统和人类反馈。 AI 智能体通常可以在两种主要环境中运行：一种环境提供有关其行动有效性的明确信号（系统反馈），另一种环境是与可以提供口头批评的人类合作（人类反馈）。该方向强调需要自适应学习机制，使智能体能够改进其策略并纠正错误，例如在 AutoGen Wu 等人 (2023) 中。持续从各种反馈来源学习和适应的能力确保了智能体对用户需求保持有帮助和一致。

6.6.2 通用大语言模型 (LLM) 智能体

识别和理解智能体内容和自然语言一直是交互式 AI 和自然语言处理领域几十年来面临的一项基本挑战。随着深度学习的最新进展，人们越来越有兴趣共同研究这两个领域，以深入理解智能体规划或人类反馈，以进行知识推理和自然语言生成。这些是许多人机交互智能体的关键组成部分，例如“AutoGen”Wu 等人 (2023) 和“Retrieve What You Need”Wang 等人 (2023g)。

6.6.3 指令遵循大语言模型 (LLM) 智能体

此外，创建可以被训练以有效遵循人类指令的 LLM 智能体已成为一个重要的研究领域。最初的模型使用人类反馈来训练代理奖励模型以模拟人类偏好，通过一种称为基于人类反馈的强化学习 (RLHF) 的过程，Ouyang 等人 (2022)。此过程生成了诸如 InstructGPT 和 ChatGPT 之类的模型。为了更有效地训练指令遵循 LLM 智能体而无需人工标签，研究人员开发了一种更有效的指令微调方法，该方法直接在指令/响应对上训练 LLM 智能体，这些指令/响应对要么由人类生成，如 Dolly 2.0 ^5^^5^Dolly 2.0 博客文章链接要么自动来自 LLM，如 Alpaca Taori 等人 (2023)。我们在图 28 中显示了 Alpaca 的整体训练流程。

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 28: 用于训练 Alpaca 模型 Taori 等人 (2023) 的训练方案。在高层次上，现有的 LLM 用于从一小组种子任务中生成大量的指令遵循示例。然后，生成的指令遵循示例用于对底层模型权重可用的 LLM 进行指令微调。

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 29: 逻辑 Transformer 智能体模型 Wang 等人 (2023e)。我们将逻辑推理模块集成到基于 Transformer 的抽象摘要模型中，以便赋予逻辑智能体对文本和对话逻辑进行推理的能力，从而使其能够生成更高质量的抽象摘要并减少事实性错误。

6.6.4 实验和结果

尽管会话和自我反馈系统越来越受欢迎，但这些形式的 AI 在从其自身的隐式知识生成事实正确的响应方面仍然表现不佳，因此经常在推理时使用诸如网络搜索和知识检索机制之类的外部工具来增强其响应。解决这个问题将有助于在许多现实生活应用中为用户创造更具吸引力的体验。在社交对话（例如在 Instagram 和 Facebook 等社交媒体平台上的对话）中，或在问答网站（例如 Ask 或 Quora）上，人们通常通过一系列评论和在网络上搜索与讨论相关的信息和知识来与他人互动。因此，在这种情况下生成会话轮次的任务不仅仅是在传统的 NLP 模型和任务的基础上进行引导，而是使用智能体通过反映知识搜索和获取的智能行为来生成对话 Peng 等人 (2023)。通过这种方式，用于 NLP 任务的智能智能体扩展了任务描述，并通过在对话期间添加显式的知识搜索和检索步骤来改进响应的可解释性。在对话期间整合这些网络搜索和检索智能体作为反馈将有助于进一步和更深入地促进人类与智能体之间的社交互动 Wang 等人 (2023e)。如图 29 所示，我们为 Transformer 语言模型引入了一种新的建模范式，该范式检测并从输入文本中提取重要的逻辑结构和信息，然后通过精心设计的多层分层逻辑投影将它们集成到输入嵌入中，以将逻辑结构注入到预训练的语言模型中，作为一种 NLP 智能体。Wang 等人 (2023e) 提出了一种新颖的方法，通过逻辑检测、逻辑映射和分层逻辑投影的组合，为 Transformer 语言模型构建逻辑感知输入嵌入，然后开发一种相应的新建模范式，可以将所有现有的 Transformer 语言模型升级为逻辑 Transformer，以持续提高其性能。所提出的逻辑 Transformer 智能体通过对文本逻辑结构的更深入理解，始终如一地实现了优于其基线 Transformer 模型的性能。对于人类用户来说，通常这些方面对于通过对话和信息检索之间的智能体协调来提供有意义和有趣的对话更为重要。深入研究自然语言处理，本主题将讨论在使 LLM 更具智能性和更适合各种以语言为中心的任务方面的进步和排行榜。

开放域问答 (QA) 系统通常遵循检索然后阅读的范式，其中检索器用于从大型语料库中检索相关段落，然后阅读器根据检索到的段落和原始问题生成答案。在 Wang 等人 (2023g) 中，我们提出了一种简单而新颖的互学习框架，通过一个名为知识选择器智能体的中间模块来提高检索然后阅读式模型的性能，我们使用强化学习来训练该模块。将细粒度的知识选择器引入检索然后阅读器范式，其目标是构建一个保留与问题相关信息的小段落子集。如图 30 所示，知识选择器智能体被训练为我们新颖的互学习框架的一个组成部分，该框架迭代训练知识选择器和阅读器。我们采用一种简单而新颖的方法，使用策略梯度来优化知识选择器智能体，使用来自阅读器的反馈来训练它选择一小组信息丰富的段落。这种方法避免了蛮力搜索或手动设计启发式方法，而无需任何带注释的查询文档对进行监督。我们表明，迭代训练阅读器和知识选择器智能体可以在一些公共开放域问答基准上获得更好的预测性能。

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 30: 一种提出的 NLP 智能体 Wang 等人 (2023g) 的互学习框架架构。在每个 epoch 中，交替执行阶段 1 和阶段 2。在阶段 1 期间，阅读器模型的参数保持固定，并且仅更新知识选择器的权重。相反，在阶段 2 期间，调整阅读器模型的参数，同时保持知识选择器的权重冻结。

7 跨模态、领域和现实的 Agent AI

7.1 用于跨模态理解的 Agent

多模态理解是创建通用 AI agent 的一个重大挑战，因为缺乏包含视觉、语言和 agent 行为的大规模数据集。更普遍地说，AI agent 的训练数据通常是特定于模态的。这导致大多数现代多模态系统使用冻结子模块的组合。一些著名的例子是 Flamingo Alayrac 等人（2022）、BLIP-2 Li 等人（2023c）和 LLaVA Liu 等人（2023c），它们都利用了冻结的大语言模型（LLM）和冻结的视觉编码器。这些子模块在单独的数据集上单独训练，然后训练适配层以将视觉编码器编码到大语言模型（LLM）嵌入空间中。为了在 AI agent 的跨模态理解方面取得进一步进展，使用冻结的大语言模型（LLM）和视觉编码器的策略可能需要改变。事实上，最近的视觉-语言模型 RT-2 在机器人领域内执行操作时，当为机器人和视觉-语言任务联合调整视觉编码器和大语言模型（LLM）时，表现出显著的性能提升 Brohan 等人（2023）。

7.2 用于跨领域理解的 Agent

创建通用 agent 的一个关键挑战是不同领域中独特的视觉外观和不同的动作空间。人类有能力解释来自各种来源的图像和视频，包括现实世界、视频游戏以及机器人和医疗保健等专业领域，一旦他们熟悉这些领域的具体细节。然而，现有的大语言模型（LLM）和视觉语言模型（VLM）常常表现出它们训练的数据与它们应用的各种领域之间存在显著差异。值得注意的是，当试图开发一种能够有效学习跨领域多种控制系统的单一策略时，训练 agent 模型来预测特定动作提出了相当大的挑战。一般来说，大多数现代作品在特定领域内应用系统时所采取的方法是从预训练的基础模型开始，然后为每个特定领域微调一个单独的模型。这未能捕捉到领域之间的任何共性，并导致用于训练的数据总集较小，而不是利用每个领域的数据。

7.3 用于跨模态和跨现实的交互式 agent

开发能够成功理解并在不同现实中执行任务的 AI agent 是一项持续的挑战，最近在图像和场景生成方面取得了一些成功 Huang 等人（2023a）。特别是，由于视觉上的差异和独立的环境物理特性，agent 同时理解现实世界和虚拟现实环境具有挑战性。在跨现实的背景下，当使用模拟训练的策略处理现实世界数据时，模拟到现实的迁移是一个特别重要的问题，我们将在下一节中讨论。

7.4 模拟到现实的迁移

使在模拟中训练的模型能够部署在现实世界中的技术。具身 agent，特别是基于强化学习（RL）策略的 agent，通常在模拟环境中训练。这些模拟并不能完全复制现实世界的特征（例如，干扰、光线、重力和其他物理特性）。由于模拟和现实之间存在这种差异，在模拟中训练的模型在应用于现实世界时通常难以表现良好。这个问题被称为“模拟到现实”问题。为了解决这个问题，可以采取几种方法：

领域随机化：领域随机化是一种在模拟环境中随机改变参数（例如，对象外观、传感器噪声和光学特性）的同时训练模型的技术，以应对现实世界的不确定性和变化 Tobin 等人（2017）。例如，在训练基于强化学习（RL）的抓取技能时，在物体形状中引入随机性可以使策略能够适应形状略有不同的物体 Saito 等人（2022）。
领域自适应：领域自适应或领域迁移是一种通过使用大量模拟图像和一小部分真实世界图像来训练模型，从而弥合模拟和现实世界领域之间差距的技术。在实际设置中，由于难以准备跨领域的配对图像，因此采用了不成对的图像到图像转换方法，例如 CycleGAN Zhu 等人（2017b）。存在几种强化学习的增强版本，包括强化学习 -CycleGAN Rao 等人（2020），以及模仿学习的增强版本，例如 RetinaGAN Ho 等人（2021）。
改进模拟：逼真的模拟是模拟到现实迁移的关键。部分工作是通过系统识别技术实现的 Zhu 等人（2017c）；Allevato 等人（2020），旨在识别模拟参数以模拟现实世界的环境。此外，使用照片级真实的模拟器在基于图像的强化学习中会很有效 Martinez-Gonzalez 等人（2020）；Müller 等人（2018）；Shah 等人（2018）；Sasabuchi 等人（2023）。

随着方法不断发展，模拟到现实的迁移仍然是具身 Agent 研究中的核心挑战。理论和实证研究对于进一步推进这些技术至关重要。

8 Agent AI 的持续和自我改进

目前，基于基础模型的 AI agent 具有从多种不同数据源中学习的能力，这为训练提供了更灵活的数据来源。这其中两个关键的结果是：（1）用户和基于人类的交互数据可用于进一步改进 agent；（2）现有的基础模型和模型工件可用于生成训练数据。我们在以下部分中更详细地讨论了每一个，但我们注意到，由于当前的 AI Agent 主要与现有的预训练基础模型相关联，因此它们通常不会从与环境的持续交互中学习。我们认为这是一个令人兴奋的未来方向，Bousmalis 等人的初步工作表明，用于机器人控制的自我改进 agent 能够通过环境交互持续学习和改进，而无需监督 Bousmalis 等人（2023）。

8.1 基于人类的交互数据

使用基于人类的交互数据的核心思想是利用大量的 agent-人类交互来训练和改进 agent 的未来迭代。有几种策略可用于通过人机交互来改进 agent。

额外的训练数据：也许使用人机交互最简单的方法是将交互示例本身用作 agent 未来迭代的训练数据。这通常需要过滤策略来区分成功的 agent 示例和不成功的交互示例。过滤可以是基于规则的（例如，达到某些期望的最终目标状态）、基于模型的（例如，对成功与不成功的交互进行分类）或在事后检查和/或修改交互示例后手动选择的。
人类偏好学习：在与用户交互期间，agent 系统可以使用几个不同的模型输出提示用户，并允许用户选择最佳输出。这通常用于像 ChatGPT 和 GPT-4 这样的大语言模型（LLM），用户可以选择一个（在几个中）最符合他们偏好的输出。
安全训练（红队演练）：Agent AI 背景下的红队演练是指拥有一支专门的对抗团队（无论是人类还是计算机），他们试图利用和暴露 Agent AI 系统中的弱点和漏洞。虽然本质上是对抗性的，但红队演练通常用作了解如何改进 AI 安全措施并减少有害输出发生的一种手段。其核心原则是发现诱导不需要的 agent 输出的一致方法，以便可以在明确纠正此行为的数据上训练模型。

8.2 基础模型生成的数据

随着学术界和工业界产生了强大的基础模型工件，已经开发出各种方法来利用各种提示和数据配对技术，从这些工件中提取和生成有意义的训练数据。

大语言模型（LLM）指令调整：从大语言模型（LLM）生成指令遵循训练数据的方法使得可以基于较大的专有大语言模型（LLM）的输出来微调较小的开源模型 Wang 等人（2022b）。例如，Alpaca Taori 等人（2023）和 Vicuna Zheng 等人（2023）是基于开源 LLaMA 系列 Touvron 等人（2023）的大语言模型（LLM），它们已根据 ChatGPT 和人类参与者的各种输出进行了调整。这种指令调整方法可以被视为一种知识蒸馏形式，其中较大的大语言模型（LLM）充当较小学生的教师模型。重要的是，尽管已经表明大语言模型（LLM）指令调整可以将教师模型的写作风格和一些指令遵循能力转移到学生模型，但教师模型和学生模型的真实性和能力之间仍然存在显着差距 Gudibande 等人（2023）。
视觉-语言对：最近的一些工作试图通过自动为视觉内容生成标题和其他文本来增加可用于视觉-语言模型（VLM）的预训练数据的数量和多样性。例如，LLaVA Liu 等人（2023c）使用了 150,000 个来自文本和视觉输入的指令遵循行为示例，这些示例主要是大语言模型（LLM）生成的。其他工作表明，使用视觉语言模型（VLM）重新标注图像可以改进训练数据和后续图像生成模型的质量 Segalis 等人（2023）。在视频理解领域，使用视觉语言模型（VLM）和大语言模型（LLM）重新标注视频已被证明可以提高在重新标注的视频上训练的后续视觉语言模型（VLM）的性能和质量 Wang 等人（2023f）；Zhao 等人（2022）。

9 Agent 数据集和排行榜

为了加速该领域的研究，我们分别针对多 agent 游戏和 agent 式视觉语言任务提出了两个基准。我们将发布两个新的数据集——“CuisineWorld”和“VideoAnalytica”——以及一组基线模型，鼓励参与者探索新的模型和系统，并将他们的结果提交到我们排行榜的测试集上。

9.1 用于多 agent 游戏的“CuisineWorld”数据集

CuisineWorld 是一款类似于 Overcooked！的基于文本的游戏。它为 AI 驱动的 agent 提供了一个合作和协同游戏的平台。此数据集将测试多 agent 系统的协作效率，深入了解大语言模型（LLM）和其他系统在动态场景中的协同工作能力。特别是，该数据集将侧重于 agent 如何理解目标，以及 agent 如何在彼此之间进行协调。此数据集支持两种模式：集中式调度器模式和去中心化模式。参与者可以选择一种游戏模式并向我们的排行榜提交结果。

9.1.1 基准

对于我们的比赛，我们将发布一个基准，即 CuisineWorld 基准，其中包括一个文本界面，该界面包括可扩展的任务定义文件，以及一个用于多 agent 交互和人机交互的界面。我们引入了游戏交互任务，其目标是生成相关的、适当的、可以最大化协作效率的多 agent 协作策略。我们使用提出的评估指标：CoS 来评估协作效率。

“CuisineWorld”数据集由 Microsoft、UCLA 和斯坦福大学收集。比赛的目标是探索不同的、现有的和新颖的、基于基础大语言模型（LLM）的交互技术如何在此基准上运行，并为多 agent 游戏基础设施的任务建立强大的基线。

CuisineWorld 的数据集包括：

一系列定义明确的多 agent 协作任务。
一个用于促进 agent 交互的 API 系统。
一个自动评估系统。

（用于下载数据集的链接将很快提供，本文将更新以将其包含在此处。）

9.1.2 任务

我们提供一个数据集和相关的基准，称为 Microsoft MindAgent，并相应地向研究社区发布一个数据集“CuisineWorld”。
我们将提供基准来评估和排名提交的“MindAgent”算法。我们还将提供使用流行基础设施生成的基线结果。

9.1.3 指标和评判

多 agent 协作效率的质量由新的“cos”自动指标（来自 MindAgent Gong 等人（2023a））确定。我们指标的最终评分计算为多 agent 系统在所有任务上评估的协作效率指标的平均值。将要求人类评估员对个别响应进行评分，并提供对用户与 agent 交互的参与度、广度和整体质量的主观判断。

9.1.4 评估

自动评估。我们计划在发布日期（待定）开始发布排行榜，注册的参与者将被要求提交他们在与数据集“CuisineWorld”（我们为排行榜公开发布的数据集）相关的任务上的结果。结果提交将在结束日期（待定）关闭。每个团队都需要提交他们在测试集上生成的结果，以自动评估“cos”指标。
我们排行榜上的人工评估。排行榜参与者需要提供一个由本地评估脚本生成的提交文件。我们将使用 evalAI 系统来检查提交文件，并可以选择为顶级挑战竞争者重新运行代码。因此，团队还必须提交他们的代码，并附带一个关于如何运行其代码的自述文件。人工评估将由组织团队执行。
获奖者公布。我们将公布获奖者，并在我们的排行榜上发布提交的最终评分。

9.2 音频-视频-语言预训练数据集。

我们引入 VideoAnalytica：一个新的分析视频演示理解基准。VideoAnalytica 专注于利用视频演示作为辅助，以更好地理解嵌入在长篇教学视频中的复杂、高层次的推理。目标是评估视频语言模型的认知推理能力，推动它们超越单纯的识别任务和基本理解，朝着对视频更复杂和细致的理解发展。至关重要的是，VideoAnalytica 强调多种模式（如音频、视频和语言）的集成，以及模型应用特定领域知识来理解视频中呈现的信息并进行解释的能力。具体来说，VideoAnalytica 涉及两个主要任务：

1.
视频文本检索： 此任务涉及从教学视频中准确检索相关文本。挑战在于区分相关和不相关的信息，因此需要深入理解视频内容，并分析演示以检索正确的查询。为了进一步增加这些任务的复杂性，我们在数据集中引入了由大语言模型（LLM）生成的难负例。我们对生成的负例进行人工验证，并删除使任务无效和不公平的实例（例如，负例有效）。
2.
视频辅助的信息性问答： 此任务要求模型根据从视频中提取的信息回答问题。重点是需要分析推理和对视频演示进行彻底理解的复杂问题。

为了促进用于分析视频理解的音频-视频-语言 agent 的开发，我们为 VideoAnalytica 中的两个任务引入了一个基准排行榜。

排行榜参与者需要提交他们的解决方案进行评估。评估将基于模型在两项任务上的表现，结果将显示在排行榜上。参与者需要提交他们的代码，以及对他们的方法和方法的详细解释。
伦理考量：排行榜的重点是理解和解释视频内容，这可能会被用于监视或其他侵犯隐私的应用中。因此，考虑该技术的伦理影响和潜在滥用至关重要。我们鼓励参与者在其提交内容中考虑这些方面，并促进 AI 的道德使用。

10 更广泛的影响声明

本文和我们相关的论坛 ^6^^6^https://multimodalagentai.github.io 旨在成为创新研究的催化剂，促进合作，推动下一波 AI 应用浪潮。通过专注于多模态智能体，我们强调人机交互、排行榜和解决方案的未来方向。我们详细阐述了我们在更广泛的社区中做出重大贡献的三个方面。

首先，我们希望我们的论坛能够引导 AI 研究人员开发由游戏、机器人、医疗保健和长视频理解等现实世界问题驱动的解决方案。具体而言，在游戏中开发多模态智能体可以带来更具沉浸感和个性化的游戏体验，从而改变游戏行业。在机器人技术领域，开发自适应机器人系统可能会彻底改变从制造业到农业的各个行业，有可能解决劳动力短缺并提高效率。在医疗保健领域，使用大语言模型（LLM）和视觉语言模型（VLM）作为诊断智能体或患者护理助手可以带来更准确的诊断、改善的患者护理以及提高医疗服务的可及性，尤其是在服务欠缺的地区。此外，这些模型解释长篇视频的能力可以有广泛的应用，从加强在线学习到改进技术支持服务。总的来说，我们论坛涵盖的主题将对全球范围内的各行各业和人类产生重大的下游影响。

其次，我们希望我们的论坛能够成为 AI 从业者和研究人员的宝贵资源，作为一个平台，探索并深刻理解在各种环境和情况下实施 AI 智能体所带来的各种复杂排行榜。例如，这种探索包括理解为医疗保健诊断等特定领域开发的 Agentic AI 系统的具体局限性和潜在危害。在这个领域，AI 行为中危险的幻觉等问题可能会构成重大风险，突显了精心设计和测试的至关重要性。然而，当考虑为游戏行业制作的 AI 智能体时，这些特定的排行榜可能不那么相关或明显。在这些娱乐领域，开发人员可能会优先解决不同的障碍，例如 AI 需要执行更开放的生成并展现创造力，动态适应不可预测的游戏场景和玩家互动。通过参加论坛，参与者将深入了解这些不同的环境如何决定 AI 开发的重点和方向，以及如何最好地调整 AI 解决方案以满足这些不同的需求并克服相关的排行榜。

第三，我们活动的各个要素，包括专家演讲、信息海报，以及我们两个排行榜的获奖者，旨在提供一个实质性但简洁的概述，介绍多模态智能体领域的最新和重大趋势、研究方向和创新概念。这些演示将总结关键的发现和发展，揭示多模态智能体 AI 领域的新系统、想法和技术。这种知识的集合不仅对我们论坛的与会者有益，他们希望加深对该领域的理解和专业知识，而且还作为一个动态且丰富的资源库。访问我们论坛网站的人可以利用这个信息库来发现和理解推动多模态智能体 AI 未来发展的尖端进步和创新想法。我们努力成为该领域新手和资深人士的有用知识库。通过参与这些资源，我们希望参与者和在线访问者都能了解正在塑造多模态智能体 AI 令人兴奋的格局的变革性变化和新颖方法。

11 伦理考量

多模态智能体 AI 系统有许多应用。除了交互式 AI 之外，有基础的多模态模型可以帮助推动机器人和 AI 智能体的内容生成，并协助提高生产力应用，帮助重放、释义、动作预测或合成 3D 或 2D 场景。智能体 AI 的基本进步有助于实现这些目标，许多人将从更好地理解如何在模拟现实或现实世界中建模具身和移情中受益。可以说，许多这些应用都可能带来积极的好处。

然而，这项技术也可能被不良行为者利用。生成内容的智能体 AI 系统可以用来操纵或欺骗人们。因此，这项技术必须按照负责任的 AI 指南进行开发，这一点非常重要。例如，明确告知用户内容是由 AI 系统生成的，并为用户提供自定义此类系统的控制权。智能体 AI 有可能被用来开发检测操纵性内容的新方法——部分原因是它具有大型基础模型丰富的幻觉性能——从而帮助解决另一个现实世界的问题。

例如，1) 在健康主题中，以合乎道德的方式部署大语言模型（LLM）和视觉语言模型（VLM）智能体至关重要，尤其是在医疗保健等敏感领域。在有偏见的数据上训练的 AI 智能体可能会因给弱势群体提供不准确的诊断而加剧健康差距。此外，AI 智能体处理敏感患者数据会引发严重的隐私和保密问题。2) 在游戏行业，AI 智能体可能会改变开发人员的角色，将他们的重点从编写非玩家角色的脚本转移到改进智能体学习过程。同样，自适应机器人系统可能会重新定义制造业的角色，需要新的技能组合，而不是取代人类工人。负责任地应对这些转变对于最大限度地减少潜在的社会经济混乱至关重要。

此外，智能体 AI 的重点是在模拟中学习协作策略，如果由于分布偏移而直接将策略应用于现实世界，则存在一定的风险。应建立健全的测试和持续安全监控机制，以最大限度地减少现实场景中不可预测行为的风险。我们的“VideoAnalytica”数据集是从互联网上收集的，考虑到它不是一个完全具有代表性的来源，因此我们已经完成了来自 Microsoft 和华盛顿大学的伦理审查和法律程序。即便如此，我们还需要了解该语料库中可能存在的偏差。数据分布可以通过多种方式进行表征。在本次研讨会中，我们已经捕捉到我们数据集中智能体级别分布与其他现有数据集的不同之处。然而，一个数据集或研讨会中可以包含的内容远不止这些。我们认为，需要更多与实际任务或主题相关的方法或讨论，并通过提供这些数据或系统来实现。

我们将把项目的一部分专门用于讨论这些伦理问题，探索潜在的缓解策略，并部署负责任的多模态 AI 智能体。我们希望通过本文帮助更多的研究人员共同回答这些问题。

12 多样性声明

通过研究 AI 智能体模型在各个领域的适应性，我们自然地拥抱各种各样的排行榜、观点和解决方案。本着这种精神，我们的项目旨在通过探索多模态和智能体 AI 中的各种主题来建立一个多元化的社区。

考虑到这些原则，本项目专注于在物理和虚拟环境中有效交互并促进与人类有效交互的先进多模态系统。因此，我们打算吸引来自广泛的技术专业、文化、国家和学术领域的专家和从业者，讨论重要主题，包括但不限于：

基础模型的应用：开发具有集成模态（音频、图像、文本、传感器输入）的智能体，旨在增强其对各种应用的识别和响应能力。
通用端到端系统：开发使用大规模数据训练的端到端模型，旨在创建通用且适应性强的 AI 解决方案。
模态接地的原理：整合各种模态的信息，增强数据处理的连贯性和有效性。
直观的人机界面：开发人类与智能体之间有效且有意义的交互。
驯服大语言模型（LLM）/视觉语言模型（VLM）：探索解决大规模模型中常见问题的新方法，例如输出中的幻觉和偏见。

我们渴望通过利用我们独特和多样化的观点来拓宽我们对智能体 AI 的潜力和局限性的集体理解。我们坚信，这种方法不仅将丰富个人的观点，还将增强社区的集体知识，并促进对多模态 AI 智能体面临的广泛排行榜更加包容的整体观点。

附录 AGPT-4V 代理提示详情

除非另有说明，我们使用 GPT-4V 的默认系统提示。我们详细展示了提示 GPT-4V 进行 Minecraft 游戏的过程，以及我们如何在图 31 中生成 GPT-4V 的回复。

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 31: 我们提供代码片段来展示为 Minecraft 视频调用 GPT-4V 的完整提示过程。首先，我们对视频的帧进行编码，然后调用 GPT-4V 端点。模型的响应显示在屏幕底部。

附录 BGPT-4V 用于《Bleeding Edge》

《Bleeding Edge》是一款第三人称团队战斗游戏，玩家试图占领目标点或收集比敌方团队更多的资源。我们在图 32 中展示了提示 GPT-4V 进行《Bleeding Edge》游戏时的输入和输出示例。与 Minecraft 相比，我们定性地发现 GPT-4V 对视觉内容和游戏规则的理解不太透彻。这可能是由于 (1) GPT-4V 的训练数据中存在大量的 Minecraft 数据，以及 (2) 与 Minecraft 相比，《Bleeding Edge》的视觉复杂性更高。

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 32: GPT-4V 能够为像《Bleeding Edge》这样具有第三人称视角和视觉复杂场景的游戏生成有意义的内容。为了向 GPT-4V 输入大量的帧 (48 帧)，我们将这些帧以网格的形式输入，并在每个帧上叠加帧号 (如上图所示)。

附录 CGPT-4V 用于 Microsoft 飞行模拟器

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 33: GPT-4V 能够为 Microsoft 飞行模拟器游戏生成有意义的内容描述。当飞行模拟器中的玩家正在驾驶飞机时，GPT-4V 代理可以提供高层次的动作描述，通过驾驶舱视角和飞机的外部视图显示，管理各种飞行控制和仪表以保持适当的空速和高度，同时在虚拟空域中导航。为了输入大型视频，我们选择一些关键帧 (6 帧) 发送给 GPT-4V。我们单独输入每个关键帧，不使用网格 (如上图所示)。

如图 33 所示，基于 GPT-4V 的代理可以为 Microsoft Flight Simulator 中的玩家提供高层次的动作描述。它描述了玩家如何通过驾驶舱视角和飞机的外部视图，正在驾驶飞机，管理各种飞行控制和仪表以保持适当的空速和高度，同时在虚拟空域中导航。

附录 DGPT-4V 用于《刺客信条：奥德赛》

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 34: GPT-4V 能够为游戏《刺客信条：奥德赛》生成有意义的内容描述。基于 GPT-4V 的代理还可以提供高层次的动作描述，即“图像中的角色[正在]历史战役中进行夜间战斗，挥舞长矛并利用特殊能力，如“公牛冲锋”，与多个带有等级指示器的敌人作战，同时在第三人称动作角色扮演游戏中管理他们的生命值和能力值”。为了输入大型视频，我们选择一些关键帧 (8 帧) 发送给 GPT-4V。我们单独输入每个关键帧，不使用网格 (如上图所示)。

如图 34 所示，GPT-4V 代理提供了图像中角色的高层次动作描述，即该角色正在历史战役中进行夜间战斗，挥舞长矛并利用诸如“公牛冲锋”之类的特殊能力，与多个带有等级指示器的敌人作战，同时在第三人称动作角色扮演游戏中管理他们的生命值和能力值。GPT-4V 还描述了玩家正在参与大规模的近战战斗场景，控制着一个盔甲上有红色装饰的角色，并根据屏幕上的指示被提示使用“公牛冲锋能力”。环境是黑暗和充满火焰的，暗示着战场，玩家的角色正面对着多个带有等级指示器和头顶血条的敌人。该动作是教程或战斗序列的一部分，玩家在其中学习和执行战斗能力。

附录 EGPT-4V 用于《战争机器 4》

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 35: GPT-4V 能够为《战争机器 4》游戏生成有意义的内容描述。GPT-4V 代理提供了高层次的动作描述，即玩家正在一个视觉丰富的未来环境中进行战斗场景，让人想起工业或军事综合体。角色身穿盔甲，装备有枪械，正在这个区域中导航，利用掩护和瞄准系统与敌人交战。捕捉到的动作包括玩家角色从掩护后瞄准、向敌人射击、承受伤害 (如屏幕上的视觉提示所示) 以及进行近距离战斗。环境以夜间照明为标志，人工光源突出显示感兴趣的区域或动作。在某些时刻，玩家的角色以透明的轮廓形式出现，这可能表示一种特殊能力或暂时的状态，如无敌或隐身。为了输入大型视频，我们选择一些关键帧 (10 帧) 发送给 GPT-4V。我们单独输入每个关键帧，不使用网格 (如上图所示)。

如图 35 所示，根据提供的 10 帧视频序列，GPT-4V 代理可以提供对玩家在视频游戏中的动作的总体描述：

“玩家正在夜间通过工业环境导航角色，战略性地躲在板条箱和墙壁等各种物体后面。该角色装备有武器，并与敌人实体交战。玩家使用枪械，也可能使用近战攻击，如近距离战斗所示。他们似乎正在管理他们的弹药和生命值，屏幕上的视觉提示 (如闪烁的红色指示器，通常表示角色受到伤害) 表明了这一点。

此外，玩家似乎在战术性地移动，在不同的掩护位置之间切换，以推进或防御敌人。在某个时候，似乎启动了防护盾，这表明玩家正在通过使用防御能力来应对来袭的火力。角色似乎也在重新装填武器，这表明在战斗过程中存在资源管理元素。血液和冲击效果表明成功击中了敌人。

玩家的角色与盟友合作，因为在附近可以看到其他角色，他们也参与了类似的战斗动作。环境中有可交互的元素，例如爆炸的桶，玩家可能会利用这些元素来发挥自己的优势。

场景描绘了快节奏的动作，重点是战略移动、射击和情景意识，以克服对手并可能实现游戏中的特定目标。”

附录 FGPT-4V 用于《星空》

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
图 36: GPT-4V 能够为 X-Box 主机游戏《星空》生成有意义的内容描述。GPT-4V 代理为这款以太空为主题的探索游戏提供了高层次的动作描述。为了输入大型视频，我们选择一些关键帧 (10 帧) 发送给 GPT-4V。我们单独输入每个关键帧，不使用网格 (如上图所示)。

如图 36 所示，基于为《星空》提供的 10 帧视频序列，GPT-4V 代理提供了对玩家在视频游戏中的动作的总体描述。根据 GPT-4V 的说法：“图像描绘了《星空》游戏中的一系列事件，展示了玩家在采矿环境中的互动。以下是对该序列的描述：

玩家站在一个昏暗的地下洞穴中，里面有钟乳石，旁边是另一个穿着类似太空装备的角色。他们面对一个高亮显示的路点，指示目标或感兴趣的位置。
玩家穿过工业内部，可能是一个采矿站，接近另一个角色。抬头显示器 (HUD) 显示了“主管林”的对话行，这表明 NPC (非玩家角色) 互动，并且可能是任务简报或更新。
玩家似乎正在跟随 NPC 主管林穿过洞穴，这暗示了游戏中的引导部分，其中 NPC 将玩家引导至特定位置或任务。
主管林的对话暗示了一个决策点或任务更新，可能会指导玩家完成与“大型矿脉”资源相关的新目标。
玩家再次遇到主管林，他提供了有关金属矿床的指示或信息，暗示着采矿任务的开始或对新区域的探索。
在这一帧中，玩家似乎正在观察或与一台机器互动，另一个角色伊莎贝尔表明与设备操作或技术工作相关的动作或对话。
玩家向下看，看到崎岖的地形和两个发光的物体，这可能代表要收集的资源或任务的兴趣点。
玩家检查特定的资源，抬头显示器标记为“铍矿床”，表明正在进行资源收集或采矿活动。
玩家穿过洞穴，可能会寻找其他资源或导航到下一个目标，如前面另一个穿着太空装备的角色所示。
玩家位于洞穴中较暗的区域，有两个发光的标记指示要到达的路径或目标点。

在整个图像中，玩家似乎参与了一项涉及探索、NPC 互动、资源收集以及可能在采矿环境中操作机器的任务。诸如路点、对话文本和任务更新之类的抬头显示器元素为玩家的动作和游戏目标提供了上下文。”

作者简介

Zane Durante

斯坦福大学计算机科学博士生
电子邮箱：durante@stanford.edu
网址：https://zanedurante.github.io/
Zane Durante 是斯坦福视觉实验室的博士生，由 Fei-Fei Li 博士指导。他的研究兴趣包括视频理解、将计算机视觉与自然语言联系起来，以及人工智能在医院护理中的应用。他正在领导斯坦福医学院和斯坦福视觉实验室之间正在进行的合作，以开发一个医院场景视频片段的自然语言描述数据集。他的博士工作由美国国家科学基金会的研究生研究奖学金资助。

Qiuyuan Huang

美国华盛顿州雷德蒙德市 Microsoft Research 的首席研究员。
电子邮箱：qihua@microsoft.com
网址：https://www.microsoft.com/en-us/research/people/qihua/
Qiuyuan Huang 是 Microsoft Research (MSR) 位于华盛顿州雷德蒙德市的深度学习小组的首席研究员。她目前的研究兴趣主要集中在深度学习、多模态和自然语言处理领域，特别是用于游戏、机器人和医疗保健的代理 AI；用于交互式 AI 的知识推理智能；用于推理的神经符号计算；以及用于 NLP 和多模态的大型基础模型。

Naoki Wake

美国华盛顿州雷德蒙德市 Microsoft 的研究员。
电子邮箱：naoki.wake@microsoft.com
网址：https://www.microsoft.com/en-us/research/people/nawake/
Naoki Wake 是 Microsoft 应用机器人研究小组的研究员。他目前的研究涉及为机器人开发多模态感知系统和协同语音手势系统。他过去的研究涵盖了听觉神经科学、神经康复和语音处理。Naoki 于 2014 年获得东京大学工程学学士学位，并于 2019 年获得信息科学与技术博士学位。

Ran Gong

加州大学洛杉矶分校计算机科学博士生。
电子邮箱：nikepupu@ucla.edu
网址：https://nikepupu.github.io
Ran Gong 是加州大学洛杉矶分校 VCLA 实验室的博士生。他的研究领域位于机器人、计算机视觉、计算机图形学和机器学习的交叉点。他的研究重点是具身模拟和交互，目标是创建智能行为，这些智能行为可以在不同的环境中解决不同的任务，并具有与人类协作的能力。他获得了加州大学洛杉矶分校计算机科学与工程专业的理学学士学位。

Jae Sung Park

华盛顿大学博士生
电子邮箱：jspark96@cs.washington.edu
网址：https://homes.cs.washington.edu/~jspark96/
Jae Sung 是由 Yejin Choi 和 Ali Farhadi 指导的博士生。他的研究重点是开发具有多模态常识推理的模型。他有兴趣为模型配备将语言概念置于视觉模态的基础，并让他们以人类处理视觉信息的方式理解多媒体内容。Jae Sung 获得了加州大学伯克利分校计算机科学专业的理学学士学位。

Bidipta Sarkar

斯坦福大学本科生
电子邮箱：bidiptas@stanford.edu
网址：https://bsarkar321.github.io/
Bidipta Sarkar 是斯坦福大学的一名大四本科生，也是斯坦福 ILIAD 实验室的成员。他的研究重点是创建可以与环境交互并安全地与人类和其他自主代理协同工作的人工智能代理。

Rohan Taori

斯坦福大学计算机科学博士生
电子邮箱：rtaori@cs.stanford.edu
网址：https://www.rohantaori.com/
Rohan Taori 是斯坦福大学人工智能实验室的博士生。他的研究重点是在真实世界系统的背景下研究机器学习的基础。最近，Rohan 推动了开源大型语言模型的前沿，对其进行微调，使其成为有用的通用助手。Rohan 对增强具有多模态能力的大语言模型也非常感兴趣，使他们能够对图像和视频进行推理。Rohan 获得了加州大学伯克利分校计算机科学专业的学士学位。

Yusuke Noda

首席软件工程师。Microsoft Gaming，华盛顿州雷德蒙德市。
电子邮箱：yusuke.noda@microsoft.com
网址：https://www.linkedin.com/in/yusuke-noda-908797/
Yusuke Noda 是 Microsoft Gaming Platform 的首席软件工程师。他领导了 Xbox One 和 Xbox Cloud Gaming 的游戏基础设施开发，并在为云和游戏技术开发高效基础设施方面拥有超过 16 年的经验。

Demetri Terzopoulos

加州大学洛杉矶分校杰出教授，荣获奥斯卡奖的计算机科学家和企业家。
电子邮箱：dt@cs.ucla.edu
网址：https://web.cs.ucla.edu/~dt/
Demetri Terzopoulos 博士是加州大学洛杉矶分校的杰出教授和校长计算机科学教授，他在那里指导加州大学洛杉矶分校计算机图形和视觉实验室。他还是跨国医疗保健人工智能公司 VoxelCloud, Inc. 的联合创始人兼首席科学家。他是或曾经是古根海姆奖学金获得者、伦敦皇家学会 (FRS) 和加拿大皇家学会 (FRSC) 会员、计算机协会 (ACM) 会员、电气和电子工程师协会 (IEEE) 终身会员、亚太人工智能协会 (AAIA) 会员、国际工程技术研究所 (IETI) 杰出会员、欧洲科学院 (EAS) 和纽约科学院 (NYAS) 会员以及 Sigma Xi 终身会员。

Yejin Choi

华盛顿大学 Wisnner-Slivaka 讲席教授和 Brett Helsel 教授、艾伦人工智能研究所高级研究经理和麦克阿瑟研究员。
电子邮箱：yejin@cs.washington.edu
网址：https://homes.cs.washington.edu/~yejin/
Yejin 是华盛顿大学的 Wisnner-Slivaka 讲席教授和 Brett Helsel 教授，也是艾伦人工智能研究所的高级研究经理。她于 2018 年获得了安妮塔·博格早期职业奖。她是 2020 年麦克阿瑟研究员基金会奖学金的获得者。她获得了 AAAI 2020、Neurips 2021、ICML 2022 和 ACL 2023 的杰出论文奖，以及 NAACL 2022 和 ACL 2023 的最佳论文奖。她是 COLM 2024 的主要组织者之一，这是一个专注于语言模型研究的学术场所。她的主要研究兴趣是自然语言处理、机器学习、人工智能领域的常识推理，以及计算机视觉和数字人文领域的更广泛的兴趣。

Fei-Fei Li

斯坦福大学计算机科学教授
电子邮箱：feifeili@stanford.edu
网址：https://profiles.stanford.edu/fei-fei-li/
Fei-Fei 是斯坦福大学计算机科学系的首任红杉教授，也是斯坦福大学以人为本的人工智能研究所的联合主任。她于 2013 年至 2018 年担任斯坦福大学人工智能实验室主任。在她于 2017 年 1 月至 2018 年 9 月在斯坦福大学休假期间，李博士曾担任 Google 的副总裁，并担任 Google Cloud 人工智能/机器学习的首席科学家。此后，她曾在多家上市公司或私营公司担任董事会成员或顾问。

Katsushi Ikeuchi

微软高级首席研究经理和 IEEE 终身会员。美国华盛顿州雷德蒙德市 Microsoft Research。IEEE 终身会员。
电子邮箱：katsuike@microsoft.com
网址：https://www.microsoft.com/en-us/research/people/katsuike/
Katsushi Ikeuchi 博士于 1973 年获得京都大学机械工程学士学位，并于 1978 年获得东京大学信息工程博士学位。在麻省理工学院人工智能实验室工作三年后，在日本政府国际贸易和工业部电子技术实验室工作五年后，在卡内基梅隆大学机器人研究所工作 10 年后，在东京大学工业科学研究所工作 19 年后，他于 2015 年加入微软担任首席研究员。在 CMU 和东京大学任职期间，他指导了 50 多名博士生。

他的研究兴趣跨越计算机视觉、机器人和计算机图形学。在这些研究领域，他获得了多项最佳论文奖，包括计算视觉领域的 David Marr 奖和 IEEE 机器人与自动化协会 K. S. Fu 纪念最佳论文奖。

他的社区服务包括：IROS95、ITSC99、IV01、ICCV05、ACCV07、ICCV17 的总主席；CVPR96、ICCV03、ICRA09、ICPR12、ICCV15 的项目主席；IJCV (2000-2017) 的 EIC、IJ ITS (2012-2014) 的 EIC、IEEE Trans. RA、IEEE Trans. PAMI 的副编辑；以及 2000-2002 年 IEEE 信号处理学会、2004-2006 年 IEEE 机器人与自动化学会和 2008-2010 年 IEEE 计算机学会的杰出讲师。

通过这些研究和社区服务，他获得了 IEEE、IEICE、IPSJ 和 RSJ 的 (终身) 会士。他获得了 IEEE-PAMI 的杰出研究员奖、日本天皇颁发的紫绶褒章、大川基金会的大川奖以及日本专业协会颁发的几项研究成果奖。

Hoi Vo

技术研究员。微软游戏和 X-Box 新兴技术，美国华盛顿州雷德蒙德市。
电子邮箱：hoiv@microsoft.com
网址：https://www.linkedin.com/in/hoi-vo-193420/
Hoi Vo 是微软游戏部门的技术研究员，专注于将 AGI 与新的游戏 IP 相结合。他在建立 Xbox Cloud Gaming 服务方面发挥了关键作用，并领导了微软各团队 (包括微软的 Windows Azure 平台) 的云和游戏工作。他的重点是优化 AI 模型，使其在边缘高效运行，同时利用云来处理超出硬件能力的场景，包括微调模型，使其更具吸引力的各种游戏体验。

Jianfeng Gao

微软杰出科学家兼副总裁和 IEEE 会士。美国华盛顿州雷德蒙德市 Microsoft Research。IEEE 会士。
电子邮箱：jfgao@microsoft.com
网址：https://www.microsoft.com/en-us/research/people/jfgao/
Jianfeng Gao 博士是微软研究院的杰出科学家兼副总裁、IEEE 会士、ACM 杰出成员，也是微软研究院深度学习小组的现任负责人。2014 年至 2017 年，他曾担任 Microsoft AI Research 和微软研究院雷德蒙德市的深度学习技术中心 (DLTC) 的业务 AI 合伙人研究经理。他领导了预测销售和营销 AI 解决方案的开发。他还致力于文本和图像处理的深度学习 (请参阅 ACL/SIGIR 2018 教程、深度学习 2017 教程和 IJCAI 2016 教程或微软内部网站)，并领导了对话、机器阅读理解 (MRC) 和问题回答 (QA) 的 AI 系统开发。自 2022 年起，他领导了自我改进 AI 的研究，其中增强和改编了 LLM (例如 ChatGPT/GPT4)，用于开发商业 AI 系统。

致谢

我们特别感谢 Peter Lee、Doug Burger、Desney Tan、Johannes Gehrke、Ryen White、Ece Kamar、Subhojit Som 和 Kareem Choudhry 的建议、大力支持和鼓励。我们感谢 Haiyan Zhang、Spencer Perreault、Dave Bignell、Katja Hofmann、Sam Devlin、Shanzheng Tan、Raluca Georgescu、Bill Dolan、Nebojsa Jojic、Sudha Rao、Adrian Brown 和 Andrzej Banburski-Fahey 的早期深刻讨论和游戏方面的帮助。我们感谢 Kiran Muthabatulla、Antonio Criminisi、Tom Cashman、Nguyen Bach、Jennifer Marsman 和来自微软 Mesh 团队、微软 OCTO 和微软 Office 团队的 Jaron Lanier 对混合现实工作、数据集工作以及他们对该项目的慷慨帮助和反馈。我们特别感谢 Paul Bennett、Corby Rosset、Michel Galley、Chenglong Wang、Baolin Peng、Hao Chen、Silviu Cucerzan、Ahmed Awadallah 和 Saleema Amershi 对 NLP 部分的建议和意见。作者衷心感谢 Paul Smolensky、Yonatan Bisk、Kezhen Chen、Borui Wang、Liangke Gui、Dingmin Wang、Xin (Eric) Wang、Zhe Gan、Xiaojian Ma、Zilong Zheng、Song-chun Zhu、Dragomir R. Radev、Daniel McDuff、Harry Shum 对相关先前工作、评论、建议、对本文的艰苦多次审查以及他们对文献的提示。最后，我们真诚地感谢 Microsoft Holulens 团队、Microsoft X-box 团队和 Meta Quest 团队慷慨地提供设备；MSR 中央工程 (CE) 团队、微软 343 团队进行数据收集和共享；微软 AOAI 和 GCR 团队对 Azure-OpenAI 端点的支持。

我们还要感谢来自斯坦福大学人工智能辅助护理合作伙伴的同事，他们帮助我们了解了这项工作中探索的医疗应用。我们特别感谢 Ehsan Adeli、Paul Tang、Amit Kaushal、Roger Bohn、Kevin Schulman 和 Arnold Milstein 的临床专业知识和指导。

这项研究得到了微软研究项目 Fair 2023、微软 HackBox 2023 和 OCTO 团队的支持。

AI知识库

文章版权归作者所有，未经允许请勿转载。

如何用DeepSeek的AI软件自动生成报告？

AI答疑

6个月前

01.4K

美食外卖服务介绍——终极营销文案ChatGPT提示词

AI实用指令

12个月前

01.5K

海螺AI视频如何集成到ComfyUI节点？