2025 年企业数据与 AI 趋势：智能体、平台与未来展望

2.4K 00

做出预测，尤其是在数据和 AI 这样快速发展的领域，是出了名的困难。尽管如此，我们，Rajesh Parikh 和 Sanjeev Mohan，去年发布了我们的 2024 年趋势预测。随着 2024 年的结束，我们很高兴地确认我们的预测非常准确。考虑到 AI 前所未有的发展速度，这种成功更加值得关注，这种变化速度在 IT 行业中是罕见的。

在我们的前四大预测中，我们强调了智能数据平台和 AI 智能体的兴起。虽然这些趋势在 2023 年不太明显，但 AI 智能体背后的势头现在是不可否认的，预示着进一步的加速。AI 和 AI 智能体的主流化持续不断。

在数据平台方面，我们观察到向智能、统一平台的强烈转变，这主要是由于需要简化用户体验并加速数据和 AI 产品开发。随着更多供应商进入市场，扩大企业可用的选择范围，预计这一趋势将加剧。

2025 年的预期

当我们迈向 2025 年时，企业数据和 AI 的格局将发生重大变革，重塑行业并重新定义人类与技术的互动。我们不想称其为预测，而是希望使用本文档来探讨我们认为需要企业高管和技术经理密切关注的这些变革性趋势。因此，读者应将其作为确定优先事项并准备组织以选择正确方向的指南。

事不宜迟，让我们深入探讨我们认为可能主导企业数据和 AI 格局的趋势。图 1 说明了分类为应用 AI、数据与运维和登月计划的趋势。

图 1：2025 年的数据和 AI 格局的特点是智能体的兴起、数据平台的演变以及追求雄心勃勃的登月计划，这些计划有可能改变我们周围的世界。

应用 AI：这些趋势将显著影响企业如何利用 AI 模型进行转型，特别是在智能体如何自动化日常任务和功能方面。随着模型推理能力的不断进步，这些智能体将不断发展，以处理日益复杂的任务并无缝协作。
数据和平台趋势：支持结构化和非结构化数据的融合数据和元数据平面将驱动 AI，并作为智能体和 AI 应用的基础。一些关键趋势正在融合以支持这一愿景，包括数据平台管理方面的进步以及用于智能体应用的强大中间件的开发。
登月计划：这些雄心勃勃、高风险的尝试突破了当前技术的界限，探索了当今可能看起来很前沿的领域。虽然存在很大的失败风险，但这些领域的突破有可能彻底改变行业并重新定义人机交互。

应用 AI

2025 年的应用 AI 趋势围绕智能体的实际应用和主流采用展开。如图 2 所示，我们确定了四个关键的子主题，它们有望在此类别中产生最显著的影响。

图 2：就像机器学习一样，AI 的民主化将通过一个蓬勃发展的智能体生态系统来实现，该生态系统可以解决各种任务和特定领域的挑战。

接下来，让我们回顾一下每个 AI/AI 应用的趋势。

智能体无处不在

2025 年，我们将进入智能体 AI 的时代。

以下是去年趋势中关于 AI 智能体的摘录以及我们对企业的建议。

我们认为 AI 信息智能体是一个可能需要多年才能实现的趋势；但是，鉴于其前景，我们预计 2024 年将是在智能体基础设施/工具以及早期采用方面取得重大进展的一年。应该指出的是，我们对当前 AI 架构承担更复杂任务的潜力的大部分理解仍然主要关于潜力，并且存在相当多的未解决的问题。

尽管如此，企业必须致力于采取务实的方法来构建智能体应用程序，并且在某种程度上预期当前 AI 技术在承担越来越多的复杂自动化方面的差距可能会逐年缩小。它还必须考虑在未来 12 个月内按用例实现自动化的程度。此类项目的进化路径/旅程可能会在此类努力中取得更大的成功。

在 2025 年，由于对重复性任务自动化和增强客户体验的需求不断增长，企业中智能自主 AI 智能体的采用有望加速。这些智能体将增强人类的能力，使我们能够专注于创造性、战略性和复杂的工作。

它们将自动化扩展到需要高水平思维、推理和问题解决的任务——这些任务目前需要大量的人工参与。例如，智能体可以进行市场调研、分析数据或回答客户支持查询。它们还可以自动化以前由于复杂性、成本或两者兼而有之而被认为不切实际的复杂、多步骤工作流程。

AI 智能体是一个程序或系统，它可以感知其环境、推理、将给定任务分解为一系列步骤、做出决策并采取行动以自主完成这些特定任务，就像人类工人一样。

我们目前正在目睹 AI 驱动工具的出现，例如每月大约 20 美元即可使用的开发人员副驾驶，以及像 Devin 这样售价 500 美元的早期智能体（仍然代表 2 级自动化解决方案）。2 级 AI 智能体是指可以自主执行某些任务，但仍需要大量人工监督和干预的智能体。

然而，在 2025 年，我们预计将出现更先进的智能体，其相应的价格也将更高，以反映它们提供的价值。例如，一个专门的智能体，如果其在制定部门的漏斗顶部入站和出站营销策略方面的表现能够超越初级营销人员，那么其价格可能高达 20,000 美元。

多智能体系统

多智能体系统 (MAS) 使多个自主智能体能够协同工作，进行交流和协作，以解决单个智能体无法克服的复杂挑战。MAS 内的这种专业化使每个智能体都可以专注于其专业领域，从而提高系统的整体效率，因为智能体贡献其独特的技能和知识来解决复杂的问题。这些智能体相互交互，经常使用不同的通信模式和渠道，以实现其个人目标或总体系统目标。

图 3 说明了多个智能体如何协作以增强组织内的内容生成。

图 3：一个由三个智能体组成的多智能体系统，它们专注于内容研究、创建和发布任务，协同工作以满足营销部门的需求。

MAS 可以通过常见的架构模式展示不同的控制级别和不同的架构模式，以实现通信和协调：

分层团队：这种类型的 MAS 通常采用中央管理器或任务委托器来调解通信。系统内的 Worker 智能体仅通过此中央智能体进行通信，从而防止智能体之间的直接通信。
对等：在对等 MAS 中，智能体直接相互通信，而不依赖于中央机构。
小组协作：这种类型的 MAS 类似于群聊（例如，Slack、Microsoft Teams），智能体在其中订阅相关频道并通过发布-订阅架构进行协调。

与单个智能体系统（其中一个智能体处理多个角色）不同，MAS 可以实现高效的专业化，从而提高各种应用程序的性能。MAS 对于扩展复杂的智能体自动化至关重要；向单个智能体加载过多任务会引入复杂性和可扩展性/可靠性问题。

我们预见到企业开发更多专业化智能体的趋势。这些智能体必须以团队配置运行，协作和协调以实现更大、更复杂的工作流程。因此，MAS 将在智能体驱动的工作流程自动化计划的整体成功中发挥关键作用。

智能体管理系统

智能体管理系统 (AMS) 有助于 AI 智能体的开发、评估、部署和部署后监控。通过简化这些智能体的创建和改进，AMS 可以更快地迭代并简化生命周期管理。它还可以通过全面的部署前测试和持续的生产监控来确保智能体达到预期的目标。

图 4 显示了代表性 AMS 的组件。

图 4：代表性智能体管理系统 (AMS) 的组件

代表性 AMS 包含以下组件：

智能体构建器：智能体构建器，通常称为智能体框架，有助于快速创建新智能体并迭代改进现有智能体。
智能体注册表：智能体注册表维护可用智能体的目录，并促进访问控制和治理，其中包含版本管理，以确保目标受众的适当访问。
智能体游乐场：智能体游乐场为手动测试智能体在各种任务和用户查询中的表现提供了用户友好的即插即用界面。此环境允许快速评估智能体性能。
智能体实验：智能体实验支持自动进行智能体的部署前评估。这种结构化方法通过定义数据集、选择适当的指标、配置环境、分析结果和生成评估报告来评估智能体性能。以前运行的实验日志通常也可用。
部署和监控：智能体部署涉及在暂存或生产环境中为智能体配置必要的资源，而监控则跟踪相关的运行时指标。这可以确保智能体的可靠性和有效性。
聊天 UI：聊天 UI 提供与部署在生产环境中的智能体交互所需的必要用户界面。

我们预计企业将部署大量专门构建的智能体，以解决各种特定领域的任务。AMS 将在支持组织创建、部署和管理整个生命周期中的这些智能体方面发挥关键作用，从而实现智能体化企业。

任务特定模型

尽管 Anthropic 的 Claude、OpenAI GPT 系列、Google 的 Gemini 和 AWS 的 Nova 等领先模型在 2024 年占据主导地位，但在任务和领域特定模型的开发方面出现了一些值得注意的趋势，这些趋势尤其与企业用例相关。

图 5 说明了此模型创建过程中涉及的步骤。此过程通常称为 后训练对齐。

图 5：用于创建领域模型的技术

1.监督式微调

监督式微调 (SFT) 涉及使用偏好数据集训练基础模型（通常是预训练的基础模型或指令调整的变体）。在 思维链 (CoT) 对齐的上下文中，此数据集中的每个记录通常包含 (提示、CoT、输出) 三元组，其中 CoT 明确引用相关的安全规范。

上下文提炼过程创建数据集，首先使用仅针对有用性进行训练的模型，并使用安全规范和相关提示提示它。此过程的结果是 SFT 模型。

2. 强化学习微调

第二阶段采用高计算强化学习 (RL)。此阶段使用判断 LLM 根据模型对安全规范的遵守情况来奖励信号，从而进一步提高模型安全推理的能力。至关重要的是，除了初始规范创建和高级评估之外，整个过程只需要最少的人工干预。

CoT 推理允许 LLM 明确表达其推理过程，使其决策更加透明和可解释。在 RL 阶段对齐中，CoT 包括对安全规范的引用，说明模型如何得出其响应。这使模型能够在生成答案之前仔细考虑与安全相关的问题。在训练数据中包含 CoT 使模型可以学习使用这种形式的推理来获得更安全的响应，从而提高安全性和可解释性。此阶段的输出通常被称为 “推理模型”

3. 持续微调

持续微调使 AI 工程师和数据科学家能够使模型适应特定的用例。深度学习工程师和数据科学家现在可以使用 10 到 1,000 个示例微调前沿模型和开源模型，从而显著提高针对性应用程序的模型质量。这对于希望提高特定用例模型可靠性而无需投资大量后训练基础设施的企业至关重要。

大多数前沿模型现在都为偏好调整和强化学习微调 (RLFT) 提供持续微调 API，从而降低了创建任务或领域特定模型的门槛。

此阶段的输出可以称为“任务或领域特定模型”。

开源微调框架（如 Hugging Face Transformers 强化学习 (TRL)、Unsloth 等）为 OSS 模型提供了类似的持续调整功能。例如，自发布以来，Llama 模型的早期采用者已对其进行了 85,000 多次微调。

当我们继续在企业中推广 AI 采用时，我们在这里观察到两种不同的趋势：

拥有大量资本资源的组织（我们称之为“前沿企业”）可能会采用后训练开源模型的策略，通过持续微调针对特定领域和用例对其进行广泛定制。
对于预算有限但高度关注可靠用例的有抱负的企业，一种经济高效的策略是选择现成的 LLM，并通过持续微调优先进行任务特定对齐。

数据和运维趋势

数据对于成功的 AI 实施至关重要，需要数据管理最佳实践。图 6 说明了 2025 年的关键数据和运维趋势。

图 6：关键数据和运维趋势

让我们深入探讨每一个趋势。

智能数据平台

为了加速数据和 AI 创新并减少运营开销，我们在 2024 年提出了一个统一的智能数据和 AI 平台 (IDP)。这种统一和简化工作在主要软件提供商中获得了显著的吸引力，从而产生了图 7 所示的架构。

图 7：智能数据平台架构

IDP 精简了数据生命周期（存储、处理、分析和机器学习）的集成，从而减少了对零散工具和人工的需求。它还为数据治理策略和执行提供了一个集中式框架。

虽然在 2024 年，成熟的科技公司和初创公司的主要产品都继续增强了功能，但用于 AI 智能体的数据和 AI 平台的广泛采用仍在进行中。

在 2025 年，数据平台供应商将继续整合他们的服务，为 AI 智能体和多智能体系统创建一个至关重要的基础，为这些应用程序提供操作和决策所需的信息。这些平台提取了三个关键功能：

统一数据平面：统一数据平面支持各种数据格式（包括文本（例如，PDF）、图像（例如，PNG、JPEG）和音频/视频（例如，MP3））的载入、存储、管理和治理。此统一数据平面中的一个关键子趋势是采用开放表格式，例如 Apache Iceberg、Delta Lake 和 Apache Hudi。
统一元数据平面：元数据为 AI 应用程序提供有关它们处理的数据的基本上下文信息。例如，如果数据包含一份人力资源政策文档，则相关的元数据可能包括文档的版本号、上次修订日期和作者。如果没有提供这些细微差别的丰富元数据，智能体将很难建立足够的上下文并提供预期的功能。
多引擎编排器：IDP 还提供了一个可扩展的编排层，旨在管理和协调各种计算引擎，包括用于分析处理、数据转换和执行 AI 模型的引擎。
治理平面：IDP 还充当访问控制、治理和个性化中间件，使智能体能够更好地了解用户角色（包括角色、数据访问和查询历史记录）并个性化响应。

AI 的 ETL

ETL（提取、转换和加载）是一个关键的数据集成过程，用于为 AI 和机器学习模型准备原始数据。此过程涉及从各种来源提取数据，通过清理和格式化对其进行转换，然后将其加载到数据管理或存储系统中，例如前面描述的 IDP、数据仓库或向量存储。

虽然企业已经熟悉用于结构化数据的 ETL（从操作数据库中提取、转换数据并将其加载到仓库或数据湖中），但用于 AI 的 ETL 将此过程扩展到包含各种数据格式，包括文本（.pdf、.md、.docx）、音频/视频（mp3、mpeg）和图像（jpeg、png）。

这些非结构化数据源可能包括企业使用的各种内容存储库、应用程序和 Web 资源。实际上，ETL 过程本身可以利用 AI 进行提取任务，例如使用多模态大型语言模型 (LLM) 或光学字符识别 (OCR) 模型从 PDF 中提取实体（图像、表格和命名实体）。

非结构化数据的 ETL 支持各种下游用例：

AI 驱动的见解：检索增强生成 (RAG) 使应用程序能够促进用户与文档的交互、提取关键摘要并支持类似的用例。从 SharePoint、Dropbox、Notion 和各种云存储库和应用程序等不同来源提取和转换数据将成为 AI 驱动见解的关键推动因素。我们预计供应商将继续提取 RAG，将其作为统一数据、分析和 AI 平台中可随时访问的功能进行集成。
AI 搜索：与传统的关键字搜索相比，提高了企业内容的可访问性和智能性。
AI 驱动的自动化：提供来自非结构化数据的必要知识层，为智能体提供基本的上下文信息。
后训练对齐和持续微调：促进新数据和更新数据的可用性，从而实现为各种部门用例无缝且持续地个性化模型。

AI 的数据准备

数据准备是成功实施任务特定模型和 AI 智能体的基础。

这是此类计划成功的关键“先决条件”。

为了使数据可用于 AI，需要从多个维度全面准备数据。虽然 AI 几乎可以消耗企业拥有的所有可用数据，但正确的方法是从正在优先考虑的用例中得出数据准备要求。

图 8 说明了 AI 的数据准备的一些关键维度

图 8：AI 的数据准备

数据质量和可观测性

此数据是否通过了既定的质量指标？这可能意味着以下一项或多项：

信任
新鲜度
正确性
元数据的完整性
血统
合法性/偏差
相关性
版本化

如何实时管理、跟踪和呈现上述指标？

可观测性数据
数据沿袭
修订历史

AI 的数据产品

数据产品对于任务特定模型的成功、AI 模型和智能体应用程序的基准测试和测试至关重要。一些重要的 AI 数据产品包括：

1.可用于训练的数据集：标记数据成为有价值的数据产品，可以立即用于 AI 训练。

2.链 (CoT) 数据集：与传统数据集（通常为训练提供输入和输出）不同，CoT 数据集还包括中间推理步骤，这些步骤解释了答案的得出方式。这种逐步推理方法与人类解决复杂问题的方式密切相关，使 CoT 数据集对于训练 AI 模型执行需要逻辑推理、计划和可解释性的任务非常有价值。

3.提炼的数据集：提供数据集的较小代表性子集，该子集捕获完整数据集的多样性和可变性。以下是提炼数据集的几个示例：

a. 一个捕获不同情感水平和产品类别的客户评论子集。

b. 创建的高质量任务特定数据集，用于训练较小的模型（学生模型）来模仿更大、更复杂的模型（教师模型）的性能。

c. 为微调技术问答模型而提炼的技术文档子集。

4. 合成数据集：用于生成模仿原始数据集核心属性的合成数据集的提炼数据。它们通常用于增强数据稀缺或不平衡的真实数据集。通过生成变体，可以在更多样化的数据集上训练模型。

5. 知识图谱数据集：由 GraphRAG 提供支持的数据产品利用了基于图的数据检索和生成功能。例如，连接医学术语、诊断、治疗和患者结果的医疗保健知识图谱数据集可用于提供个性化的医疗建议、建议可能的治疗方案并帮助医生做出数据驱动的决策。

6. 用户数据：用户数据在构建更智能、个性化的 AI 应用程序方面至关重要。此数据通常包括有关用户角色的任何信息以及 AI 智能体或应用程序用来理解用户角色（智能体可以利用这些信息来提供有意义的输出或响应）的用户交互或输入。以下是一些用户数据示例：

a. 具有用户角色和用户数据集/查询/仪表板交互历史记录信息的数据分析师智能体可以通过过滤和选择适当的数据集访问历史记录和查询运行来个性化查询响应。

b. 了解用户客户状态（例如，高级或普通）和过去支持请求性质的客户支持智能体可以使用过去的工单、问题和解决方案来优先响应、提供更快的解决方案或推荐特定的知识库文章。

c. 通过分析过去与潜在客户和客户的沟通历史和参与模式，销售智能体可以个性化后续策略、推荐特定产品或服务，并根据其历史行为优先考虑潜在客户。

登月计划

登月计划是雄心勃勃的探索性尝试，旨在通过突破性的解决方案来解决重大挑战。这些项目通常会突破当前技术的界限，在创新的前沿运行。虽然它们本身具有很高的失败风险，但其变革性结果的潜力是巨大的。

虽然本节是创造性探索的空间，但我们想探讨图 9 中突出显示的更多推测性概念。

图 9：登月计划

认知智能体

认知智能体积极地、持续地从其经验中学习，并不断地适应和改进。图 10 描述了认知智能体的决定性特征。

图 10：认知智能体的五个关键特征：学习、记忆、自我意识、自我改进、自我升级

除了 AI 智能体的通用功能之外，认知智能体通常还具有以下几个其他能力：

1.记忆保留

更长的记忆保留能力是认知智能体的关键特征之一。记忆保留能力使智能体能够回忆起之前的对话，通常会记住特定的事件，包括何时何地发生，并经常从中学习。

因此，认知智能体具有复杂的记忆架构，其中包括用于保留的长期存储和特定形式的记忆（例如情景记忆），这使智能体能够及时回溯并回忆起特定的事件，包括何时何地发生。

情景记忆的一个使用示例可以是回忆之前事件中成功完成任务的步骤。如果智能体再次面临相同的任务，它可以回忆起之前成功实例中采取的确切步骤，并在此次更有效地执行该任务。

2. 从过去的互动中学习

这些智能体从过去的互动中学习，并利用这些学习在未来做出更好的决策。

3. 自我意识

这些智能体可能还会意识到它们自己的构造细节和功能。

它们可以潜在地从用户交互中学习并更新其知识库以获得新的学习内容。

4. 自我修复

自我修复使智能体能够通过添加新功能来扩展其功能，例如工具，从最近的交互中创建偏好数据集，并触发下一个微调作业。它还可以进一步评估新模型，并在模型注册表中注册新模型修订，同时生成详细的模型报告供 AI 工程师审查。

5. 自我升级

（可选）智能体可能会自我升级到上面创建的新模型修订。

具身智能体

具身智能体是具有物理存在（如机器人）的 AI 智能体类型。这种“具身”至关重要，因为它允许智能体像人类一样感知和作用于物理世界，使其能够学习和执行需要智能体对物理空间形成深刻理解并执行分配的任务的任务。生成式 AI 有望通过超越传统的基于规则的编程，在更复杂和动态的环境中运行，从而彻底改变机器人技术。

图 11 描述了企业如何将这些新型智能体用于各种应用。

图 11：企业使用嵌入式智能体的示例。

让我们探讨一下银行如何使用具身智能体。他们分行的具身客户支持智能体可以启动步行客户的首次互动、提供个性化的财务建议并帮助处理交易。

在零售业中，具身智能体可以采取店内购物助理的形式，提供产品信息并在店内进行引导。在制造业中，这些智能体可以处理需要移动性和灵巧性的任务，这些任务对于人类安全来说是危险的。

智能体网络

由于缺乏标准化的消息格式、协议和冲突解决机制，多个 AI 智能体为实现共同目标或解决复杂问题而进行的有效通信目前受到阻碍。未来的网络方法必须具有可扩展性、低延迟性和安全性，在智能体之间建立信任并保护通信网络免受恶意攻击。

这将我们带到关于智能体网络改进的最后一个预期趋势。

有效的智能体网络可以彻底改变智能体在企业内部和外部进行通信、协作、协调、完成工作和学习的方式。这种趋势与早期互联网和互联网协议的标准化以及 web 2.0 时代社区和论坛的演变类似。这些趋势显著增强了物理界限之外的人与人之间的协作。

图 12 显示了建立有效智能体网络的四种选择。

图 12：可能的智能体网络标准示例

所有登月计划趋势的好处是巨大的。认知智能体可以通过分析交换数据、更新自己的知识库、分析交换数据、改进与人类类似的通信方式以及加速企业边界内的创新，从而通过这些互动来学习。

结论

总而言之，应用 AI 趋势是加速 AI 智能体和应用程序在企业中得到有意义采用的趋势，而数据和运维趋势则为支持和加速这些智能体应用程序提供了坚实的基础。此外，登月计划涵盖了今天可能看起来很激进，但可能带来下一个变革性影响的主题。

与往常一样，这项研究的目的是关注技术解决方案，而不是组织影响。自主智能体自然会引起人们对工作岗位流失的担忧，因为 AI 智能体有望接管重复性任务。企业需要通过批判性地重新定义工作角色并围绕创建、管理 AI 并与之协作来创建新的工作角色，从而重新发现人与 AI 智能体之间的协同/协调作用。因此，这种转型创造了另一项重要任务，因为大多数企业都需要在 AI 转型的同时批判性地提高和重新培训其员工队伍。

最后，LLM 模型架构的任何突破，能够以经济高效的方式引入自适应知识注入的解决方案，或在理解和推理能力方面的显著改进，都有可能进一步影响 AI 应用程序的潜在现实。