国内首个专业领域知识增强服务框架 KAG 技术报告，助力大模型落地垂直领域

43.5K 00

近日，蚂蚁集团知识引擎负责人梁磊，在外滩大会分享了团队在过去半年中，在知识图谱与大型语言模型融合研究方面的工作进展，发布了国内首个专业领域知识增强服务框架 KAG，助力构建具备知识增强功能的专业智能体。本文是报告内容的文字整理。

相关技术报告 arXiv 地址：https://arxiv.org/pdf/2409.13731

本次我们公布了 KAG 的整体技术报告。我们希望真正融合知识图谱的符号计算和向量检索的优势，因为它们在很多方面是互补的。同时，利用大语言模型的理解和生成能力，构建一个知识增强的大语言模型生成系统。KAG技术框架将持续迭代，技术报告也会不断更新。

我们即将在 OpenSPG 开源项目中发布 KAG 框架，GitHub 地址：

https://github.com/OpenSPG/KAG

大模型垂直领域应用的关键问题

经过近两年的研究与实践，业界已普遍认识到大语言模型的优势与局限性，以及其在特定行业应用中的挑战。虽然大语言模型展现了强大的理解与生成能力，但在专业领域中仍存在缺乏领域知识、难以进行复杂决策及可靠性不足等问题。我们认为“可信”是大语言模型在实际场景中落地的关键前提。

1.1 LLM 不具备严谨的思考能力

首先，大语言模型无法提供严谨的推理能力。例如，我们用“《1989 一念间》和《极品绝配》共同的主演是谁？”这个问题，分别测试了国内几款大型语言模型，结果显示回复的准确性和一致性较低。即便某些模型能给出答案，也存在逻辑错误或问题拆解不当的情况。随着条件变的复杂，如变换条件为“男主演” “女主演” 或添加时间约束，准确率和稳定性会不断下降。

为解决这些问题，行业内进行了诸多探索。比如，通过构建 Chain-of-Thought (COT) 模型，定义 Multiple/Tree/Graph 思维链模版，引导 LLM 合理拆解问题。今年以来，越来越多的研究聚焦于将 RAG 技术融入到大语言模型中，以弥补其在事实信息上的不足。进一步的发展则涉及 GraphRAG，即采用图结构来优化检索机制。

目前，引入外部知识库的方法被广泛应用，但即使是在引入了如 RAG 这样的技术，将特定领域的知识库或事实文档提供给大型语言模型进行重新生成时，仍不能完全保证生成答案的准确性。

1.2 事实、逻辑、精准性错误

下图左侧展示的是用大模型，对政府报告某个指标的解读示例，尽管业务人员已经提前做了标注，大模型仍然会加入自己的理解，导致信息失真或缺乏依据的错误。例如，提到某市在某省的排名首位，但从业务角度判断，这是不正确的。类似地，关于某银行 8000 万股权流拍的信息在原始文档中并不存在。更为严重的是，模型还会产生数字和逻辑方面的错误，原始文档中提供的业务指标属于 2022 年，生成的内容却标为 2023 年。

即使提供了外部知识库，召回过程中的不准确问题依然存在。右侧示例说明了基于向量计算的 RAG 方法存在的缺陷。例如，在查询如何查找养老金时，直接利用向量计算召回的文档，与业务专家定义的知识并不相关。

在垂直领域内，许多知识虽然在表面上看似不相似，但实际上紧密相关。例如，“养老金”属于“五险一金”的范畴，与国家政策密切相关，大模型不能对此类信息进行随意生成。因此，需要预定义的领域知识结构来约束模型的行为，并提供有效的知识输入。

1.3 通用 RAG 也难以解决 LLM 幻觉问题

蚂蚁近期发布了一项关于 RAG 引发幻觉现象的测评报告。通常人们认为，引入 RAG 和外部知识库后，就能有效避免大模型的幻觉问题。其实不然，这种方式产生的幻觉问题甚至更为隐蔽，不易被察觉。

如下图所示，原文中提到功能饮料中的维生素、矿物质等成分对运动后补充身体营养、消除疲劳有益，而经模型重写后，可能被错误地描述为“对增加疲劳有一定作用”，这种误导性的信息会对用户造成困扰。

此外，还存在实体反转的问题，如将原句中“变成蛹后有 15-18 天”重写为“变成蛹后有 25-32 天”。当模型生成的内容达到数百甚至数千字时，这类细节错误会变得更难以发现。

根据评估结果显示，即便加入了 RAG 技术，大型语言模型仍然存在 30%-40% 的幻觉率，这是一个相当高的比例。因此，在垂直领域应用大型语言模型时，必须满足极高的专业性要求。

1.4 专业知识服务的挑战和要求

在真实的业务决策场景中，无论是生成研究报告还是处理车险理赔，解决复杂问题时都需要经过严格的步骤，包括问题规划、数据收集、执行决策以及生成和反馈等流程。在将大语言模型应用到专业领域时，也必须有一个严格且可控的决策过程。

在基于大模型提供专业知识服务时，为了更好地服务于社会和特定领域，必须满足以下几个条件：

首先，必须确保知识的准确性，包括知识边界的完整性、知识结构和语义的清晰性；
其次，需要具备逻辑严谨性、时间敏感性和数字敏感性；
最后，还需要完备的上下文信息，以方便在知识决策时获取完备的支持信息；

以上也是当前多数大模型所欠缺的能力。鉴于此，今年上半年我们进行了大量探索，并正式着手构建一个基于知识增强的、面向垂直领域的可控生成框架。

KAG：专业领域知识增强服务框架

下图展示了我们整体的知识增强生成框架 KAG(Knowledge-Enhanced Generation) 的原理，该框架是在 OpenSPG 开源项目基础上的升级。我们针对当前大语言模型与知识图谱结合的五个方面进行了增强：

首先，我们实现了知识表示的增强。原有知识图谱受到强 Schema 约束，导致应用门槛较高且数据较为稀疏，使得在回答垂直领域问题时经常无解。为此，我们对知识表示进行了面向大语言模型的优化升级，使知识图谱能够更好地支持大型语言模型的应用。

其次，图作为一个优秀的集成工具，可以更好地连接各类知识，无论是严谨的学术知识还是文本中的信息。因此，我们创建了互索引结构，将原来的 term-based 倒排索引，升级成 graph-based 倒排索引。这样不仅能够有效地索引文档，还能保持文档间的语义关联性和实体间的连贯性。

第三，在推理过程中，我们采用了符号化拆解方式，以确保逻辑严谨性。语言模型生成的语言很难保证逻辑一致性，因此我们引入了 LogicForm 驱动的 Solver 和 Reasoning，来进行基于符号的拆解。

第四，为了弥合知识图谱构建成本与实际应用效率之间的差距，我们借鉴了开放信息抽取 (open information extraction) 的方法来构建知识图谱，这种方法大大降低了构建成本，但也引入了更多噪声。因此，我们引入了知识对齐 (knowledge alignment) 机制，利用概念知识完成开放信息与领域知识之间的对齐，旨在平衡开放信息抽取与语义对齐的需求。

最后，我们开发了 KAG model，旨在更好地融合大型语言模型与知识图谱的能力，实现更有效的协同。通过指令合成促进二者间的有机互动，最终目标是充分整合符号计算和向量检索的优势，充分发挥语言模型的理解和生成能力，从而推动其在垂直领域的应用和能力提升。