GTR 框架：基于异构图和分层检索的跨表问答新方法

2.1K 00

1. 引言

在当今信息爆炸的时代，大量知识以表格形式存储于网页、维基百科和关系型数据库中。然而，传统的问答系统往往难以处理跨多个表格的复杂查询，这成为人工智能领域的一大挑战。为了应对这一难题，研究人员提出了 GTR (Graph-Table-RAG) 框架。该框架通过将表格数据组织成异构图，并结合创新的检索和推理技术，实现了更高效的跨表问答。本文将详细拆解 GTR 框架的核心方法，并展示其关键提示设计。

2. MUTLITABLEQA：首个跨表问答基准数据集

为了评估跨表问答模型的效果，研究人员构建了 MUTLITABLEQA，这是首个从真实世界表格和用户查询中构建的跨表问答基准数据集。以下是数据集构建的关键步骤：

2.1 数据集构建方法

表格来源：从 HybridQA、SQA、Tabfact 和 WikiTables 等真实世界、人类标注的数据集中收集原始单表数据，并过滤掉过于简化的表格，最终得到 20,000 个表格。
表格分解：对收集到的表格进行行/列拆分，将其分解为 60,000 个子表，作为多表数据。具体方法包括：
- 行拆分：将表格条目沿行维度划分为多个不相交的子集，每个子集保留与原始表格相同的表模式和元数据。
- 列拆分：保留第一列（通常是主键或主要属性），将剩余条目沿列维度划分为多个不相交的子集。
图 1：MUTLITABLEQA 数据集构建流程图，展示了直接构建多表数据集的方法和 MUTLITABLEQA 的构建流程。
查询组合：为了增强查询检索的复杂性，研究人员对现有的简单查询进行组合，生成需要多步推理的复杂查询。具体步骤包括：
- 查询去重和过滤：使用常见的语言学和上下文感知启发式方法（如停用词比率分析、最小查询长度阈值和基于相似性的冗余检测）过滤掉模糊和上下文重复的查询。
- 查询合并：对于来自同一单表的复杂或顺序查询，使用连接词（如“AND”、“Furthermore”、“Based on [previous query]”）将它们合并为单个扩展查询。
- 查询去语境化：为了提高清晰度和自包含性，采用去语境化方法，用明确的引用替换模糊的指示代词和话语标记。
任务类型定义：
- 基于表格的事实验证 (TFV)：判断用户提供的陈述是否得到表格数据的支持。
- 单跳表格问答 (Single-hop TQA)：问题答案仅需从一个表格单元格中获取，但需要跨多个表格进行推理以找到正确的单元格。
- 多跳表格问答 (Multi-hop TQA)：问题答案需要从多个表格的多个单元格中获取，并进行复杂的推理。
图 2：MUTLITABLEQA 数据集中三种不同任务类型的示例。

3. GTR 框架：跨表问答的创新方法

GTR 框架旨在解决跨表问答中的核心挑战，其主要方法如下：

3.1 表格到图的构建

GTR 的核心思想是将表格数据转换为异构超图，以更好地捕捉表格之间的关系和语义信息。

表格线性化：将表格转换为线性序列，保留其结构信息和语义内容。例如，将表格的标题和列标题连接成一个序列，并使用特殊标记标识表格的结构位置。
```
s = [ [Table], ⊕( [Caption], C ), ⊕( [Header], h_k ) ]
```
其中，⊕ 表示序列连接，h_k 表示第 k 个列标题。
多路特征提取：为每个线性化序列计算三种特征向量：
- 语义特征 (x^(sem))：使用序列编码器生成，捕获表格的语义内容。
- 结构特征 (x^(struct))：使用 spaCy 提取关键格式特征，如标记计数、词性标签频率和标点符号计数。
- 启发式特征 (x^(heur))：通过启发式方法生成，例如使用 TF-IDF 向量器生成词袋表示。
超图构建：通过多路聚类算法，将具有相似特征的表格聚类，并定义每个聚类为一个超边，从而构建一个异构超图。
图 3：GTR 框架概述，展示了表格到图的构建过程。

3.2 粗粒度多路检索

代表性评分：定义节点之间的代表性评分，用于比较节点与节点、节点与查询之间的相似度。
查询-聚类分配：将查询嵌入后，计算其与每个节点之间的代表性评分，为每个特征类型选择最相关的聚类。
典型节点选择：选择最能代表每个聚类的少量节点，最终的多路最佳聚类是所有特征类型的并集。

3.3 细粒度子图检索

局部子图构建：基于粗粒度检索结果，构建一个密集连接的局部子图，并使用语义特征计算节点之间的相似度矩阵。
迭代式个性化 PageRank：计算候选节点的相似度矩阵，并进行行归一化得到转移矩阵。通过迭代式计算个性化 PageRank 向量，对节点进行排序，最终选择排名靠前的节点作为最终检索的表格节点。

3.4 图感知提示

为了使下游的 LLM 能够有效解释检索到的表格并进行推理，GTR 采用了一种图感知提示方法。以下是 GTR 框架中使用的详细提示设计：

3.4.1 图信息插入

节点索引与关系嵌入：将检索到的表格节点编号，并将其嵌入提示中，以便 LLM 能够识别不同的表格来源。同时，将节点之间的相似度关系以结构化 JSON 格式嵌入提示中，描述不同表格之间的语义相似度或其他关系。
```
## Retrieved Tables:
<table1>Table 1: ...</table1>
<table2>Table 2: ...</table2>
...
## Graph-Related Information:
{
    "source_node": "Table 1",
"target_node": "Table 2",
"relationship": {
"type": "similarity",
"score": 0.674
}
}
```

3.4.2 分层长链式思维 (CoT) 生成

识别相关表格：提示 LLM 从提供的表格集中识别与查询最相关的表格。
```
1. Identify the most relevant tables from the provided table set <V_final^*>.
```
阐明查询与表格之间的联系：提示 LLM 解释查询与所选表格之间的联系，说明为什么这些表格对回答查询至关重要。
```
2. Elucidate the connection between the query and the selected tables.
```
详细推理过程：提示 LLM 详细检查每个行和列条目，提取与查询最相关的信息，并逐步推理以得出最终答案。
```
3. Conduct a detailed examination of each row and column entry to extract the information most pertinent to the query.
```
最终答案输出：提示 LLM 将推理过程和最终答案分别用 <reasoning> 和 </reasoning>、<answer> 和 </answer> 标签包裹起来。
```
# Now Output Your response below:
<reasoning>
[Detailed reasoning steps]
</reasoning>
<answer>
[Final answer]
</answer>
```

3.4.3 示例输出

以下是 GTR 框架生成的示例输出：

<reasoning>
1. The query asks for the release date of a game called "Mario Kart Advance".
2. From Table 1, we can find that "Mario Kart Advance" is listed under the "Game Title" column.
3. The corresponding entry in the "Release Date" column is "December 16, 2011".
4. Therefore, the release date of "Mario Kart Advance" is December 16, 2011.
</reasoning>
<answer>
December 16, 2011
</answer>

4. 实验结果

在 MUTLITABLEQA 数据集上的实验结果表明，GTR 在检索和下游生成与推理方面均表现出色。与传统表格检索方法相比，GTR 在准确性和召回率方面均有显著提升。例如，在 TFV 任务中，GTR 的召回率 @50 提高了 9.4%，在多跳 TQA 任务中，召回率 @10 提高了 8.2%。

以下是 GTR 与其他基线方法在 MUTLITABLEQA 数据集上的主要实验结果：