El marco GTR: un nuevo enfoque de las preguntas y respuestas cruzadas basado en grafos heterogéneos y recuperación jerárquica

Base de conocimientos de IAActualizado hace 12 meses Círculo de intercambio de inteligencia artificial

46.9K 00

1. Introducción

En la actual explosión de información, una gran cantidad de conocimientos se almacena en forma de tablas en páginas web, Wikipedia y bases de datos relacionales. Sin embargo, los sistemas tradicionales de preguntas y respuestas suelen tener dificultades para gestionar consultas complejas en múltiples tablas, lo que se ha convertido en un reto importante en el campo de la inteligencia artificial. Para hacer frente a este reto, los investigadores han propuesto GTR (Gráfico-Tabla-RAG) Marco de trabajo. Este marco permite realizar búsquedas y consultas cruzadas más eficaces organizando los datos tabulares en grafos heterogéneos e incorporando técnicas innovadoras de recuperación e inferencia. En este artículo, desmenuzamos en detalle el enfoque central del marco GTR y mostramos su diseño de pistas clave.

2. MUTLITABLEQA: el primer conjunto de datos de referencia de preguntas y respuestas cruzadas

Para evaluar la eficacia del modelo de preguntas y respuestas de tabulación cruzada, los investigadores construyeron el MUTLITABLEQASe trata del primer conjunto de datos de referencia de preguntas y respuestas cruzadas construido a partir de formularios y consultas de usuarios del mundo real. Estos son los pasos clave en la construcción del conjunto de datos:

2.1 Métodos de construcción de conjuntos de datos

Fuente de la tablaRecopilación de datos brutos de una sola tabla a partir de conjuntos de datos del mundo real etiquetados por humanos, como HybridQA, SQA, Tabfact y WikiTables, y filtrado de tablas excesivamente simplificadas, lo que da como resultado 20.000 tablas.
Desglose por mesasDivisión por filas/columnas de tablas recopiladas en 60.000 subtablas como datos de varias tablas. Los métodos específicos incluyen:
- división de líneasDividir las entradas de la tabla en múltiples subconjuntos disjuntos a lo largo de la dimensión de fila, cada uno conservando el mismo esquema de tabla y metadatos que la tabla original.
- división de columnasConservar la primera columna (normalmente la clave principal o el atributo principal) y dividir las entradas restantes en múltiples subconjuntos disjuntos a lo largo de la dimensión de la columna.
Figura 1: Diagrama de flujo de construcción de conjuntos de datos de MUTLITABLEQA que muestra la construcción directa de un conjunto de datos de varias tablas y el proceso de construcción de MUTLITABLEQA.
Solicitud de informaciónEl objetivo: aumentar la complejidad de la recuperación de consultas. Los investigadores combinan consultas sencillas existentes para generar consultas complejas que requieren un razonamiento en varios pasos. Los pasos específicos incluyen:
- Desduplicación y filtrado de consultasFiltrado de consultas ambiguas y contextualmente repetitivas mediante heurísticas lingüísticas y contextuales comunes (por ejemplo, análisis de la proporción de palabras desactivadas, umbrales de longitud mínima de consulta y detección de redundancias basada en similitudes).
- Fusión de consultasPara consultas complejas o secuenciales de la misma tabla, combínelas en una única consulta ampliada utilizando términos de concatenación (por ejemplo, "Y", "además", "Basado en [consulta anterior]"). ") para combinarlas en una única consulta ampliada.
- Descontextualización de consultasPara mejorar la claridad y la autocontención, se utiliza un enfoque de descontextualización, sustituyendo los pronombres indicativos vagos y los marcadores del discurso por referencias explícitas.
Definición del tipo de tarea::
- Verificación de hechos basada en tablas (VFT)Función: Determinar si las afirmaciones proporcionadas por el usuario están respaldadas por los datos tabulares.
- TQA de un solo salto: La respuesta a la pregunta debe obtenerse a partir de una sola celda de la tabla, pero es necesario razonar en varias tablas para encontrar la celda correcta.
- TQA multisalto: Las respuestas a las preguntas requieren un razonamiento complejo a partir de varias celdas de varias tablas.
Figura 2: Ejemplos de los tres tipos de tareas del conjunto de datos MUTLITABLEQA.

3. El marco GTR: un enfoque innovador de las preguntas y respuestas entre mesas

El marco GTR está diseñado para abordar los principales retos de las preguntas y respuestas cruzadas de las siguientes maneras:

3.1 Construcción de tablas y figuras

La idea central de GTR es transformar datos tabulares en hipergrafos heterogéneos para capturar mejor la información relacional y semántica entre tablas.

Linealización de tablasConvertir tablas en secuencias lineales, conservando su información estructural y su contenido semántico. Por ejemplo, unir los encabezados y los títulos de las columnas de una tabla en una secuencia y utilizar marcadores especiales para identificar la posición estructural de la tabla.
```
s = [ [Table], ⊕( [Caption], C ), ⊕( [Header], h_k ) ]
```
donde ⊕ denota la concatenación de secuencias y h_k denota la k-ésima cabecera de columna.
Extracción múltiple de característicasCalcula tres vectores propios para cada secuencia linealizada:
- Características semánticas (x^(sem))Generado mediante un codificador de secuencias que captura el contenido semántico del formulario.
- Características estructurales (x^(struct))Utilice spaCy para extraer características de formato clave, como recuentos de tokens, frecuencias de etiquetas léxicas y recuentos de puntuación.
- Características heurísticas (x^(heur))Generado por heurística, por ejemplo, utilizando vectores TF-IDF para generar representaciones de bolsas de palabras.
construcción hipergráfica (matemáticas)El hipergrafo heterogéneo: Construye un hipergrafo heterogéneo agrupando tablas con características similares mediante un algoritmo de agrupación múltiple y definiendo cada agrupación como un hipergrafo.
Figura 3: Visión general del marco GTR que muestra el proceso de construcción de tablas a gráficos.

3.2 Búsqueda multiplexada de grano grueso

Puntuación representativa: Define puntuaciones representativas entre nodos para comparar la similitud nodo a nodo y nodo a consulta.
Asignación de grupos de consultaDespués de incrustar la consulta, se calcula la puntuación representativa entre ella y cada nodo y se seleccionan los clusters más relevantes para cada tipo de característica.
Selección típica de nodos: Se selecciona un pequeño número de nodos que representan mejor cada cluster, y el mejor cluster multiplexado final es el conjunto concatenado de todos los tipos de características.

3.3 Recuperación de subgrafos de grano fino

Construcción de subgrafos localesEl subgrafo local: A partir de los resultados de la recuperación de grano grueso, se construye un subgrafo local densamente conectado y se calcula la matriz de similitud entre nodos utilizando características semánticas.
PageRank personalizado iterativoCalcula la matriz de similitud de los nodos candidatos y realiza la normalización de filas para obtener la matriz de transferencia. El vector PageRank personalizado se calcula de forma iterativa, los nodos se clasifican y el nodo mejor clasificado se selecciona finalmente como nodo final de la tabla recuperada.

3.4 Cuestiones de percepción de las figuras

Para que los LLM posteriores puedan interpretar eficientemente las tablas recuperadas y razonar sobre ellas, GTR emplea un enfoque de sugerencias que tiene en cuenta los grafos. A continuación se presenta un diseño detallado de las sugerencias utilizadas en el marco GTR:

3.4.1 Inserción de información sobre las figuras

Indexación de nodos e incrustación relacionalnumeran los nodos de tabla recuperados y los incrustan en las sugerencias para que LLM pueda reconocer diferentes fuentes de tablas. Al mismo tiempo, las relaciones de similitud entre nodos se incrustan en las pistas en un formato JSON estructurado, describiendo la similitud semántica u otras relaciones entre diferentes formas.
```
## Retrieved Tables:
<table1>Table 1: ...</table1>
<table2>Table 2: ...</table2>
...
## Graph-Related Information:
{
    "source_node": "Table 1",
"target_node": "Table 2",
"relationship": {
"type": "similarity",
"score": 0.674
}
}
```

3.4.2 Generación jerárquica de pensamiento en cadena larga (CoT)

Identificar los formularios pertinentesPermite que LLM identifique el formulario más relevante para la consulta a partir del conjunto de formularios proporcionados.
```
1. Identify the most relevant tables from the provided table set <V_final^*>.
```
Aclarar el vínculo entre consultas y tablasPrompt LLM Explique la relación entre la consulta y los formularios seleccionados, explicando por qué son fundamentales para responder a la consulta.
```
2. Elucidate the connection between the query and the selected tables.
```
Proceso de razonamiento detalladoHint LLM examina detalladamente cada entrada de fila y columna, extrayendo la información más relevante para la consulta y razonando paso a paso para llegar a la respuesta final.
```
3. Conduct a detailed examination of each row and column entry to extract the information most pertinent to the query.
```
Respuesta finalPistas Los LLM razonarán sobre el proceso de razonamiento y la respuesta final por separado con un <reasoning> responder cantando </reasoning>y<answer> responder cantando </answer> Etiqueta envuelta.
```
# Now Output Your response below:
<reasoning>
[Detailed reasoning steps]
</reasoning>
<answer>
[Final answer]
</answer>
```

3.4.3 Ejemplo de salida

A continuación se muestra un ejemplo del resultado generado por el marco GTR:

<reasoning>
1. The query asks for the release date of a game called "Mario Kart Advance".
2. From Table 1, we can find that "Mario Kart Advance" is listed under the "Game Title" column.
3. The corresponding entry in the "Release Date" column is "December 16, 2011".
4. Therefore, the release date of "Mario Kart Advance" is December 16, 2011.
</reasoning>
<answer>
December 16, 2011
</answer>

4. Resultados experimentales

Los resultados experimentales sobre el conjunto de datos MUTLITABLEQA muestran que GTR obtiene buenos resultados tanto en la recuperación como en la generación e inferencia descendente. En comparación con los métodos tradicionales de recuperación de tablas, GTR muestra una mejora significativa tanto en precisión como en recuperación. Por ejemplo, en la tarea TFV, la recuperación @50 de GTR mejora en 9.4%En la tarea TQA multisalto, el recuerdo @10 mejoró en 8.2%.

A continuación se presentan los principales resultados experimentales de GTR con otros métodos de referencia en el conjunto de datos MUTLITABLEQA:

formulario	metodologías	Precisión TFV @10	Precisión TFV @20	Precisión TFV @50	...	TQA multisalto Tasa de recuperación @50
búsqueda en la tabla	DTR	21.1	27.8	36.2	...	62.0
	Table-Contriever	23.4	30.1	40.1	...	68.9
	...	...	...	...	...	...
GTR	GTR	36.1	47.9	59.4	...	76.8

5. Conclusión

El marco GTR demuestra su capacidad para gestionar consultas complejas en tablas cruzadas organizando los datos tabulares en grafos heterogéneos y combinándolos con métodos innovadores de recuperación multiplexada y sugerencia consciente de los grafos. Este nuevo enfoque aporta nuevas ideas y posibilidades al campo de las consultas cruzadas.

6. Perspectivas de futuro

Los investigadores tienen previsto seguir ampliando el conjunto de datos MUTLITABLEQA y explorar técnicas más avanzadas de optimización de redes neuronales gráficas (GNN) y LLM para mejorar aún más el rendimiento de los modelos de preguntas y respuestas entre tablas. Además, tienen previsto aplicar el marco GTR a otros ámbitos, como la inferencia de grafos de conocimiento y las preguntas y respuestas intermodales.

Dirección de la ponencia: https://arxiv.org/pdf/2504.01346