Le cadre GTR : une nouvelle approche des questions-réponses entre tables basée sur les graphes hétérogènes et la recherche hiérarchique

1. introduction

Dans le contexte actuel d'explosion de l'information, une grande quantité de connaissances est stockée sous forme de tableaux dans les pages web, Wikipédia et les bases de données relationnelles. Cependant, les systèmes traditionnels de questions-réponses ont souvent du mal à traiter des requêtes complexes portant sur plusieurs tableaux, ce qui est devenu un défi majeur dans le domaine de l'intelligence artificielle. Pour relever ce défi, les chercheurs ont proposé GTR (Graph-Table-RAG) Cadre. Ce cadre permet des questions-réponses croisées plus efficaces en organisant les données tabulaires en graphes hétérogènes et en incorporant des techniques innovantes de recherche et d'inférence. Dans cet article, nous démontons en détail l'approche centrale du cadre GTR et montrons ses principales astuces.

2) MUTLITABLEQA : le premier ensemble de données de référence pour les questions-réponses en tableaux croisés

Afin d'évaluer l'efficacité du modèle de questions-réponses en tableaux croisés, les chercheurs ont construit l'enquête MUTLITABLEQAIl s'agit du premier ensemble de données de référence pour les questions-réponses entre tables, construit à partir de formulaires réels et de requêtes d'utilisateurs. Voici les principales étapes de la construction de l'ensemble de données :

2.1 Méthode de construction des ensembles de données

  • Source du tableauLa collecte de données brutes de tableaux uniques à partir d'ensembles de données réels, étiquetés par des humains, tels que HybridQA, SQA, Tabfact et WikiTables, et le filtrage des tableaux simplifiés à l'extrême, ce qui a permis d'obtenir 20 000 tableaux.
  • Ventilation du tableauLes méthodes spécifiques comprennent : le fractionnement des lignes/colonnes des tableaux collectés en 60 000 sous-tableaux en tant que données multi-tableaux. Les méthodes spécifiques comprennent :
    • fractionnement des lignesDiviser les entrées de la table en plusieurs sous-ensembles disjoints le long de la dimension de la ligne, chacun préservant le même schéma de table et les mêmes métadonnées que la table d'origine.
    • fractionnement des colonnesLa première colonne (généralement la clé primaire ou l'attribut principal) est conservée et les autres entrées sont divisées en plusieurs sous-ensembles disjoints le long de la dimension de la colonne.

    GTR 框架:基于异构图和分层检索的跨表问答新方法
    Figure 1 : Organigramme de construction de l'ensemble de données de MUTLITABLEQA montrant la construction directe d'un ensemble de données multi-tables et le processus de construction de MUTLITABLEQA.

  • Demande de renseignements PortefeuilleLes chercheurs combinent des requêtes simples existantes pour générer des requêtes complexes qui nécessitent un raisonnement en plusieurs étapes afin d'améliorer la complexité de l'extraction des requêtes. Les étapes spécifiques sont les suivantes :
    • Déduplication et filtrage des requêtesLes résultats de l'étude ont été présentés dans le cadre d'un projet de recherche sur l'utilisation des technologies de l'information et de la communication (TIC) dans le domaine de l'éducation.
    • Fusion de requêtesPour les requêtes complexes ou séquentielles provenant de la même table, combinez-les en une seule requête étendue en utilisant des termes de concaténation (par exemple, "AND", "furthermore", "Based on [previous query]"). Vous pouvez également utiliser la fonction de concaténation (par exemple, "AND", "furthermore", "Based [previous query]").
    • Décontextualisation des requêtesLe texte de l'article est en anglais : Afin d'améliorer la clarté et le contenu de l'article, une approche de décontextualisation est utilisée, remplaçant les pronoms indicatifs vagues et les marqueurs de discours par des références explicites.
  • Définition du type de tâche: :
    • Vérification des faits basée sur des tableaux (TFV)Déterminer si les déclarations fournies par l'utilisateur sont étayées par les données du tableau.
    • AQT à saut uniqueLa réponse à la question doit être obtenue à partir d'une seule cellule du tableau, mais il faut raisonner sur plusieurs tableaux pour trouver la bonne cellule.
    • AQT multi-sautsLes réponses aux questions nécessitent un raisonnement complexe à partir de plusieurs cellules de plusieurs tableaux.

    GTR 框架:基于异构图和分层检索的跨表问答新方法
    Figure 2 : Exemples de trois types de tâches différentes dans l'ensemble de données MUTLITABLEQA.

3. le cadre GTR : une approche innovante des questions-réponses entre tables

Le cadre de la GTR est conçu pour relever les principaux défis des questions-réponses entre tables de la manière suivante :

3.1 Construction d'un tableau à partir d'un chiffre

L'idée centrale de la GTR est de transformer des données tabulaires en hypergraphes hétérogènes afin de mieux capturer les informations relationnelles et sémantiques entre les tables.

  • Linéarisation du tableauLes tableaux : convertissez les tableaux en séquences linéaires, en préservant leurs informations structurelles et leur contenu sémantique. Par exemple, joindre les titres et les titres de colonnes d'un tableau en une séquence et utiliser des marqueurs spéciaux pour identifier la position structurelle du tableau.
    s = [ [Table], ⊕( [Caption], C ), ⊕( [Header], h_k ) ]
    

    où ⊕ représente la concaténation des séquences et h_k représente le kème titre de colonne.

  • Extraction de caractéristiques multiplesCalculer trois vecteurs propres pour chaque séquence linéarisée :
    • Caractéristiques sémantiques (x^(sem))Le formulaire de demande d'asile est un formulaire de demande d'asile qui est généré à l'aide d'un codeur de séquences qui capture le contenu sémantique du formulaire.
    • Caractéristiques structurelles (x^(struct))Les données de formatage peuvent être extraites à l'aide de spaCy, par exemple le nombre de mots, la fréquence des balises lexicales et le nombre de signes de ponctuation.
    • Caractéristiques heuristiques (x^(heur))Les représentations par sac de mots sont générées par des heuristiques, par exemple en utilisant les vecteurs TF-IDF pour générer des représentations par sac de mots.
  • construction hypergraphique (math.)Hypergraphie hétérogène : Construire une hypergraphie hétérogène en regroupant les tables présentant des caractéristiques similaires à l'aide d'un algorithme de regroupement multiplex et en définissant chaque regroupement comme un hyperedge. GTR 框架:基于异构图和分层检索的跨表问答新方法
    Figure 3 : Vue d'ensemble du cadre GTR montrant le processus de construction de tableaux en graphiques.

3.2 Recherche multiplexée à gros grain

  • Notation représentativeLes résultats de l'analyse de la similarité entre les nœuds et entre les nœuds et les requêtes sont définis de manière représentative entre les nœuds.
  • Affectation des requêtes et des grappesAprès l'intégration de la requête, le score représentatif entre celle-ci et chaque nœud est calculé et les groupes les plus pertinents sont sélectionnés pour chaque type de caractéristique.
  • Sélection d'un nœud typiqueUn petit nombre de nœuds est sélectionné pour représenter au mieux chaque groupe, et le meilleur groupe multiplexé final est l'ensemble concaténé de tous les types de caractéristiques.

3.3 Recherche de sous-graphes à grain fin

  • Construction de sous-graphes locauxLes résultats de l'extraction à gros grains permettent de construire un sous-graphe local densément connecté et de calculer la matrice de similarité entre les nœuds à l'aide de caractéristiques sémantiques.
  • PageRank itératif personnaliséLe vecteur PageRank personnalisé est calculé de manière itérative, les nœuds sont classés et le nœud le mieux classé est finalement sélectionné comme nœud final du tableau récupéré. Le vecteur PageRank personnalisé est calculé de manière itérative, les nœuds sont classés et le nœud le mieux classé est finalement sélectionné en tant que nœud de table récupéré.

3.4 Indices de perception des figures

Afin de permettre aux LLM en aval d'interpréter efficacement les tableaux récupérés et de faire des déductions, la GTR utilise une approche d'indices tenant compte des graphes. La conception détaillée des indices utilisés dans le cadre de la GTR est présentée ci-dessous :

3.4.1 Insertion d'informations sur les figures
  • Indexation des nœuds et intégration relationnelleLes nœuds de table récupérés sont numérotés et incorporés dans les indices afin que LLM puisse reconnaître les différentes sources de table. En même temps, les relations de similarité entre les nœuds sont intégrées dans les indices dans un format JSON structuré, décrivant la similarité sémantique ou d'autres relations entre les différentes formes.
    ## Retrieved Tables:
    <table1>Table 1: ...</table1>
    <table2>Table 2: ...</table2>
    ...
    ## Graph-Related Information:
    {
        "source_node": "Table 1",
    "target_node": "Table 2",
    "relationship": {
    "type": "similarity",
    "score": 0.674
    }
    }
    
3.4.2 Génération hiérarchique de la pensée en chaîne (CoT)
  • Identifier les formulaires pertinentsLe formulaire le plus pertinent pour la requête est identifié par le LLM à partir de l'ensemble des formulaires fournis.
    1. Identify the most relevant tables from the provided table set <V_final^*>.
    
  • Clarifier le lien entre les requêtes et les tableauxExpliquer le lien entre la requête et les formulaires sélectionnés, en expliquant pourquoi ils sont essentiels pour répondre à la requête.
    2. Elucidate the connection between the query and the selected tables.
    
  • Processus de raisonnement détailléHint LLM examine chaque entrée de ligne et de colonne en détail, en extrayant les informations les plus pertinentes pour la requête et en raisonnant étape par étape pour parvenir à la réponse finale.
    3. Conduct a detailed examination of each row and column entry to extract the information most pertinent to the query.
    
  • Réponse finaleLes LLMs raisonneront sur le processus de raisonnement et sur la réponse finale séparément en utilisant la méthode <reasoning> répondre en chantant </reasoning>,<answer> répondre en chantant </answer> Étiquette enveloppée.
    # Now Output Your response below:
    <reasoning>
    [Detailed reasoning steps]
    </reasoning>
    <answer>
    [Final answer]
    </answer>
    
3.4.3 Exemple de sortie

Voici un exemple de résultat généré par le cadre GTR :

<reasoning>
1. The query asks for the release date of a game called "Mario Kart Advance".
2. From Table 1, we can find that "Mario Kart Advance" is listed under the "Game Title" column.
3. The corresponding entry in the "Release Date" column is "December 16, 2011".
4. Therefore, the release date of "Mario Kart Advance" is December 16, 2011.
</reasoning>
<answer>
December 16, 2011
</answer>

4. résultats expérimentaux

Les résultats expérimentaux sur l'ensemble de données MUTLITABLEQA montrent que la GTR est performante à la fois dans la recherche et dans la génération et l'inférence en aval. Par rapport aux méthodes traditionnelles d'extraction de tableaux, la GTR présente des améliorations significatives en termes de précision et de rappel. Par exemple, dans la tâche TFV, le rappel de GTR @50 est amélioré de 9.4%Dans la tâche TQA multi-sauts, le rappel @10 a augmenté de 8.2%.

Les principaux résultats expérimentaux de la GTR par rapport à d'autres méthodes de référence sur l'ensemble de données MUTLITABLEQA sont présentés ci-dessous :

formulaireles méthodologiesPrécision du TFV à 10Précision du TFV à 20Précision du TFV à 50...Taux de rappel de l'AQT multi-sauts à 50
recherche par tableDTR21.127.836.2...62.0
Contrefacteur de table23.430.140.1...68.9
..................
GTRGTR36.147.959.4...76.8

5. conclusion

Le cadre GTR démontre sa capacité à traiter des requêtes complexes de tableaux croisés en organisant les données tabulaires en graphes hétérogènes et en les combinant avec des méthodes innovantes de recherche multiplexée et d'indication tenant compte des graphes. Cette nouvelle approche apporte de nouvelles idées et possibilités dans le domaine de l'interrogation de tableaux croisés.

6. les perspectives d'avenir

Les chercheurs prévoient d'étendre l'ensemble de données MUTLITABLEQA et d'explorer des techniques plus avancées d'optimisation des réseaux neuronaux graphiques (GNN) et des LLM afin d'améliorer encore les performances des modèles de questions-réponses entre tables. En outre, ils prévoient d'appliquer le cadre GTR à d'autres domaines, tels que l'inférence de graphes de connaissances et les questions-réponses multimodales.

 

Adresse du document : https://arxiv.org/pdf/2504.01346

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...