Der GTR-Rahmen: ein neuer Ansatz für tabellenübergreifende Fragen und Antworten auf der Grundlage heterogener Graphen und hierarchischer Abfragen

AI-WissensdatenbankAktualisiert vor 5 Monaten AI-Austauschkreis

14.9K 00

1. einleitung

In der heutigen Informationsexplosion wird eine große Menge an Wissen in Form von Tabellen in Webseiten, Wikipedia und relationalen Datenbanken gespeichert. Herkömmliche Frage- und Antwortsysteme haben jedoch oft Schwierigkeiten, komplexe Abfragen über mehrere Tabellen hinweg zu bewältigen, was zu einer großen Herausforderung im Bereich der künstlichen Intelligenz geworden ist. Um diese Herausforderung zu bewältigen, haben Forscher Folgendes vorgeschlagen GTR (Graph-Tabelle-RAG) Rahmenwerk. Das Framework ermöglicht effizientere tabellenübergreifende Fragen und Antworten, indem es tabellarische Daten in heterogenen Graphen organisiert und innovative Abfrage- und Inferenztechniken einbezieht. In diesem Beitrag wird der Kernansatz des GTR-Frameworks im Detail erläutert und die wichtigsten Hinweise zum Design gegeben.

2) MUTLITABLEQA: der erste Q&A-Benchmark-Datensatz mit Kreuztabellen

Um die Wirksamkeit des tabellenübergreifenden Frage-Antwort-Modells zu bewerten, konstruierten die Forscher die MUTLITABLEQADies ist der erste tabellenübergreifende Q&A-Benchmark-Datensatz, der aus realen Formularen und Benutzeranfragen erstellt wurde. Hier sind die wichtigsten Schritte bei der Erstellung des Datensatzes:

2.1 Methode zur Erstellung des Datensatzes

Quelle der TabelleSammeln von rohen Einzeltabellendaten aus realen, von Menschen beschrifteten Datensätzen wie HybridQA, SQA, Tabfact und WikiTables und Herausfiltern von zu stark vereinfachten Tabellen, was zu 20.000 Tabellen führte.
Tabelle AufschlüsselungZeilen-/Spaltenaufteilung von gesammelten Tabellen in 60.000 Untertabellen als Mehrtabellendaten. Spezifische Methoden umfassen:
- ZeilensplittingAufteilung der Tabelleneinträge in mehrere disjunkte Teilmengen entlang der Zeilendimension, wobei jede Teilmenge dasselbe Tabellenschema und dieselben Metadaten wie die Originaltabelle beibehält.
- SpaltenaufteilungDie erste Spalte (in der Regel der Primärschlüssel oder das Hauptattribut) wird beibehalten und die übrigen Einträge werden in mehrere disjunkte Teilmengen entlang der Spaltendimension aufgeteilt.
Abbildung 1: Flussdiagramm der MUTLITABLEQA-Datensatzkonstruktion, das die direkte Konstruktion eines Mehrtabellendatensatzes und den MUTLITABLEQA-Konstruktionsprozess zeigt.
Anfrage PortfolioUm die Komplexität der Abfrage zu erhöhen, kombinieren Forscher bestehende einfache Abfragen, um komplexe Abfragen zu erstellen, die eine mehrstufige Argumentation erfordern. Spezifische Schritte umfassen:
- Abfrage-Deduplizierung und FilterungFilterung mehrdeutiger und sich kontextuell wiederholender Anfragen mit Hilfe gängiger linguistischer und kontextbezogener Heuristiken (z. B. Deaktivierungs-Wortverhältnis-Analyse, Schwellenwerte für die Mindestabfragelänge und ähnlichkeitsbasierte Redundanzerkennung).
- Abfrage-ZusammenführungBei komplexen oder sequenziellen Abfragen aus derselben Tabelle kombinieren Sie diese zu einer einzigen erweiterten Abfrage, indem Sie Verkettungsbegriffe verwenden (z. B. "AND", "furthermore", "Based on [previous query]"). "), um sie in einer einzigen erweiterten Abfrage zu kombinieren.
- Dekontextualisierung von AbfragenUm die Klarheit und den Selbstbezug zu verbessern, wird ein Dekontextualisierungsansatz verwendet, bei dem vage Indikativpronomen und Diskursmarker durch explizite Referenzen ersetzt werden.
Definition des Aufgabentyps::
- Tabellenbasierte Faktenüberprüfung (TFV)Die Daten werden in einer Tabelle zusammengefasst: Es wird festgestellt, ob die vom Benutzer gemachten Angaben durch die Tabellendaten unterstützt werden.
- Single-hop TQADie Antwort auf die Frage muss aus nur einer Tabellenzelle gewonnen werden, aber es muss über mehrere Tabellen hinweg argumentiert werden, um die richtige Zelle zu finden.
- Mehrstufige TQAAntworten auf Fragen erfordern komplexe Schlussfolgerungen aus mehreren Zellen in mehreren Tabellen.
Abbildung 2: Beispiele für die drei verschiedenen Aufgabentypen im MUTLITABLEQA-Datensatz.

3. der GTR-Rahmen: ein innovativer Ansatz für tischübergreifende F&A

Das GTR-Rahmenwerk ist so konzipiert, dass es die zentralen Herausforderungen bei tischübergreifenden Q&A auf folgende Weise angeht:

3.1 Aufbau von Tabellen und Abbildungen

Die Kernidee von GTR besteht darin, tabellarische Daten in heterogene Hypergraphen umzuwandeln, um relationale und semantische Informationen zwischen Tabellen besser zu erfassen.

Tabelle LinearisierungTabellen in lineare Sequenzen umwandeln, wobei ihre strukturellen Informationen und ihr semantischer Inhalt erhalten bleiben. Verbinden Sie z. B. die Überschriften und Spaltenüberschriften einer Tabelle zu einer Sequenz und verwenden Sie spezielle Markierungen, um die strukturelle Position der Tabelle zu identifizieren.
```
s = [ [Table], ⊕( [Caption], C ), ⊕( [Header], h_k ) ]
```
wobei ⊕ die Sequenzverkettung und h_k die k-te Spaltenüberschrift bezeichnet.
Mehrfache MerkmalsextraktionBerechnung von drei Eigenvektoren für jede linearisierte Sequenz:
- Semantische Merkmale (x^(sem))Generiert mit einem Sequenzcodierer, der den semantischen Inhalt des Formulars erfasst.
- Strukturelle Merkmale (x^(struct))Verwenden Sie spaCy, um wichtige Formatierungsmerkmale wie die Anzahl der Token, die Häufigkeit lexikalischer Tags und die Anzahl der Satzzeichen zu extrahieren.
- Heuristische Merkmale (x^(heur))Generiert durch Heuristiken, z. B. durch die Verwendung von TF-IDF-Vektoren zur Erzeugung von Bag-of-Words-Darstellungen.
hypergraphische Konstruktion (math.)Konstruktion eines heterogenen Hypergraphen durch Clustering von Tabellen mit ähnlichen Merkmalen mittels eines Multiplex-Clustering-Algorithmus und Definition jedes Clusters als Hyperedge.
Abbildung 3: Überblick über den GTR-Rahmen, der den Prozess der Umwandlung von Tabellen in Graphen zeigt.

3.2 Grobkörnige Multiplex-Suche

Repräsentatives ScoringRepräsentative Punktzahlen zwischen Knoten für den Vergleich der Ähnlichkeit von Knoten zu Knoten und Knoten zu Abfragen definieren.
Abfrage-Cluster-ZuordnungNach der Einbettung der Abfrage wird die repräsentative Punktzahl zwischen ihr und jedem Knoten berechnet und die relevantesten Cluster werden für jeden Merkmalstyp ausgewählt.
Typische KnotenauswahlEine kleine Anzahl von Knoten wird ausgewählt, die jedes Cluster am besten repräsentieren, und das endgültige beste Multiplex-Cluster ist die verkettete Menge aller Merkmalstypen.

3.3 Feinkörnige Abfrage von Teilgraphen

Konstruktion lokaler UntergraphenAuf der Grundlage der grobkörnigen Suchergebnisse wird ein dicht verbundener lokaler Teilgraph erstellt und die Ähnlichkeitsmatrix zwischen den Knoten anhand semantischer Merkmale berechnet.
Iterativer personalisierter PageRankBerechnung der Ähnlichkeitsmatrix der Kandidatenknoten und Durchführung einer Zeilennormalisierung, um die Transfermatrix zu erhalten. Der personalisierte PageRank-Vektor wird iterativ berechnet, die Knoten werden in eine Rangfolge gebracht und der bestplatzierte Knoten wird schließlich als endgültiger Tabellenknoten ausgewählt.

3.4 Hinweise zur Figurenwahrnehmung

Um nachgelagerte LLMs in die Lage zu versetzen, die abgerufenen Tabellen effektiv zu interpretieren und Schlussfolgerungen zu ziehen, verwendet GTR einen Graph-Aware-Hinting-Ansatz. Im Folgenden wird ein detaillierter Entwurf der im GTR-Rahmen verwendeten Hinweise vorgestellt:

3.4.1 Einfügen von Bildinformationen

Knotenindizierung und relationale EinbettungNummerierung der abgerufenen Tabellenknoten und deren Einbettung in die Hinweise, damit LLM verschiedene Tabellenquellen erkennen kann. Gleichzeitig werden Ähnlichkeitsbeziehungen zwischen Knoten in einem strukturierten JSON-Format in die Hinweise eingebettet, die die semantische Ähnlichkeit oder andere Beziehungen zwischen verschiedenen Formen beschreiben.
```
## Retrieved Tables:
<table1>Table 1: ...</table1>
<table2>Table 2: ...</table2>
...
## Graph-Related Information:
{
    "source_node": "Table 1",
"target_node": "Table 2",
"relationship": {
"type": "similarity",
"score": 0.674
}
}
```

3.4.2 Hierarchisches Denken in langen Ketten (CoT)

Identifizieren Sie relevante FormulareLLM: Fordert den LLM auf, das für die Anfrage relevanteste Formular aus der Menge der bereitgestellten Formulare zu identifizieren.
```
1. Identify the most relevant tables from the provided table set <V_final^*>.
```
Klärung der Verbindung zwischen Abfragen und TabellenAufforderung LLM Erläutern Sie den Zusammenhang zwischen der Anfrage und den ausgewählten Formularen und erklären Sie, warum diese für die Beantwortung der Anfrage entscheidend sind.
```
2. Elucidate the connection between the query and the selected tables.
```
Detaillierter BegründungsprozessHint LLM untersucht jeden Zeilen- und Spalteneintrag im Detail, extrahiert die wichtigsten Informationen für die Abfrage und schlussfolgert Schritt für Schritt, um zur endgültigen Antwort zu gelangen.
```
3. Conduct a detailed examination of each row and column entry to extract the information most pertinent to the query.
```
Ausgabe der endgültigen AntwortHinweise: LLMs werden den Argumentationsprozess und die endgültige Antwort separat mit einer <reasoning> im Gesang antworten </reasoning>und<answer> im Gesang antworten </answer> Etikett eingewickelt.
```
# Now Output Your response below:
<reasoning>
[Detailed reasoning steps]
</reasoning>
<answer>
[Final answer]
</answer>
```

3.4.3 Beispielhafte Ausgabe

Nachfolgend finden Sie eine Beispielausgabe, die vom GTR-Framework erzeugt wurde:

<reasoning>
1. The query asks for the release date of a game called "Mario Kart Advance".
2. From Table 1, we can find that "Mario Kart Advance" is listed under the "Game Title" column.
3. The corresponding entry in the "Release Date" column is "December 16, 2011".
4. Therefore, the release date of "Mario Kart Advance" is December 16, 2011.
</reasoning>
<answer>
December 16, 2011
</answer>

4. experimentelle Ergebnisse

Experimentelle Ergebnisse auf dem MUTLITABLEQA-Datensatz zeigen, dass GTR sowohl bei der Abfrage als auch bei der nachgelagerten Generierung und Inferenz gute Leistungen erbringt. Im Vergleich zu traditionellen Methoden der Tabellenabfrage zeigt GTR eine signifikante Verbesserung sowohl der Genauigkeit als auch des Recalls. Bei der TFV-Aufgabe beispielsweise ist der Recall @50 von GTR um 9.4%Bei der Multi-Hop-TQA-Aufgabe verbesserte sich der Recall @10 um 8.2%.

Im Folgenden werden die wichtigsten experimentellen Ergebnisse von GTR im Vergleich zu anderen Basismethoden auf dem MUTLITABLEQA-Datensatz dargestellt:

Formular	Methodologien	TFV-Genauigkeit @10	TFV-Genauigkeit @20	TFV-Genauigkeit @50	...	Multi-hop TQA Rückrufrate @50
Tabellensuche	DTR	21.1	27.8	36.2	...	62.0
	Tisch-Contriever	23.4	30.1	40.1	...	68.9
	...	...	...	...	...	...
GTR	GTR	36.1	47.9	59.4	...	76.8

5. schlussfolgerung

Der GTR-Rahmen demonstriert seine Leistungsfähigkeit bei der Bearbeitung komplexer tabellenübergreifender Abfragen durch die Organisation von Tabellendaten in heterogenen Graphen und die Kombination mit innovativen Multiplex-Retrieval- und Graph-Aware-Hinting-Methoden. Dieser neue Ansatz bringt neue Ideen und Möglichkeiten für den Bereich der tabellenübergreifenden Abfragen.

6. die Zukunftsaussichten

Die Forscher planen, den MUTLITABLEQA-Datensatz weiter zu erweitern und fortschrittlichere Graph Neural Network (GNN) und LLM-Optimierungstechniken zu erforschen, um die Leistung von tabellenübergreifenden Q&A-Modellen weiter zu verbessern. Darüber hinaus planen sie die Anwendung des GTR-Rahmens auf andere Bereiche, wie z. B. Wissensgrapheninferenz und modalübergreifende Fragen und Antworten.

Adresse des Papiers: https://arxiv.org/pdf/2504.01346