Система GTR: новый подход к межтабличным вопросам и ответам, основанный на гетерогенных графах и иерархическом поиске
1. Введение
В условиях современного информационного взрыва огромное количество знаний хранится в виде таблиц на веб-страницах, в Википедии и реляционных базах данных. Однако традиционные системы вопросов и ответов часто не справляются со сложными запросами по нескольким таблицам, что стало серьезной проблемой в области искусственного интеллекта. Для решения этой проблемы исследователи предложили GTR (Graph-Table-RAG) Концепция. Фреймворк позволяет повысить эффективность межтабличных вопросов и ответов за счет организации табличных данных в гетерогенные графы и применения инновационных методов поиска и вывода. В этой статье мы подробно разбираем основной подход фреймворка GTR и показываем его ключевые моменты.
2. MUTLITABLEQA: первый эталонный набор данных Q&A с кросс-таблицами
Чтобы оценить эффективность перекрестной табличной модели "вопрос-ответ", исследователи построили MUTLITABLEQAЭто первый эталонный кросс-табличный набор данных Q&A, созданный на основе реальных форм и запросов пользователей. Ниже перечислены основные этапы создания набора данных:
2.1 Методы построения набора данных
- Источник таблицы: Сбор необработанных однотабличных данных из реальных наборов данных с человеческими метками, таких как HybridQA, SQA, Tabfact и WikiTables, и отфильтровывание слишком упрощенных таблиц, в результате чего было получено 20 000 таблиц.
- Разбивка столаРазбиение строк/столбцов собранных таблиц на 60 000 подтаблиц как многотабличных данных. Конкретные методы включают:
- разделение линии: Разделите записи таблицы на несколько неравнозначных подмножеств по размеру строки, каждое из которых сохраняет ту же схему таблицы и метаданные, что и исходная таблица.
- разделение колонн: Оставьте первый столбец (обычно это первичный ключ или основной атрибут) и разделите оставшиеся записи на несколько разобщенных подмножеств по размеру столбца.
Рисунок 1. Блок-схема построения набора данных MUTLITABLEQA, показывающая прямое построение многотабличного набора данных и процесс построения MUTLITABLEQA. - Портфолио запросов: Чтобы повысить сложность поиска по запросам, исследователи комбинируют существующие простые запросы для создания сложных запросов, требующих многоэтапных рассуждений. Конкретные шаги включают:
- Дедупликация и фильтрация запросов: Фильтрация неоднозначных и контекстуально повторяющихся запросов с помощью общих лингвистических и контекстно-зависимых эвристик (например, анализ соотношения деактивированных слов, пороговые значения минимальной длины запроса и обнаружение избыточности на основе сходства).
- Слияние запросов: Для сложных или последовательных запросов к одной и той же таблице объедините их в один расширенный запрос, используя условия конкатенации (например, "AND", "furthermore", "Based on [previous query]"). "), чтобы объединить их в один расширенный запрос.
- Деконтекстуализация запросов: Для повышения ясности и самодостаточности используется метод деконтекстуализации, при котором неопределенные указательные местоимения и маркеры дискурса заменяются явными отсылками.
- Определение типа задачи::
- Проверка фактов на основе таблиц (TFV): Определите, подтверждаются ли заявления, предоставленные пользователем, табличными данными.
- Одноходовая TQA: Ответ на вопрос должен быть получен только из одной ячейки таблицы, но для нахождения нужной ячейки необходимо провести рассуждения по нескольким таблицам.
- Многоходовая TQA: Ответы на вопросы требуют сложных рассуждений на основе нескольких ячеек в нескольких таблицах.
Рисунок 2. Примеры трех различных типов задач в наборе данных MUTLITABLEQA.
3. Система GTR: инновационный подход к межстоловым вопросам и ответам
Система GTR призвана решить основные проблемы, связанные с вопросами и ответами между столами, следующими способами:
3.1 Составление таблиц и рисунков
Основная идея GTR заключается в преобразовании табличных данных в гетерогенные гиперграфы для лучшего отражения реляционной и семантической информации между таблицами.
- Линеаризация таблицы: Преобразуйте таблицы в линейные последовательности, сохраняя их структурную информацию и семантическое содержание. Например, объедините заголовки и заголовки столбцов таблицы в последовательность и используйте специальные маркеры для определения структурной позиции таблицы.
s = [ [Table], ⊕( [Caption], C ), ⊕( [Header], h_k ) ]
где ⊕ обозначает конкатенацию последовательностей, а h_k - заголовок k-го столбца.
- Множественное извлечение признаков: Вычислите три собственных вектора для каждой линеаризованной последовательности:
- Семантические признаки (x^(sem)): Генерируется с помощью кодировщика последовательности, который передает семантическое содержание формы.
- Структурные особенности (x^(struct)): Используйте spaCy для извлечения ключевых характеристик форматирования, таких как количество лексем, частота лексических тегов и количество знаков препинания.
- Эвристические признаки (x^(heur)): Генерируются эвристикой, например, с помощью векторов TF-IDF для создания представлений мешков слов.
- гиперграфическое построение (математика): Построение гетерогенного гиперграфа путем кластеризации таблиц со схожими характеристиками с помощью алгоритма мультиплексной кластеризации и определения каждого кластера как гиперграфа.
Рисунок 3: Обзор фреймворка GTR, показывающий процесс преобразования таблицы в граф.
3.2 Крупнозернистый мультиплексированный поиск
- Репрезентативные баллы: Определите представительные баллы между узлами для сравнения сходства между узлами и между запросами.
- Назначение запросов и кластеров: После встраивания запроса вычисляется репрезентативная оценка между ним и каждым узлом и выбираются наиболее релевантные кластеры для каждого типа признаков.
- Типичный выбор узла: Выбирается небольшое количество узлов, которые наилучшим образом представляют каждый кластер, а окончательный мультиплексированный наилучший кластер представляет собой объединенный набор всех типов признаков.
3.3 Поиск мелкозернистых подграфов
- Построение локальных подграфов: На основе результатов грубого поиска строится плотно связанный локальный подграф и вычисляется матрица сходства между узлами с использованием семантических признаков.
- Итеративный персонализированный PageRank: Рассчитывается матрица сходства узлов-кандидатов и выполняется нормализация строк для получения матрицы переноса. Персонализированный вектор PageRank вычисляется итерационным способом, узлы ранжируются, и узел с наивысшим рейтингом выбирается в качестве конечного узла таблицы.
3.4 Подсказки для восприятия фигур
Для того чтобы последующие LLM могли эффективно интерпретировать полученные таблицы и делать выводы, в GTR используется подход с использованием подсказок, учитывающих графы. Ниже приводится подробное описание подсказок, используемых в системе GTR:
3.4.1 Вставка информации о рисунке
- Индексирование узлов и реляционное встраивание: Нумерация узлов извлеченных таблиц и их встраивание в подсказки, чтобы LLM мог распознавать различные источники таблиц. В то же время отношения сходства между узлами встраиваются в подсказки в структурированном формате JSON, описывая семантическое сходство или другие отношения между различными формами.
## Retrieved Tables: <table1>Table 1: ...</table1> <table2>Table 2: ...</table2> ... ## Graph-Related Information: { "source_node": "Table 1", "target_node": "Table 2", "relationship": { "type": "similarity", "score": 0.674 } }
3.4.2 Формирование иерархического длинноцепочечного мышления (CoT)
- Определите соответствующие формы: Предлагает LLM определить наиболее релевантную форму для запроса из предоставленного набора форм.
1. Identify the most relevant tables from the provided table set <V_final^*>.
- Проясните связь между запросами и таблицами: Prompt LLM Объясните связь между запросом и выбранными формами, объяснив, почему они важны для ответа на запрос.
2. Elucidate the connection between the query and the selected tables.
- Подробный процесс рассуждений: Hint LLM детально изучает каждую строку и столбец, извлекает наиболее значимую для запроса информацию и пошагово обосновывает окончательный ответ.
3. Conduct a detailed examination of each row and column entry to extract the information most pertinent to the query.
- Вывод окончательного ответа: Подсказки LLM будут рассказывать о процессе рассуждения и окончательном ответе отдельно с
<reasoning>
ответить пением</reasoning>
, и<answer>
ответить пением</answer>
Этикетка завернута.# Now Output Your response below: <reasoning> [Detailed reasoning steps] </reasoning> <answer> [Final answer] </answer>
3.4.3 Пример вывода
Ниже приведен пример вывода, сгенерированного фреймворком GTR:
<reasoning>
1. The query asks for the release date of a game called "Mario Kart Advance".
2. From Table 1, we can find that "Mario Kart Advance" is listed under the "Game Title" column.
3. The corresponding entry in the "Release Date" column is "December 16, 2011".
4. Therefore, the release date of "Mario Kart Advance" is December 16, 2011.
</reasoning>
<answer>
December 16, 2011
</answer>
4. результаты экспериментов
Результаты экспериментов на наборе данных MUTLITABLEQA показывают, что GTR отлично справляется как с поиском, так и с генерацией и выводом последующих данных. По сравнению с традиционными методами поиска по таблицам, GTR демонстрирует значительное улучшение точности и запоминания. Например, в задаче TFV запоминание GTR @50 увеличивается на 9.4%В многоходовой задаче TQA отзыв @10 улучшился на 8.2%.
Ниже приведены основные экспериментальные результаты применения GTR и других базовых методов на наборе данных MUTLITABLEQA:
форма | методологии | TFV Точность @10 | Точность TFV @20 | TFV Точность @50 | ... | Многоходовая TQA Recall Rate @50 |
---|---|---|---|---|---|---|
поиск по таблице | DTR | 21.1 | 27.8 | 36.2 | ... | 62.0 |
Настольный контрибьютор | 23.4 | 30.1 | 40.1 | ... | 68.9 | |
... | ... | ... | ... | ... | ... | |
GTR | GTR | 36.1 | 47.9 | 59.4 | ... | 76.8 |
5. Заключение
Фреймворк GTR демонстрирует свои возможности в обработке сложных кросс-табличных запросов, организуя табличные данные в гетерогенные графы и сочетая их с инновационными методами мультиплексного поиска и подсказок, учитывающих графы. Этот новый подход привносит новые идеи и возможности в область межтабличных запросов.
6. Перспективы на будущее
Исследователи планируют расширить набор данных MUTLITABLEQA и изучить более продвинутые методы оптимизации графовых нейронных сетей (GNN) и LLM для дальнейшего улучшения производительности моделей кросс-табличных вопросов и ответов. Кроме того, они планируют применить фреймворк GTR в других областях, таких как вывод графов знаний и кросс-модальные вопросы и ответы.
Бумажный адрес: https://arxiv.org/pdf/2504.01346
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...