グラフリーダー：大規模言語モデルのための長文処理を強化するグラフベースのインテリジェンス

47.2K 00

グラフリーダー：大規模言語モデルのための長文処理を強化するグラフベースのインテリジェンス

グラフィック・エキスパートマインドマップを作るのが得意な家庭教師のようなもので、長いテキストを明確な知識ネットワークに変換し、AIが地図に沿って探索するように、答えに必要な重要ポイントを簡単に見つけることができるようにし、長いテキストを扱う際の「迷子」の問題を効果的に克服する。

公開日： 2024.01.20
論文名：GraphReader：大規模言語モデルのロングコンテクスト能力を強化するグラフベース・エージェントの構築
論文アドレス：https://arxiv.org/abs/2406.14550

この記事では、Large Language Models (LLM)が長文を処理する際に直面する課題に対処し、マルチホップクイズなどのタスクで優れたパフォーマンスを発揮するように設計された、グラフ構造に基づく知的ボディシステムであるGraphReaderについて説明する。以下はその要約である：

I. 論文の動機

自然言語理解と生成技術の進歩に伴い、LLMが直面する主な限界の一つは、コンテキストウィンドウのサイズとメモリ使用量の制限であり、大量のテキスト入力を効率的に処理することが困難になっている。この問題に対処するため、研究者はモデル構造の改善、検索強化メカニズムの導入、複雑な推論のためのエージェントの活用など、さまざまなアプローチを模索してきた。しかし、これらのアプローチにはそれぞれ、学習コストの増加、詳細情報の無視、柔軟性に欠ける意思決定メカニズムなど、一定の限界がある。

論文の革新的なポイント

目的グラフ構造を構築し、自律的なエージェント探索戦略を採用することで、GraphReaderは限られたコンテキストウィンドウ内で長距離の依存関係を捉えることができ、長文の文書を効率的に処理することができる。
イノベーション・ポイント::
- 長いテキストを個別のチャンクに分割し、重要な要素や原子的事実を抽出する；
- これらの要素を使用して、テキスト内の関係を反映したグラフ構造を構築する；
- インテリジェント・ボディは、あらかじめ定義された関数と段階的で合理的な計画に従って、グラフをナビゲートし、必要な情報を収集する；
- 最終的な答えの正確さと完全性を保証するために、メモを取り、振り返る。

III.論文のアイデア

GraphReaderの動作は3段階に分かれている：

グラフィカル・コンストラクションドキュメントはセクションに分割され、各セクションはアトミックファクトとして要約され、そこからキーエレメントが抽出されてノードが形成される。
グラフィック探索知的体は合理的な計画に従って開始ノードを選択し、隣接するノードをチェックしながらグラフ構造全体を走査する。
- アトミックファクトの探索：コンテキストウィンドウにノードに関連するすべての生テキストブロックを含めることは不可能であるため、エージェントはアトミックファクトの読み取りから始めて徐々に生テキストを探索する、粗いものから細かいものへの戦略を採用する。すべてのアトミックファクトはコンテキストウィンドウに収まるので、エージェントはまず各ノードに関連するすべてのアトミックファクトを対応するテキストブロックによってグループ化し、対応するテキストブロックIDでラベル付けし、エージェントに供給する。これにより、エージェントはすべてのアトミック・ファクト・グループに目を通すことで、各テキスト・ブロックの概要を把握することができる。同時に、エージェントはノートブックの質問、合理的な計画、メモを使って、必要な手がかりを考察し、どのテキストブロックに有用な情報が含まれているかを判断する。その後、エージェントには2つの機能が与えられる：
  - read_neighbor_nodeにより、エージェントは質問に答えるのに役立ちそうな隣接ノードを選択し、アトミックファクトとテキストブロックを探索するプロセスに再び入る；
  - 終了すると、エージェントは近隣ノードに有用な情報がないと判断し、探索を終了します。
- テキストブロックの探索: テキストブロックキューが空でない場合、エージェントが興味のあるテキストブロックを複数特定したことを意味します。次にGraphReaderはキューを走査し、各テキストブロックを一つずつ読み込む。アトミックファクトは重要な情報を要約し、短い手がかりを提供するだけであり、具体的な詳細は元のテキストブロックから直接得るのが最適であるため、このステップは非常に重要である。テキストブロックが読み込まれると、エージェントは問題を検討し、現在のノートブックに何が加えられるかを考えながら、再度計画を立てる。裏付けとなる事実が見つかれば、ノートブックに記録する。更新されたノートブックに応じて、エージェントは以下の4つの機能のうち1つを選択する：
  - search_moreの場合、エージェントは、サポートファクトが不十分であれば、キュー内のテキストブロックを探索し続ける；
  - read_previous_chunkと3) read_subsequent_chunkは、切り詰めの問題により、隣接するテキストチャンクに関連する有用な情報が含まれている可能性があり、エージェントはこれらのIDをキューに挿入することができる；
  - 終了後、質問に答えるのに十分な情報が集まっていれば、エージェントは探索を完了する。
- 近隣ノードの探索：現在のノードのアトミックファクトとテキストブロックキューが完全に処理されると、このノードは完全に探索されたことになり、エージェントは次のノードを訪問する必要がある。問題，合理的計画，ノートブックの内容を考慮し，エージェントはすべての隣接ノード，すなわちキーエレメントを調べ，以下の2つの関数のいずれかを実行する．
  - read_chunkでは、エージェントが特定のチャンクをさらに読む価値があると判断した場合、チャンクIDで関数の引数を補完し、すなわちread_chunk(List[ID])とし、それらのIDをチャンクキューに追加します。
  - stop_and_read_neighborの代わりに、エージェントがこれ以上読む価値のあるテキストの塊がないと判断した場合、現在のノードの読み込みを終了し、近隣のノードの探索を開始する。
答案推理さまざまな知能のメモをまとめ、思考の連鎖を利用して、与えられた質問に対する答えを導き出す。

パフォーマンス評価

ロングコンテキストベンチマーキングからの複数のデータセットで実験することで、GraphReaderは、他の手法よりも大幅に優れた性能を示しています。例えば、HotpotQAデータセットにおいて、GraphReaderは、55.01 TP3TのEMと70.01 TP3TのF1スコアを達成し、GPT-4-128kや他の既存手法を凌駕しています。さらに、GraphReaderは、特にLV-Evalベンチマークにおいて、GPT-4-128kに対して75.00%の相対的な性能向上を示すなど、非常に長いコンテキストを扱う際にも良好な性能を維持します。

実験結果によると、GraphReaderは長文処理、特にマルチホップ問題や非常に長いテキストにおいて大幅な性能向上を達成している。

V. 影響と展望

GraphReaderは、LLMにおける長い文脈処理の課題を解決する上で重要な進歩を示すだけでなく、将来的にはより高度な言語モデルへの道を開くものである。これは、長い文書や複雑な多段階推論を含むタスクにとって重要な意味を持つ。この研究は、文書解析や研究支援など、いくつかの分野に革命をもたらし、AIアプリケーションの新たな可能性を開くかもしれない。