紹介
RAPTOR(Recursive Abstract Processing for Tree-Structured Retrieval Enhanced Generation)は、先進的な検索機能拡張型生成(RAG:Retrieval Enhanced Generation)手法である。RAPTORは、階層的な文書構造化と要約の技術を導入することで、従来のRAGを強化する。 ラグ プロセス
https://github.com/adithya-s-k/AI-Engineering.academy/tree/main/RAG/09_RAPTOR
機関車
raptorは、文書コーパスの階層的表現を作成することで、これらの課題に対処し、より詳細で効率的な検索を可能にしている。
方法論の詳細
ドキュメントの前処理とベクトルストアの作成
- 文書を管理しやすいかたまりに分割する。
- 適切な埋め込みモデルを使って各ナゲットを埋め込む。
- 埋め込みベクトルをクラスタリングし、類似したコンテンツをグループ化する。
- クラスタリング結果は、より高度な抽象的表現を作成するために要約される。
- これらの要約と元のテキストブロックを用いて、階層ツリー構造(RAPTORツリー)を構築した。
検索機能強化生成ワークフロー
- ユーザーからの問い合わせは、同じ埋め込みモデルを使って埋め込まれる。
- RAPTORツリーを走査して、関連するノード(要約または文書ブロック)を見つける。
- 検索結果を元のユーザークエリとマージしてコンテキストを形成する。
- このコンテキストは、最終的なレスポンスを生成するために、ラージ・ランゲージ・モデル(LLM)に渡される。
RAPTORの中核機能
- 階層的文書表現:文書内容のツリー構造を作成する。
- マルチレベル・サマリー:サマリー情報はさまざまなレベルで提供される。
- 効率的な検索:ツリートラバーサルにより、より速く、より関連性の高い情報を検索。
- スケーラビリティ:フラットベクターストレージに比べ、大量のドキュメントを扱うことができる。
この方法の利点
- 関連性の向上:階層構造により、クエリと関連性の高いコンテンツとのマッチングが向上。
- フォレストサーチはより効率的:ツリートラバーサルアプローチはフルサーチに比べてより効率的である。
- 複雑なクエリへの対応:マルチレベル構造は、複数の文書セクションにまたがる情報のクエリを処理するのに役立ちます。
- 従来の方法よりもスケーラビリティに優れています。
評決を下す
RAPTORは、要約とツリー構造の文書表現と検索メカニズムを導入することにより、RAGプロセスの品質と効率を向上させる。このアプローチにより、特に大規模で複雑な文書コレクションに対する情報検索の精度と文脈的関連性が大幅に改善されることが期待される。