本日は ダイファイ バージョンv0.15.0では、新たに「親子検索」機能が追加されました。これはRAG(Retrieval Augmented Generation)システムに実装された高度な技術で、情報取得と文脈理解をさらに強化することを目的としています。この機能により、ディファイはAI生成のために、より包括的で文脈化された情報を提供することができ、LLM申請回答の質と精度を大幅に向上させることができる。
文脈と精度のジレンマ
知識ベース検索システムを使用する際、ユーザーはしばしば厄介なジレンマに直面する。検索結果が断片的すぎて、LLMが情報を理解するのに十分な文脈を欠いてしまうか、広すぎて情報過多となり精度が犠牲になるかのどちらかである。このため、LLMは必要な情報を効率的に見つけ、利用することが難しい。
このような状況において、AIアプリケーションが正確で包括的な応答を生成するためには、適切なチャンクサイズが重要です。その結果、Difyは精度とコンテキストの理想的なバランスを取る新しい親子検索機能をもたらし、知識検索プロセスの全体的なパフォーマンスと信頼性を大幅に向上させます。
親子検索:精度とコンテキストのバランス
親子検索は、以下のようなデータ形式の2層構造で実現される。 ラグ このシステムは、より柔軟で効果的な検索方法をもたらし、正確なマッチングと包括的な文脈情報の両方を可能にする。基本的な仕組みは以下の通り:
- サブブロック・マッチング・クエリー
- ドキュメントをより小さく、焦点の絞られた情報単位(例えば一文)に分割することで、ユーザーのクエリにマッチングする際の精度が高まる。
- サブブロックは、ユーザーのニーズに最も関連する予備的な結果を迅速に提供することができます。
2.親ブロックがコンテクストを提供する
- 一致するサブブロック(段落、セクション、あるいは文書全体など)を含む大きな部分は親ブロックとして扱われ、ラージャー言語モデル(LLM)で利用できるようになる。
- 親ブロックは、LLMに完全な文脈情報を提供し、重要な詳細の見落としを防ぐ。
この階層的な検索アプローチは、文脈を保持しながら検索結果の正確性を保証する。例えば、カスタマーサポートの場合、親子検索は、詳細な製品ドキュメントを参照することで、より詳細でグローバルに文脈化された回答を提供することができ、コンテンツ生成の観点から、言語モデル出力の精度と情報の豊富さを向上させることができる。
汎用検索 VS 親子検索
下図に示すように、同じ文書であれば、親子検索を利用することで提供される文脈情報はより包括的なものとなり、高い精度を維持することができるため、従来の単層汎用検索よりも格段に優れている。
親子検索の使い方
- データソースデータソースを選択し、ナレッジ検索のためにドキュメントをインポートします。
- チャンキング
- 一般的なチャンキングまたは親子チャンキング戦略を選択し、チャンクサイズなどのパラメータを設定します。
- 親子チャンキングを選択した場合、2つのモードが利用できる:
- 段落モード:区切り文字と最大チャンクの長さに基づいてテキストを段落に分割し、これらの段落を親チャンクとして扱います。明確で比較的独立した段落を持つ文書に最適です。
- 文書全体モード:文書全体を親ブロックとし、完全な文脈検索を必要とするシナリオに適している。
どのモードでも、子ブロックは親ブロックからさらに細分化されます。インデックス作成方法と検索設定が完了すると、ユーザーは親ブロックまたは子ブロックのいずれかを編集することができます。親ブロックの編集は子ブロックを再生成するかしないかを選択することができ、子ブロックの編集は親ブロックの内容には影響しませんが、対応する親ブロックをより検索しやすくするためのカスタムタグとして使用することができます。詳しくは 📖 をご覧ください。 ヘルプファイル.
その他のアップデートのハイライト: より直感的な親子ブロック表示
Difyはローコードプラットフォームとして、技術的なバックグラウンドを持たないユーザーにも親子検索機能を簡単に理解し、使っていただけるように努めています。今回のアップデートでは、チャンクプレビューに以下の改良を加えました:
- より明確なブロック構造:各親ブロックは独立したモジュールとして表示され、子ブロックはグレーの背景でマークされ、ブロック番号が付けられている。
- 便利なマウスホバー情報:マウスをサブブロックの上に置くと、そのサブブロックが青くハイライトされ、語数情報が表示される。
- テストのプレビューを取得する:親ブロックはプレビュー・ウィンドウの左側に表示され、マッチした子ブロックはすべて対応するスコアとともに青くハイライトされるので、一目で確認できる。
今回のアップデートにより、Difyの親子検索機能は、より正確で包括的な検索結果をLLMアプリケーションにもたらし、情報取得の効率と精度を大幅に向上させ、企業や開発者がインテリジェントなワークフローにおいて、より効率的なナレッジマネジメントと価値創造を実現できるよう支援します。