AIパーソナル・ラーニング
と実践的なガイダンス
讯飞绘镜

RAGアプリケーションを構築するための埋め込みモデルの選択方法とは?

RAGシステムを構築する際、正しいエンベディング・モデルを選択することは非常に重要なステップです。ここでは、エンベディング・モデルを選択する際に考慮すべきポイントや提案をご紹介しますので、参考にしてください:

アプリケーション・シナリオの定義


まず、RAGシステムの具体的なアプリケーションシナリオと要件を明確にする必要がある。例えば、テキストデータを扱うのか、画像データを扱うのか、マルチモーダルデータを扱うのか。データの種類が異なれば、必要な埋め込みモデルも異なります。例えば、テキストデータの場合、HuggingFaceのMTEB(Massive Text Embedding Benchmark:テキスト埋め込みモデルを測定するための評価指標集)のリーダーボードを参照して適切なモデルを選択することができますし、国内のマジックマッチングコミュニティでリーダーボードを見ることもできます。

一般的なニーズとドメイン固有のニーズ

第二に、タスクの汎用性または特殊性に基づいてモデルを選択する。実装したいタスクがより汎用的で、ドメインの専門知識をあまり必要としない場合は、汎用的なEmbeddingモデルを選択できます。タスクが特定のドメイン(法律、医療など、教育、金融など)を含む場合は、そのドメインに適したモデルを選択する必要があります。

多言語主義

知識ベースの内容がシステム内に存在し、多言語をサポートする必要がある場合、BAAI/bge-M3、bce_embedding(中国語-英語)など、多言語環境でより良いパフォーマンスを発揮する多言語埋め込みモデルを選択することができます。知識ベースに主に中国語のデータが含まれている場合、iic/nlp_gte_sentence-embedding_chinese-baseなどのモデルを選択することができます。

パフォーマンス評価

MTEB Leaderboardsのようなベンチマーク・フレームワークをチェックして、さまざまなモデルのパフォーマンスを評価しましょう。これらのリーダーボードは、複数の言語とタスク・タイプをカバーしており、特定のタスクで最高のパフォーマンスを発揮するモデルを見つけるのに役立ちます。次に、モデルのサイズとリソースの制約を考慮する必要があります。 より大きなモデルは、より高いパフォーマンスを提供するかもしれませんが、計算コストとメモリ要件も増加します。また、埋め込み次元が大きいと、通常、より豊かな意味情報が得られますが、計算コストが高くなる可能性もあります。従って、実際のハードウェア・リソースと性能要件に基づいた選択をする必要がある。

実用的なテストと検証

最後に、可能であれば、効果比較のために2-3モデルを選択し、選択したモデルのパフォーマンスを実際のビジネスシナリオでテスト・検証し、精度や想起などの指標を観察して特定のデータセットでのモデルのパフォーマンスを評価し、その結果に基づいて調整を行うことができます。

埋め込みモデルの推奨

参考までに、RAGシステム構築に推奨される5つの主流エンベデッドモデルを紹介する:

BGEエンベッディングWisdom Source Instituteによって開発されたこのモデルは、複数の言語をサポートし、効率的なリランカーを含むいくつかのバージョンを提供しています。このモデルはオープンソースでライセンスは緩く、検索、分類、クラスタリングなどのタスクに適しています。

GTEエンベッディング:アリババ・ダルマ・インスティテュート(Alibaba Dharma Institute)が発表したもので、BERTフレームワークに基づいており、情報検索や意味的類似性判定などのシナリオに適用でき、優れた性能を発揮する。

Jina Embedding: Jina AIのFinetunerチームによって構築され、Linnaeus-Cleanデータセットで訓練され、優れたパフォーマンスで情報検索と意味的類似性判断に適しています。

Conan-Embedding:これは中国語に最適化されたEmbeddingモデルで、C-MTEBのSOTA(State-of-the-Art)レベルに達しており、中国語の高精度な意味表現を必要とするRAGシステムに特に適しています。

text-embedding-ada-002:Xenovaチームによって開発され、Hugging Faceライブラリと互換性があり、幅広い自然言語処理タスクのための高品質なテキストベクトル表現を提供します。

もちろん、Sentence-BERT、E5-embedding、Instructorなどもあり、異なるシナリオにおけるこれらのモデルの性能は少し異なるでしょう、あなたの特定のニーズと私が上に挙げた考慮事項に応じて、RAGシステムを構築するために適切なモデルを選択することができます。

無断転載を禁じます:チーフAIシェアリングサークル " RAGアプリケーションを構築するための埋め込みモデルの選択方法とは?
ja日本語