抄録 - を発表した。 ボヤージュ3
歌で応える ボヤージュ3ライト
検索品質、待ち時間、コストの面で新たな高みに到達した組み込みモデル。ボヤージュ3
コード、法律、金融、多言語、長いコンテクストを含むすべての評価ドメインにおいて、OpenAI v3のラージと比較して平均7.55%の性能向上、2.2倍のコスト削減、埋め込み次元の3倍削減、vectorDBコストの3倍削減を実現。ボヤージュ3ライト
OpenAI v3 largeよりも検索精度を3.82%向上させ、コストを6分の1に削減し、埋め込み次元数を6分の1に削減した。どちらのモデルも32K-tokenのコンテキスト長をサポートしており、これはOpenAIの4倍です。
この9ヶ月の間に、私たちはVoyage 2シリーズの組み込みモデルキットをリリースしました。 ボヤージュ・ラージ2
このような最先端の汎用モデルに加え、以下のようなドメイン固有のモデルも数多くある。 ボヤージュコード-2
そしてボヤージュ・ロー2
そしてボヤージュファイナンス-2
歌で応える ボヤージュ・マルチリンガル-2
これらのモデルはすべて、それぞれの領域のデータで適切に訓練されている。例えばボヤージュ・マルチリンガル-2
フランス語、ドイツ語、日本語、スペイン語、韓国語で優れたパフォーマンスを発揮し、英語ではクラス最高のパフォーマンスを発揮します。また、以下のような特定のユースケースや特定の組織のデータ用にモデルを微調整しました。 ハーヴェイ 法的埋め込みモデルの
この度、ボヤージュ3のエンベデッドモデルを発表いたします。 ボヤージュ3
歌で応える ボヤージュ3ライト
数週間後に発売予定 ボヤージュ-3-ラージ
.これらのモデルは、vectorDBの価格とその後のコストを大幅に削減しながら、検索品質という点で競合他社を凌駕している。具体的にはボヤージュ3
次のような特徴がある:
- 8つの評価ドメイン(技術、コード、ウェブ、法律、金融、多言語、保護、長い文脈)すべてにおいて、OpenAI v3のラージより平均7.55%高いパフォーマンスを示した。
- コストはOpenAI v3 largeの2.2倍、OpenAI v3 largeの2.2倍。 コヒーレ English v3は1.6倍低く、100万トークンあたり$0.06である。
- OpenAI(3072)やE5よりも埋め込み次元が高い ミストラル (4096)は(1024)の3-4倍小さくなり、vectorDBのコストは3-4分の1になる。
- OpenAIの8K、Cohereの512に対し、32Kのトークンコンテキスト長をサポート。
ボヤージュ3ライト
は、レイテンシーと低コストに最適化された軽量モデルで、以下のような特徴がある:
- ドメイン全体の平均パフォーマンスは、OpenAI v3 largeよりも3.82%高い。
- コストはOpenAI v3の大規模なものに比べて6.5倍低く、100万トークンあたり$0.02である。
- 同価格でOpenAI v3 smallを7.58%上回る。
- 埋め込み次元はOpenAI(3072)やE5 Mistral(4096)よりも6~8倍小さい(512)ため、vectorDBのコストを6~8倍削減できる。
- OpenAIの8K、Cohereの512に対し、32Kのトークンコンテキスト長をサポート。
以下の表は、これらのモデルの重要な側面と競合モデルをまとめたもので、検索品質とコスト2 の関係をグラフで表したものである。
モデリング | 次元 | コンテキストの長さ | コスト(100万トークンあたり) | 検索品質(NDCG@10) |
---|---|---|---|---|
ボヤージュ3 | 1024 | 32K | $0.06 | 76.72 |
ボヤージュ3ライト | 512 | 32K | $0.02 | 72.98 |
OpenAI v3 large | 3072 | 8K | $0.13 | 69.17 |
OpenAI v3 small | 1536 | 8K | $0.02 | 67.08 |
コヒーレ・イングリッシュv3 | 1024 | 512 | $0.10 | 59.33 |
E5 ミストラル | 4096 | 4K | $0.10 | 70.13 |
BGE M3 | 1024 | 8K | $0.016 | 66.61 |
ボヤージュ3
歌で応える ボヤージュ3ライト
は、改良されたアーキテクチャー、より大きなモデルからの抽出、2兆を超える高品質など、数々の研究革新の成果である。 トークン 事前学習、そして人間のフィードバックによる検索結果の調整。
お客様の声.一般的な組み込みユーザーであれば、誰でもアップグレードできます。 ボヤージュ3
より低いコストでより高い検索品質を得るか、あるいは以下を選択するか。 ボヤージュ3ライト
さらなるコスト削減。コード、法律、金融、多言語検索を特に重視する場合、Voyage 2 シリーズのドメイン別モデル (ボヤージュコード-2
そしてボヤージュ・ロー2
そしてボヤージュファイナンス-2
歌で応える ボヤージュ・マルチリンガル-2
)がそれぞれの分野で最良の選択であることに変わりはない。 ボヤージュ3
パフォーマンスも非常に競争力があります(下記セクション参照)。すでにVoyage Embeddingを使用している場合は、新しいセクションを 航海API 通話は次のようになる。 モデル
パラメータは 「ボヤージュ3
もしかしたら 「ボヤージュ3ライト
コーパスやクエリに使用できる。
評価内容
データセット.我々は、技術文書、コード、法律、金融、ウェブレビュー、多言語、長文、対話を含む8つのドメインをカバーする40のドメイン別検索データセットで評価を行った。各データセットには、検索対象のコーパスとクエリのセットが含まれる。コーパスは通常、StackExchangeの回答、裁判所の意見、技術文書など、特定のドメインの文書で構成され、クエリは質問、長い文書の要約、または個々の文書である。下の表は、多言語に加えて8つのカテゴリーにデータセットを分類したものである。多言語ドメインは、フランス語、ドイツ語、日本語、スペイン語、韓国語、ベンガル語、ポルトガル語、ロシア語を含む26言語の62のデータセットをカバーしている。このうち最初の5つの言語には複数のデータセットがあるが、残りの言語には1言語につき1つのデータセットがあり、下の多言語レーダーチャートではOTHERカテゴリーに分類されている。
フォーム | 説明 | データセット |
---|---|---|
技術 | 技術文書 | Cohere, 5G, OneSignal, LangChain, PyTorch |
コーディング | コード・スニペット、文書文字列 | LeetCodeCpp、LeetCodeJava、LeetCodePython、HumanEval、MBPP、DS1000-referenceonly、DS1000、apps_5doc |
立法 | 判例、裁判所見解、法典、特許 | LeCaRDv2, リーガルクアド, 法的要約, AILAケースドック, AILA規約 |
財政的 | SEC提出書類、財務QA | ラグ ベンチマーク(Apple-10K-2022)、FinanceBench、TAT-QA、Finance Alpaca、FiQA Personal Finance、株式ニュースセンティメント、ConvFinQA、FinQA、HC3 Finance |
網目 | コメント、フォーラムへの投稿、ポリシーページ | Huffpostsports, Huffpostscience, Doordash, Health4CA |
長い文脈 | 政府報告書、学術論文、対談などの長大なファイル。 | ナラティブQA, 針, パスキー, QMSum, サムスクリーンFD, ウィキムQA |
対話 | 会議録、対話 | ダイアログサム、QAコンボ、HQA |
すべての評価データセットのリストは このスプレッドシート で見る。
モデリング.を評価した。 ボヤージュ3
歌で応える ボヤージュ3ライト
また、以下のような代替モデルもある。テキスト埋め込み-3-小
)と大きい(テキスト埋め込み-3-大
)、E5ミストラル(intfloat/e5-mistral-7b-instruct
)、BGE M3 (BAAI/bge-m3
コヒア・イングリッシュv3。英語埋め込み-v3.0
そして ボヤージュ・ラージ2-インストラクション
.また、ドメイン固有の多言語データセットについても評価した。 ボヤージュ・ロー2
そしてボヤージュファイナンス-2
そしてボヤージュ・マルチリンガル-2
多言語E5。インフロート/多言語-e5-large
) と Cohere multilingual v3 (埋め込み多言語-v3.0
).
規範.クエリに対して、コサイン類似度に基づいて上位10文書を検索し、次のように報告する。正規化割引累積利益(NDCG@10)は、検索品質の標準的な指標であり、リコールの変種である。
結局
クロスドメイン検索.先に述べたように、そして本稿の最初のレーダーチャートで示したようにボヤージュ3
さらに、以下の棒グラフに示すように、複数のドメインで平均7.55%がOpenAI v3のラージより優れている。ボヤージュ3
のパフォーマンスは、ボヤージュのドメイン固有モデルよりもわずかに低い。
多言語検索.下のレーダーチャートのように。ボヤージュ3
多言語検索の質は、以下のようなものである。 ボヤージュ・マルチリンガル-2
しかし、レイテンシーは低く、コストは半分だ。ボヤージュ3ライト
OpenAI v3 large、Cohere multilingual v3、Multilingual E5をそれぞれ4.55%、3.13%、3.89%上回った。
すべての評価結果は このスプレッドシート で見る。
ボヤージュ3シリーズをお試しください!
今すぐ試す ボヤージュ3
歌で応える ボヤージュ3ライト
最初の2億トークンは無料!最初の2億トークンは無料です。私たちの (さんぷ もっと詳しくエンベッディングの微調整にご興味のある方は、ぜひ下記までご連絡ください。 contact@voyageai.com お問い合わせフォローする X(ツイッター) 歌で応える LinkedInそして ディスコード をご覧ください。
- LAWとLONG-CONTEXTデータセットにおけるCohere English v3の平均NDCG@10は、それぞれ33.32%と42.48%である。レーダーグラムの可視化では、これらの値を四捨五入して45%とした。
- E5 MistralとBGE M3はオープンソースモデルです。E5 Mistralのコストとして$0.10を使用していますが、これは7Bパラメトリックモデルの業界標準に沿ったものです。BGE M3のコストとして$0.016を使用していますが、これはFireworks.aiの350Mパラメトリックモデルのコストに基づいています。 物価 推定。