摘要 – 我们很高兴宣布推出 voyage-3
和 voyage-3-lite
嵌入模型,这些模型在检索质量、延迟和成本方面达到了新的高度。voyage-3
在所有评估领域(包括代码、法律、金融、多语言和长上下文)中,平均性能比 OpenAI v3 large 提高 7.55%,同时成本降低 2.2 倍,嵌入维度减少 3 倍,从而将 vectorDB 成本降低 3 倍。voyage-3-lite
在检索准确性上比 OpenAI v3 large 提高 3.82%,成本减少 6 倍,嵌入维度也减少 6 倍。两个模型均支持 32K-token 的上下文长度,比 OpenAI 高 4 倍。
在过去九个月中,我们发布了 Voyage 2 系列嵌入模型套件,其中包括诸如 voyage-large-2
这样的最先进的通用模型,以及一些面向特定领域的模型,如 voyage-code-2
、voyage-law-2
、voyage-finance-2
和 voyage-multilingual-2
,这些模型均在各自领域的数据上进行了充分的训练。例如,voyage-multilingual-2
在法语、德语、日语、西班牙语和韩语中表现出色,同时在英语中也具备一流的性能。我们还为特定企业的特定用例和数据进行了模型微调,例如 Harvey.ai 的法律嵌入模型。
现在,我们非常高兴地推出 Voyage 3 系列嵌入模型,包括 voyage-3
和 voyage-3-lite
,并将在几周后推出 voyage-3-large
。这些模型在检索质量上超越了竞争对手,同时显著降低了 vectorDB 的价格和后续成本。具体来说,voyage-3
具有以下特点:
- 在所有八个评估领域(技术、代码、网络、法律、金融、多语言、保护和长上下文)中,性能平均比 OpenAI v3 large 高 7.55%。
- 成本比 OpenAI v3 large 低 2.2 倍,比 Cohere English v3 低 1.6 倍,每 100 万 tokens 成本为 $0.06。
- 嵌入维度比 OpenAI (3072) 和 E5 Mistral (4096) 小 3-4 倍 (1024),从而将 vectorDB 成本降低 3-4 倍。
- 支持 32K-token 的上下文长度,而 OpenAI 为 8K,Cohere 为 512。
voyage-3-lite
是一个针对延迟和低成本优化的轻量化模型,其特点包括:
- 在各领域的平均性能比 OpenAI v3 large 高 3.82%。
- 成本比 OpenAI v3 large 低 6.5 倍,每 100 万 tokens 成本为 $0.02。
- 在相同价格下,其性能比 OpenAI v3 small 高 7.58%。
- 嵌入维度比 OpenAI (3072) 和 E5 Mistral (4096) 小 6-8 倍 (512),从而将 vectorDB 成本降低 6-8 倍。
- 支持 32K-token 的上下文长度,而 OpenAI 为 8K,Cohere 为 512。
以下表格总结了这些模型及其一些竞争对手的重要方面,并附有一个关于检索质量与成本关系的图表 2。
模型 | 维度 | 上下文 长度 | 成本 (每百万 Token) | 检索 质量 (NDCG@10) |
---|---|---|---|---|
voyage-3 | 1024 | 32K | $0.06 | 76.72 |
voyage-3-lite | 512 | 32K | $0.02 | 72.98 |
OpenAI v3 large | 3072 | 8K | $0.13 | 69.17 |
OpenAI v3 small | 1536 | 8K | $0.02 | 67.08 |
Cohere English v3 | 1024 | 512 | $0.10 | 59.33 |
E5 Mistral | 4096 | 4K | $0.10 | 70.13 |
BGE M3 | 1024 | 8K | $0.016 | 66.61 |
voyage-3
和 voyage-3-lite
是多项研究创新的成果,包括改进的架构、从更大模型的蒸馏、超过 2 万亿高质量 Token 的预训练,以及通过人类反馈对检索结果的对齐。
推荐。任何通用嵌入用户可以升级为 voyage-3
以低成本获得更高的检索质量,或选择 voyage-3-lite
进一步节省成本。如果您特别关注代码、法律、金融和多语言检索,Voyage 2 系列的领域专用模型(voyage-code-2
、voyage-law-2
、voyage-finance-2
和 voyage-multilingual-2
)仍然是各自领域的最佳选择,即使 voyage-3
的性能也非常具有竞争力(见下文部分)。如果您已经使用 Voyage 嵌入,只需在 Voyage API 调用中将 model
参数指定为 "voyage-3"
或 "voyage-3-lite"
,即可用于语料库和查询。
评估细节
数据集。我们在 40 个领域专用检索数据集上进行了评估,覆盖了八个领域,包括技术文档、代码、法律、金融、网络评论、多语言、长文档和对话。每个数据集包含一个待检索的语料库和一组查询。语料库通常包括某个特定领域的文档,例如 StackExchange 的答案、法院意见、技术文档等;查询可以是问题、长文档的摘要,或是单个文档。下表列出了除多语言外的八个类别中的数据集。多语言领域覆盖了 26 种语言的 62 个数据集,包括法语、德语、日语、西班牙语、韩语、孟加拉语、葡萄牙语和俄语。其中前 5 种语言有多个数据集,其余语言每种语言包含一个数据集,并在下方的多语言雷达图中归入 OTHER 类别。
类别 | 描述 | 数据集 |
---|---|---|
技术 | 技术文档 | Cohere, 5G, OneSignal, LangChain, PyTorch |
代码 | 代码片段、文档字符串 | LeetCodeCpp, LeetCodeJava, LeetCodePython, HumanEval, MBPP, DS1000-referenceonly, DS1000, apps_5doc |
法律 | 案例、法院意见、法典、专利 | LeCaRDv2, LegalQuAD, LegalSummarization, AILA casedocs, AILA statutes |
金融 | SEC 文件、金融 QA | RAG benchmark (Apple-10K-2022), FinanceBench, TAT-QA, Finance Alpaca, FiQA Personal Finance, Stock News Sentiment, ConvFinQA, FinQA, HC3 Finance |
网络 | 评论、论坛帖子、政策页面 | Huffpostsports, Huffpostscience, Doordash, Health4CA |
长上下文 | 政府报告、学术论文及对话等长文档 | NarrativeQA, Needle, Passkey, QMSum, SummScreenFD, WikimQA |
对话 | 会议记录、对话 | Dialog Sum, QA Conv, HQA |
所有评估数据集的列表可在 此电子表格 中查看。
模型。我们评估了 voyage-3
和 voyage-3-lite
,以及一些替代模型,包括:OpenAI v3 small(text-embedding-3-small
)和 large(text-embedding-3-large
)、E5 Mistral(intfloat/e5-mistral-7b-instruct
)、BGE M3(BAAI/bge-m3
)、Cohere English v3(embed-english-v3.0
)以及 voyage-large-2-instruct
。对于领域专用和多语言数据集,我们还评估了 voyage-law-2
、voyage-finance-2
、voyage-multilingual-2
、Multilingual E5(infloat/multilingual-e5-large
)以及 Cohere multilingual v3(embed-multilingual-v3.0
)。
指标。针对查询,我们根据余弦相似度检索前 10 个文档,并报告归一化折扣累积增益(NDCG@10),这是检索质量的标准指标,也是召回率的一种变体。
结果
跨领域检索。如前所述,并在本文的第一个雷达图中显示,voyage-3
在多个领域的表现平均比 OpenAI v3 large 高 7.55%。此外,正如下面柱状图所示,voyage-3
的表现仅略低于 Voyage 的领域特定模型。
多语言检索。如下面的雷达图所示,voyage-3
的多语言检索质量仅稍逊于 voyage-multilingual-2
,但具有更低的延迟和一半的成本。voyage-3-lite
优于所有非 Voyage 模型,分别比 OpenAI v3 large、Cohere multilingual v3 和 Multilingual E5 高出 4.55%、3.13% 和 3.89%。
所有评估结果均可在 此电子表格 中查看。
试用 Voyage 3 系列!
立即试用 voyage-3
和 voyage-3-lite
!前 200M Tokens 免费。前往我们的 文档 了解更多信息。如果您对微调嵌入感兴趣,我们也非常愿意听到您的意见——请通过 contact@voyageai.com 联系我们。关注我们的 X (Twitter) 和 LinkedIn,并加入我们的 Discord 以获取更多更新。
- Cohere English v3 在 LAW 和 LONG-CONTEXT 数据集上的平均 NDCG@10 分别为 33.32% 和 42.48%。在雷达图可视化中,我们将这些值四舍五入为 45%。
- E5 Mistral 和 BGE M3 是开源模型。我们使用 $0.10 作为 E5 Mistral 的成本,这符合业界对 7B 参数模型的标准;BGE M3 的成本为 $0.016,这是基于 Fireworks.ai 对 350M 参数模型的 价格 估算的。