voyage-3 和 voyage-3-lite：新一代小而强大的通用嵌入模型

2.7K 00

摘要 – 我们很高兴宣布推出 voyage-3 和 voyage-3-lite 嵌入模型，这些模型在检索质量、延迟和成本方面达到了新的高度。voyage-3 在所有评估领域（包括代码、法律、金融、多语言和长上下文）中，平均性能比 OpenAI v3 large 提高 7.55%，同时成本降低 2.2 倍，嵌入维度减少 3 倍，从而将 vectorDB 成本降低 3 倍。voyage-3-lite 在检索准确性上比 OpenAI v3 large 提高 3.82%，成本减少 6 倍，嵌入维度也减少 6 倍。两个模型均支持 32K-token 的上下文长度，比 OpenAI 高 4 倍。

在过去九个月中，我们发布了 Voyage 2 系列嵌入模型套件，其中包括诸如 voyage-large-2 这样的最先进的通用模型，以及一些面向特定领域的模型，如 voyage-code-2、voyage-law-2、voyage-finance-2 和 voyage-multilingual-2，这些模型均在各自领域的数据上进行了充分的训练。例如，voyage-multilingual-2 在法语、德语、日语、西班牙语和韩语中表现出色，同时在英语中也具备一流的性能。我们还为特定企业的特定用例和数据进行了模型微调，例如 Harvey.ai 的法律嵌入模型。

现在，我们非常高兴地推出 Voyage 3 系列嵌入模型，包括 voyage-3 和 voyage-3-lite，并将在几周后推出 voyage-3-large。这些模型在检索质量上超越了竞争对手，同时显著降低了 vectorDB 的价格和后续成本。具体来说，voyage-3 具有以下特点：

在所有八个评估领域（技术、代码、网络、法律、金融、多语言、保护和长上下文）中，性能平均比 OpenAI v3 large 高 7.55%。
成本比 OpenAI v3 large 低 2.2 倍，比 Cohere English v3 低 1.6 倍，每 100 万 tokens 成本为 $0.06。
嵌入维度比 OpenAI (3072) 和 E5 Mistral (4096) 小 3-4 倍 (1024)，从而将 vectorDB 成本降低 3-4 倍。
支持 32K-token 的上下文长度，而 OpenAI 为 8K，Cohere 为 512。

voyage-3-lite 是一个针对延迟和低成本优化的轻量化模型，其特点包括：

在各领域的平均性能比 OpenAI v3 large 高 3.82%。
成本比 OpenAI v3 large 低 6.5 倍，每 100 万 tokens 成本为 $0.02。
在相同价格下，其性能比 OpenAI v3 small 高 7.58%。
嵌入维度比 OpenAI (3072) 和 E5 Mistral (4096) 小 6-8 倍 (512)，从而将 vectorDB 成本降低 6-8 倍。
支持 32K-token 的上下文长度，而 OpenAI 为 8K，Cohere 为 512。

以下表格总结了这些模型及其一些竞争对手的重要方面，并附有一个关于检索质量与成本关系的图表 2。

模型	维度	上下文长度	成本（每百万 Token）	检索质量（NDCG@10）
voyage-3	1024	32K	$0.06	76.72
voyage-3-lite	512	32K	$0.02	72.98
OpenAI v3 large	3072	8K	$0.13	69.17
OpenAI v3 small	1536	8K	$0.02	67.08
Cohere English v3	1024	512	$0.10	59.33
E5 Mistral	4096	4K	$0.10	70.13
BGE M3	1024	8K	$0.016	66.61

voyage-3 和 voyage-3-lite 是多项研究创新的成果，包括改进的架构、从更大模型的蒸馏、超过 2 万亿高质量 Token 的预训练，以及通过人类反馈对检索结果的对齐。

推荐。任何通用嵌入用户可以升级为 voyage-3 以低成本获得更高的检索质量，或选择 voyage-3-lite 进一步节省成本。如果您特别关注代码、法律、金融和多语言检索，Voyage 2 系列的领域专用模型（voyage-code-2、voyage-law-2、voyage-finance-2 和 voyage-multilingual-2）仍然是各自领域的最佳选择，即使 voyage-3 的性能也非常具有竞争力（见下文部分）。如果您已经使用 Voyage 嵌入，只需在 Voyage API 调用中将 model 参数指定为 "voyage-3" 或 "voyage-3-lite"，即可用于语料库和查询。

评估细节

数据集。我们在 40 个领域专用检索数据集上进行了评估，覆盖了八个领域，包括技术文档、代码、法律、金融、网络评论、多语言、长文档和对话。每个数据集包含一个待检索的语料库和一组查询。语料库通常包括某个特定领域的文档，例如 StackExchange 的答案、法院意见、技术文档等；查询可以是问题、长文档的摘要，或是单个文档。下表列出了除多语言外的八个类别中的数据集。多语言领域覆盖了 26 种语言的 62 个数据集，包括法语、德语、日语、西班牙语、韩语、孟加拉语、葡萄牙语和俄语。其中前 5 种语言有多个数据集，其余语言每种语言包含一个数据集，并在下方的多语言雷达图中归入 OTHER 类别。

类别	描述	数据集
技术	技术文档	Cohere, 5G, OneSignal, LangChain, PyTorch
代码	代码片段、文档字符串	LeetCodeCpp, LeetCodeJava, LeetCodePython, HumanEval, MBPP, DS1000-referenceonly, DS1000, apps_5doc
法律	案例、法院意见、法典、专利	LeCaRDv2, LegalQuAD, LegalSummarization, AILA casedocs, AILA statutes
金融	SEC 文件、金融 QA	RAG benchmark (Apple-10K-2022), FinanceBench, TAT-QA, Finance Alpaca, FiQA Personal Finance, Stock News Sentiment, ConvFinQA, FinQA, HC3 Finance
网络	评论、论坛帖子、政策页面	Huffpostsports, Huffpostscience, Doordash, Health4CA
长上下文	政府报告、学术论文及对话等长文档	NarrativeQA, Needle, Passkey, QMSum, SummScreenFD, WikimQA
对话	会议记录、对话	Dialog Sum, QA Conv, HQA

所有评估数据集的列表可在此电子表格中查看。

模型。我们评估了 voyage-3 和 voyage-3-lite，以及一些替代模型，包括：OpenAI v3 small（text-embedding-3-small）和 large（text-embedding-3-large）、E5 Mistral（intfloat/e5-mistral-7b-instruct）、BGE M3（BAAI/bge-m3）、Cohere English v3（embed-english-v3.0）以及 voyage-large-2-instruct。对于领域专用和多语言数据集，我们还评估了 voyage-law-2、voyage-finance-2、voyage-multilingual-2、Multilingual E5（infloat/multilingual-e5-large）以及 Cohere multilingual v3（embed-multilingual-v3.0）。

指标。针对查询，我们根据余弦相似度检索前 10 个文档，并报告归一化折扣累积增益（NDCG@10），这是检索质量的标准指标，也是召回率的一种变体。

结果

跨领域检索。如前所述，并在本文的第一个雷达图中显示，voyage-3 在多个领域的表现平均比 OpenAI v3 large 高 7.55%。此外，正如下面柱状图所示，voyage-3 的表现仅略低于 Voyage 的领域特定模型。

多语言检索。如下面的雷达图所示，voyage-3 的多语言检索质量仅稍逊于 voyage-multilingual-2，但具有更低的延迟和一半的成本。voyage-3-lite 优于所有非 Voyage 模型，分别比 OpenAI v3 large、Cohere multilingual v3 和 Multilingual E5 高出 4.55%、3.13% 和 3.89%。

所有评估结果均可在此电子表格中查看。

试用 Voyage 3 系列！

立即试用 voyage-3 和 voyage-3-lite！前 200M Tokens 免费。前往我们的文档了解更多信息。如果您对微调嵌入感兴趣，我们也非常愿意听到您的意见——请通过 contact@voyageai.com 联系我们。关注我们的 X (Twitter) 和 LinkedIn，并加入我们的 Discord 以获取更多更新。

Cohere English v3 在 LAW 和 LONG-CONTEXT 数据集上的平均 NDCG@10 分别为 33.32% 和 42.48%。在雷达图可视化中，我们将这些值四舍五入为 45%。
E5 Mistral 和 BGE M3 是开源模型。我们使用 $0.10 作为 E5 Mistral 的成本，这符合业界对 7B 参数模型的标准；BGE M3 的成本为 $0.016，这是基于 Fireworks.ai 对 350M 参数模型的价格估算的。