Command R7B：增强检索和推理能力，多语言支持，快速高效的生成式 AI

1.5K 00

我们 R 系列中最小的模型提供顶级的速度、效率和质量，可在普通 GPU 和边缘设备上构建强大的 AI 应用程序。

今天，我们很高兴发布 Command R7B，这是我们专为企业开发的大语言模型（LLM）R 系列中的最小、最快、最后一款模型。Command R7B 在其开放权重模型的类别中提供了业内领先的性能，能够处理对用户重要的真实世界任务。该模型专为需要优化速度、成本效益和计算资源的开发者和企业设计。

与 R 系列中的其他模型一样，Command R7B 提供了 128k 的上下文长度，并在多个重要的业务应用场景中表现出色。它结合了强大的多语言支持、引用验证的检索增强生成（RAG）、推理、工具使用和代理行为等功能。由于其紧凑的体积和高效性，它可以在低端 GPU、MacBook 甚至 CPU 上运行，极大降低了将 AI 应用程序投入生产的成本。

小体积中的高性能

一款全面的模型

Command R7B 在标准化和可外部验证的基准测试中表现出色，如 HuggingFace Open LLM 排行榜。与其他同类开放权重模型相比，Command R7B 在所有任务上平均排名第一，表现强劲。

Command R7B：增强检索和推理能力，多语言支持，快速高效的生成式 AI
HuggingFace 排行榜评估结果。竞争对手的数字来源于官方排行榜。Command R7B 的结果是我们根据官方 HuggingFace 提供的提示和评估代码计算得出的。

数学、代码和推理任务的效率提升

Command R7B 的一个主要关注点是提升在数学与推理、代码编写和多语言任务上的表现。特别是，该模型在常见的数学和代码基准测试中，能够匹配或超过同类开放权重模型的表现，同时使用的参数更少。

Command R7B：增强检索和推理能力，多语言支持，快速高效的生成式 AI
模型在数学和代码基准测试中的表现。所有数据均来自内部评估，标有星号的数字来自外部报告结果，这些结果较高。我们使用 MBPPPlus 的基础版本，LBPP 是跨 6 种语言的平均值，SQL 是 3 个数据集的平均值（仅限 SpiderDev 和 Test 的难度较高与超高部分、BirdBench 以及一个内部数据集），COBOL 是我们内部开发的数据集。

使用 NTREX 数据集评估的文档翻译质量（通过语料库 spBLEU 指标）。

一流的 RAG、工具使用和智能体

Command R7B 在处理核心业务用例如 RAG、工具使用和 AI 智能体方面，优于其他同等规模的开放权重模型。它是那些寻求基于内部文档和数据的成本效益模型的企业的理想选择。与我们的其他 R 系列模型一样，我们的 RAG 提供了本地内联引用，大大减少了幻觉现象，并使事实核查变得更容易。

Command R7B：增强检索和推理能力，多语言支持，快速高效的生成式 AI
在 ChatRAGBench（10 数据集平均）、BFCL-v3、StrategyQA、Bamboogle 和 Tooltalk-hard 上进行的性能评估。方法学和更多细节请见下面的脚注 [1]。

在工具使用方面，我们看到与同类规模模型相比，Command R7B 在业界标准的 Berkeley Function-Calling Leaderboard 上表现更强。这表明 Command R7B 在现实世界中多样化和动态的环境中，特别擅长工具使用，并且能够避免不必要地调用工具，这是实际应用中工具使用的重要方面。Command R7B 的多步工具使用能力使其能够支持快速且高效的 AI 智能体。

针对企业用例的优化

我们的模型经过优化，满足企业在实际部署 AI 系统时所需的能力。R 系列提供了效率与强大性能的无与伦比的平衡。这意味着确保它们在人类评估中表现优异，这是质量评估的金标准。Command R7B 在关于 RAG 用例的盲评头对头测试中优于同类规模的开放权重模型，这些用例涉及客户关心的 AI 助手构建，比如客服、人力资源、合规性和 IT 支持等职能。

Command R7B：增强检索和推理能力，多语言支持，快速高效的生成式 AI
在人类评估中，Command R7B 与 Gemma 2 9B 在 949 个企业 RAG 用例的样本上进行对比测试。所有示例均由专门训练的人工标注员至少进行三重盲标注，评估流畅性、忠实度和回答实用性。

高效且快速

Command R7B 的紧凑体积提供了较小的服务占用空间，适合快速原型设计和迭代。它在高吞吐量的实时用例中表现卓越，如聊天机器人和代码助手。它还能够大幅降低部署基础设施成本，如消费者级 GPU 和 CPU，从而支持设备端推理。

我们在此过程中未妥协于我们的企业级安全和隐私标准，确保客户数据的保护。

快速入门

Command R7B 今天可以在 Cohere Platform 上使用，同时也可以在 HuggingFace 上访问。我们很高兴发布该模型的权重，为 AI 研究社区提供更广泛的前沿技术访问。

Cohere API 定价	输入 Token	输出 Token
Command R7B	$0.0375 / 1M \| $0.15 / 1M

[1] 对话式 RAG：在 10 数据集的 ChatRAGBench 基准上进行的平均性能测试，测试生成回答在多种环境中的能力，包括对话任务、处理长输入、分析表格以及在金融环境中提取和操作数据信息。我们改进了评估方法，使用 PoLL 判别器集成（Verga 等，2024），结合 Haiku、GPT3.5 和 Command R，提供了更高的一致性（Fleiss’ kappa=0.74，相较于原始版本的 0.57，基于 2 万个人工评定）。工具使用：2024年12月12日 BFCL-v3 基准测试的表现。所有可以获得的分数都来自公开排行榜，否则使用官方代码库进行的内部评估。对于竞争者，我们报告其 BFCL ‘prompted’ 或 ‘function-calling’ 分数中的较高者。我们报告了总体得分、实时子集得分（测试工具在真实世界、多样化和动态环境中的使用）和无关子集得分（测试模型如何避免不必要地调用工具）。REACT Agent/多步：我们评估了 LangChain REACT 智能体连接互联网后，如何分解复杂问题并制定成功执行研究计划的能力，使用 Bamboogle 和 StrategyQA。Bamboogle 使用 PoLL 集成进行评估，StrategyQA 通过评估模型是否按照格式指令，最后回答 ‘Yes’ 或 ‘No’ 来进行判断。我们使用 Chen 等（2023）和 Press 等（2023）的测试集。ToolTalk 挑战模型执行复杂推理，并积极向用户寻求信息，以完成复杂的用户任务，如账户管理、发送电子邮件和更新日历。ToolTalk-hard 使用官方 ToolTalk 库的软成功率进行评估。ToolTalk 要求模型公开一个函数调用 API，而 Gemma 2 9B 并没有此功能。