Claude 3.7 Sonnet 与 Claude Code：前沿推理与 Agentic 编码的结合

55.7K 00

Claude 3.7 Sonnet 与 Claude Code：前沿推理与 Agentic 编码的结合

Anthropic 公司于今日发布 Claude 3.7 Sonnet ^1^ ，这不仅是 Anthropic 迄今为止最智能的模型，更标志着市场上首个混合推理模型的诞生。Claude 3.7 Sonnet 既能提供近乎即时的响应，也能进行更深入、逐步的思考，并且思考过程对用户是。API 用户还可以精细地控制模型思考的时长。

Claude 3.7 Sonnet 在代码编写和前端 Web 开发方面表现出尤为显著的提升。与该模型一同发布的还有 Claude Code，这是一款用于 agentic 编码的命令行工具，目前以有限的研究预览版形式提供。Claude Code 使开发人员能够直接从终端将大量的工程任务委托给 Claude 完成。

现在，所有 Claude 计划（包括 Free、Pro、Team 和 Enterprise），以及 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 均已支持 Claude 3.7 Sonnet。扩展思考模式在除免费版 Claude 之外的所有平台均可用。

在标准和扩展思考模式下，Claude 3.7 Sonnet 的定价均与其前代产品保持一致：每百万输入 tokens 3 美元，每百万输出 tokens 15 美元 —— 其中包括思考 tokens。

Claude 3.7 Sonnet：前沿推理走向实用

Anthropic 在开发 Claude 3.7 Sonnet 时，秉持着与其他推理模型不同的理念。正如人类使用同一个大脑进行快速反应和深入思考，Anthropic 认为推理应该成为前沿模型的内在集成能力，而不是一个完全独立的模型。这种统一的方法也为用户创造了更流畅的体验。

Claude 3.7 Sonnet 在多个方面体现了这一理念。首先，Claude 3.7 Sonnet 集普通 LLM 和推理模型于一体：用户可以选择模型何时以标准模式快速响应，何时进行更长时间的思考后再作答。在标准模式下，Claude 3.7 Sonnet 是 Claude 3.5 Sonnet 的升级版。在扩展思考模式下，模型会在回答前进行自我反思，从而提升其在数学、物理、指令跟随、编码和许多其他任务上的性能。Anthropic 发现，在这两种模式下，对模型进行提示的方式大致相同。

其次，当通过 API 使用 Claude 3.7 Sonnet 时，用户还可以控制思考的预算：用户可以告知 Claude 最多思考 N 个 tokens，N 的值可以设置为最高 128K tokens 的输出限制。这使得用户能够根据需求在速度（和成本）与答案质量之间灵活权衡。

第三，在推理模型的开发过程中，Anthropic 在优化方向上略微减少了对数学和计算机科学竞赛题目的侧重，转而更加关注实际应用场景，以更好地反映企业用户如何真正使用 LLM。

早期测试已经证明了 Claude 在各个方面的编码能力都处于领先地位：Cursor 指出，Claude 再次成为实际编码任务中的佼佼者，在处理复杂代码库到高级工具使用等领域均有显著提升。Cognition 发现，在规划代码变更和处理全栈更新方面，Claude 远胜于其他任何模型。Vercel 强调了 Claude 在复杂 agent 工作流方面的卓越精度，而 Replit 已成功部署 Claude 从零开始构建复杂的 Web 应用程序和仪表板，这在其他模型中难以实现。Canva 的评估表明，Claude 能够持续生成可直接投入生产的代码，不仅设计品味更佳，而且大幅减少了错误。

Claude 3.7 Sonnet 与 Claude Code：前沿推理与 Agentic 编码的结合
Claude 3.7 Sonnet 在 SWE-bench Verified 上取得了最佳性能，该基准评测 AI 模型解决实际软件问题的能力。有关 scaffolding 的更多信息，请参阅附录。

Claude 3.7 Sonnet 与 Claude Code：前沿推理与 Agentic 编码的结合
Claude 3.7 Sonnet 在 TAU-bench 上取得了最佳性能，TAU-bench 是一个测试 AI Agent 在涉及用户和工具交互的复杂实际任务中表现的框架。有关 scaffolding 的更多信息，请参阅附录。

Claude 3.7 Sonnet 与 Claude Code：前沿推理与 Agentic 编码的结合
Claude 3.7 Sonnet 在指令跟随、通用推理、多模态能力和 agentic 编码方面表现出色，扩展思考模式更显著提升了其在数学和科学领域的性能。除了传统的基准测试，Claude 3.7 Sonnet 甚至在 Pokémon 游戏测试中也超越了所有之前的模型。

Claude Code：开发者的新助手

自 2024 年 6 月以来，Sonnet 已成为全球开发人员的首选模型。如今，Anthropic 以有限的研究预览版形式推出 Claude Code —— Anthropic 首款 agentic 编码工具，进一步为开发者赋能。

Claude Code 是一位积极的协作者，它可以搜索和阅读代码、编辑文件、编写和运行测试、提交代码并推送到 GitHub，以及使用命令行工具 —— 在每一步都让用户保持知情。

Claude Code 尚处于早期阶段，但已成为 Anthropic 团队不可或缺的工具，尤其是在测试驱动开发、调试复杂问题和大规模重构方面。在早期测试中，Claude Code 在一次操作中即可完成通常需要 45 分钟以上手动操作的任务，从而显著减少了开发时间和管理成本。

在未来几周内，Anthropic 计划根据用户的使用情况不断对其进行改进，包括提高工具调用可靠性、增加对长时间运行命令的支持、改进应用内渲染效果，以及增强 Claude 自身对其能力的理解。

Anthropic 推出 Claude Code 的目标是更好地了解开发人员如何使用 Claude 进行编码，从而为未来的模型改进提供信息。通过加入此预览，用户将获得与 Anthropic 用于构建和改进 Claude 相同的强大工具的访问权限，并且用户的反馈将直接影响其未来发展。

在代码库上与 Claude 协同工作

Anthropic 还改进了 Claude.ai 上的编码体验。Anthropic 的 GitHub 集成现已在所有 Claude 计划中提供 —— 使开发人员能够将其代码仓库直接连接到 Claude。

Claude 3.7 Sonnet 是 Anthropic 迄今为止最出色的编码模型。凭借对用户的个人项目、工作项目和开源项目的更深入理解，它将成为更强大的合作伙伴，助力用户修复错误、开发新功能以及构建最重要的 GitHub 项目的文档。

负责任的构建

Anthropic 对 Claude 3.7 Sonnet 进行了广泛的测试和评估，并与外部专家合作，以确保其符合 Anthropic 在安全性、可靠性和安全性方面的标准。与前代产品相比，Claude 3.7 Sonnet 在区分有害和良性请求方面也更加细致，不必要的拒绝减少了 45%。

此版本的系统卡涵盖了多个类别中的最新安全结果，详细分析了 Anthropic 的“负责任的扩展策略”评估，其他 AI 实验室和研究人员可以将其应用于自身工作。该系统卡还探讨了计算机使用带来的新兴风险，特别是 prompt 注入攻击，并解释了 Anthropic 如何评估这些漏洞并训练 Claude 以抵抗和缓解它们。此外，系统卡还研究了推理模型可能带来的潜在安全优势：理解模型如何做出决策的能力，以及模型推理是否真正值得信赖和可靠。请阅读完整的系统卡以了解更多信息。

展望未来

Claude 3.7 Sonnet 和 Claude Code 的发布，标志着 AI 系统朝着真正增强人类能力的方向迈出了重要一步。凭借其深入推理、自主工作和有效协作的能力，它们正带领我们走向一个 AI 能够丰富和扩展人类成就的未来。

Anthropic 很高兴用户能探索这些新功能，并期待看到用户将创造出什么。Anthropic 始终欢迎用户的[反馈](mailto: feedback@anthropic.com)，以便 Anthropic 持续改进和发展 Anthropic 的模型。

附录

^1 ^关于命名的经验教训。

评估数据来源

Grok
Gemini 2 Pro
o1 and o3-mini
Supplementary o1
o1 TAU-bench
Supplementary o3-mini
Deepseek R1

TAU-bench

关于 scaffolding 的信息

这些分数是通过在 Airline Agent Policy 中添加提示附录获得的，该附录指示 Claude 更好地利用 “规划” 工具。在该模式下，Anthropic 鼓励模型在解决问题的多轮交互过程中，写下其思考过程，以便充分发挥其推理能力，这与 Anthropic 通常的思考模式有所不同。为了适应 Claude 因使用更多思考步骤而产生的额外 tokens 消耗，Anthropic 将最大步骤数（以模型完成次数计算）从 30 增加到 100（大多数交互在 30 步内完成，只有一次交互超过 50 步）。

此外，Claude 3.5 Sonnet (new) 的 TAU-bench 分数与 Anthropic 最初发布时报告的分数有所不同，原因是自那时以来数据集进行了一些小的改进。Anthropic 在更新后的数据集上重新运行了测试，以便更准确地与 Claude 3.7 Sonnet 进行比较。

SWE-bench Verified

关于 scaffolding 的信息

解决像 SWE-bench 这样开放式的 agentic 任务有很多方法。一些方法将大部分复杂性（例如决定要调查或编辑哪些文件，以及要运行哪些测试）转移到更传统的软件，仅留下核心语言模型在预定义的位置生成代码，或从更有限的操作集合中进行选择。Agentless (Xia et al., 2024) 是一种在 Deepseek R1 和其他模型的评估中常用的流行框架，它使用 prompt 和 embedding 的文件检索机制、patch 定位以及针对回归测试的 best-of-40 拒绝抽样来增强 agent 的能力。其他 scaffolds (例如 Aide) 通过重试、best-of-N 或 Monte Carlo Tree Search (MCTS) 等形式的额外测试时计算来进一步增强模型。

对于 Claude 3.7 Sonnet 和 Claude 3.5 Sonnet (new)，Anthropic 使用了一种更简单的方法，scaffolding 极少。在该方法中，模型在单个会话中决定要运行哪些命令和编辑哪些文件。Anthropic 主要的 “no extended thinking” pass@1 结果只是为模型配备了此处描述的两种工具 —— bash 工具和通过字符串替换进行操作的文件编辑工具 —— 以及 Anthropic 在 TAU-bench 结果中提到的 “规划工具”。由于基础设施的限制，在 Anthropic 的内部基础设施上实际只能解决 489/500 个问题（即，黄金解决方案通过测试）。对于 vanilla pass@1 分数，Anthropic 将 11 个无法解决的问题计为失败，以与官方排行榜保持一致。为了透明起见，Anthropic 单独发布了在 Anthropic 的基础设施上无法运行的测试用例。

对于 “high compute” 数字，Anthropic 采用了额外的复杂性和并行测试时计算，如下所示：

Anthropic 使用上述 scaffold 采样多个并行尝试
Anthropic 丢弃破坏仓库中可见回归测试的 patches，类似于 Agentless 采用的拒绝抽样方法；请注意，Anthropic 未使用隐藏的测试信息。
然后，Anthropic 使用类似于 Anthropic 在研究文章中描述的 GPQA 和 AIME 结果的评分模型对剩余的尝试进行排名，并选择最佳的尝试进行提交。

这在 Anthropic 的基础设施上可工作的 n=489 个已验证任务子集上产生了 70.3% 的分数。在没有此 scaffold 的情况下，Claude 3.7 Sonnet 在使用相同子集的 SWE-bench Verified 上取得了 63.7% 的成绩。Anthropic 的内部基础设施不兼容的 11 个测试用例如下：