就在昨晚,Anthropic 即将发布新模型的消息在 AI 社区迅速传播,但并非此前外界期待的 Claude 4.0,而是 Claude 3.7 Sonnet 版本。
今天凌晨,Anthropic 准时发布了其最新的旗舰模型,正式推出了号称是目前为止最智能,同时也是市场上首个混合推理模型 —— Claude 3.7 Sonnet。
Claude 3.7 Sonnet 既能提供近乎实时的快速响应,也能根据用户需求,进行更深入、更细致的逐步思考。正如 Anthropic 所描述的「一个模型,两种思考方式」(One model, two ways to think.),指的是其具备标准和扩展两种思考模式。此外,API 用户还可以对模型的思考时长进行更精细的控制。
除了发布 Claude 3.7 Sonnet 之外,Anthropic 还同步推出了名为 Claude Code 的命令行工具,专注于智能编码。该工具目前以有限研究预览版的形式提供,旨在让开发者可以直接在终端环境中,将大量的工程任务交给 Claude 处理。
在编码能力方面,Anthropic 进一步优化了 Claude.ai 平台的编码体验。其 GitHub 集成功能现已在所有 Claude 计划中开放,开发者可以将代码仓库直接连接到 Claude。通过更深入地理解个人项目、工作项目以及开源项目,Claude 将成为开发者在 GitHub 项目中进行错误修复、功能开发和文档构建时更强大的助手。
正因如此,受益于在编码和前端 Web 开发能力上的显著提升,Claude 3.7 Sonnet 成为了 Anthropic 目前为止最优秀的编码模型。
目前,用户可以通过所有 Claude 计划(包括 Free、Pro、Team 和 Enterprise),以及 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 等平台体验最新的 Claude 3.7 Sonnet 模型。除了免费用户外,所有付费用户均可体验其扩展思考模式。
在标准和扩展思考模式下,Claude 3.7 Sonnet 的定价与上一代 Claude 3.5 Sonnet 保持一致,均为每百万输入 token 3 美元,每百万输出 token 15 美元(包含思考 token)。
正如一位网友评价道:「Anthropic 的每次新品发布都令人感到惊喜和振奋!」
最强 Claude 3.7 Sonnet
让前沿推理触手可及
Anthropic 强调,Claude 3.7 Sonnet 的开发理念有别于市面上其他推理模型。Anthropic 认为,正如人类大脑能够同时进行快速反应和深度思考,AI 推理能力也应该整合前沿模型的各项能力,而不是将它们彼此割裂。这种统一的设计思路旨在为用户带来更流畅的使用体验。
遵循上述理念,Claude 3.7 Sonnet 具备多项独特优势。
首先,Claude 3.7 Sonnet 独特之处在于它既可以作为通用 LLM 使用,又具备强大的推理能力。用户可以根据需求选择让模型快速给出答案,或是在回答前进行更深入的思考。在标准模式下,Claude 3.7 Sonnet 可以看作是上一代 Claude 3.5 Sonnet 的升级版本。而在扩展思考模式下,它会在给出答案前进行自我反思,从而显著提升其在数学、物理、指令遵循、编码等多种任务上的性能表现。Anthropic 官方指出,在这两种模式下,模型对提示词的理解和处理方式是相似的。
其次,在使用 API 调用 Claude 3.7 Sonnet 时,用户还可以自定义模型的 “思考预算”。具体来说,用户可以设定 Claude 思考时最多使用的 token 数量(N)。无论 N 值如何设定,模型的输出 token 数量上限均为 128K。 这使得用户能够在响应速度(及成本)与答案质量之间找到最佳平衡点。
第三,在开发其推理模型时,Anthropic 并没有像其他机构那样,过度侧重于优化模型在数学和计算机科学竞赛题上的表现,而是将重点放在了更贴近企业实际应用场景的现实任务上。
从 Claude 3.7 Sonnet 的基准测试结果来看,在 SWE-bench Verified 基准测试(该基准测试旨在评估 LLM 解决 GitHub 真实软件问题的能力)中,Claude 3.7 Sonnet 取得了 SOTA 级别的性能,大幅领先于 Claude 3.5 Sonnet、OpenAI 的 o3-mini (high) 和 o1 以及 DeepSeek R1 等模型。
在 TAU-bench 基准测试(该基准测试平台用于评估 LLM 在复杂、真实的场景中,用户与工具的交互能力)中,Claude 3.7 Sonnet 同样表现出色,取得了 SOTA 级别的性能,超越了 Claude 3.5 Sonnet 和 OpenAI 的 o1 模型。
Claude 3.7 Sonnet 在指令遵循、通用推理、多模态能力和智能编码等多个方面均展现出卓越性能,尤其是在扩展思考模式下,数学和科学方面的能力得到了显著增强。但在某些特定领域,其性能仍略逊于 OpenAI 的 o3-mini (high)、Grok-3 Beta 等模型。
不难看出,Anthropic 在 Claude 3.7 Sonnet 上,将重心放在了编码能力上,其他领域的提升相对不那么突出。 显然,Anthropic 意图将 Sonnet 系列定位为专注于编码的 AI 模型(实际上也正在朝着这个方向发展)。
值得一提的是,除了在传统基准测试中表现优异外,Claude 3.7 Sonnet 甚至在宝可梦(Pokémon)游戏测试中也超越了以往的所有模型。
Anthropic 已经与其合作伙伴进行了大量的早期测试,结果充分证明了 Claude 系列模型在编码能力方面的领先地位。
例如,Cursor 团队指出,Claude 再次成为解决现实世界编码任务的首选方案,尤其在处理复杂代码库和使用高级工具方面,Claude 展现出了显著的进步。Cognition 团队也发现,在代码变更规划和全栈更新处理方面,Claude 的表现远超其他模型。Vercel 强调了 Claude 在复杂代理工作流程中展现出的卓越精度。Replit 则成功地利用 Claude 从零开始构建了复杂的 Web 应用程序和仪表板,而其他模型在这方面则显得力不从心。Canva 的评估结果显示,Claude 能够持续编写出设计精良且可以直接投入生产的代码,并显著减少了错误发生率。
Claude Code
智能编码让开发更便捷
自 2024 年 6 月起,Sonnet 系列模型便已成为全球开发者的常用之选。如今,Anthropic 正式发布了其首个智能编码工具 Claude Code(目前为有限研究预览版),旨在进一步提升开发者的工作效率和能力。
功能方面,Claude Code 定位为一个积极主动的协作伙伴,能够执行代码搜索与阅读、文件编辑、测试编写与运行、代码提交与推送到 GitHub,以及调用各种命令行工具等任务。
我们通过以下几个示例来了解 Claude Code 的应用场景,例如解释项目结构:
编写测试:
构建应用:
尽管 Claude Code 仍处于早期预览阶段,但它已成为 Anthropic 团队不可或缺的工具,尤其是在测试驱动开发、复杂问题调试和大规模代码重构等方面,发挥着重要作用。
在早期测试阶段,Claude Code 已经能够一次性完成那些通常需要人工耗费 45 分钟以上才能完成的任务,从而显著缩短了开发耗时并降低了相关成本。
未来几周内,Anthropic 计划根据其自身的使用反馈,持续优化 Claude Code,包括提升工具调用的可靠性、增强对长时间运行命令的支持、改进应用内渲染效果,以及扩展 Claude 对自身功能的理解深度。
Claude Code 的推出,旨在更深入地了解开发者如何利用 Claude 进行编码工作,从而为 Anthropic 未来模型的迭代升级提供宝贵参考。 参与 Claude Code 预览体验的用户,将有机会提前使用到 Anthropic 内部用于构建和优化 Claude 模型的强大工具。
负责任构建与未来展望
Anthropic 对 Claude 3.7 Sonnet 进行了全面的测试与评估,并与外部安全专家展开合作,以确保该模型完全符合其自身设定的安全性和可靠性标准。
与此同时,Claude 3.7 Sonnet 在区分有害请求和良性请求方面也展现出更精细的判断能力。相较于上一代模型,其不必要的拒绝响应情况减少了 45%。
CoT 忠实度评估结果。
在 Claude 3.7 Sonnet 的模型卡中,Anthropic 详细阐述了其负责任的 AI 扩展策略评估框架,并参考了其他 AI 实验室和研究人员在相关工作中的实践经验。此外,模型卡还概述了 AI 技术应用带来的新型风险,特别是快速注入攻击,并解释了 Anthropic 如何评估和应对这些潜在的安全漏洞,以及如何训练 Claude 模型来防御和缓解这些风险。 除此之外,模型卡还深入探讨了推理模型可能带来的潜在安全优势,并对诸如 “如何理解模型的决策过程” 以及 “模型的推理结果是否真正值得信赖和可靠” 等问题进行了研究。
Anthropic 认为,此次发布的 Claude 3.7 Sonnet 和 Claude Code,标志着 AI 系统朝着真正增强人类能力的方向迈出了关键一步。 凭借卓越的深度推理、自主工作和高效协作能力,Anthropic 正在带领我们更加接近 AI 技术充分丰富和拓展人类潜能的未来愿景。
Anthropic 还描绘了一幅激动人心的未来发展蓝图:他们期望在 2025 年,Claude 能够进化成为可以独立自主工作数小时的专家级智能体;展望 2027 年,Anthropic 更希望 Claude 能够攻克那些需要人类团队耗费数年才能解决的复杂难题。