近日,Anthropic 公司推出了 Claude 3.5 Sonnet 模型的升级版——Claude 3.7 Sonnet。尽管在版本号上只增加了 0.2,但这次更新在性能和功能上都带来了一些变化。距离 Claude 上一次模型更新已经过去了四个多月,在快速发展的人工智能领域,这已经算得上是一段不短的时间。
业界普遍认为,如果模型在架构上没有突破性进展,通常不会直接升级到 4.0 版本。
免费使用渠道
站点名称 | 访问地址 (部分需科学上网) | 模型版本 | 推理模式 | 上下文窗口 (tokens) | 最大输出 (tokens) | 联网功能 | 每日限制/费用 | 特点 |
---|---|---|---|---|---|---|---|---|
Claude 官网 | https://claude.ai/ | 3.7 Sonnet | 非推理 | 约 32K | 约 8K | 不支持 | 免费用户有限量, 付费用户Token限制(Normal/Extended两档) | 官方平台,免费用户额度较少,付费用户也有限制。 |
lmarena | https://lmarena.ai/ | 3.7 Sonnet/32k Thinking | 非推理/推理 | 8K / 32K | 2K (最大 4K) | 不支持 | 貌似不限量 | 提供非推理和 32k 推理两种模式,可调整最大输出 tokens。 |
Genspark | https://www.genspark.ai/ | 3.7 Sonnet | 推理 | 不确定 | 不确定 | 支持 | 每日 5 次免费 | 支持联网搜索,适合需要获取最新信息的场景。 |
Poe | https://poe.com/ | 3.7 Sonnet/Thinking | 非推理/推理 | 16K / 32K (最大 64K) | 可调 | 不支持 | 每日赠送积分,3.7 Sonnet 333 积分/次,Thinking 2367 积分/次 | 通过积分系统控制使用,可灵活调整上下文窗口和输出长度。Thinking 模型支持更大上下文。 |
Cursor (试用) | https://www.cursor.com/cn | 3.7 Sonnet | 不确定 | 不确定 | 不确定 | 不支持 | 不确定 | 集成在代码编辑器中,方便开发者使用。 |
OpenRouter | https://openrouter.ai/ | 3.7 Sonnet/Thinking/Online | 非推理/推理/在线 | 200K | 可调 (最大 128K) | 支持/收费 | 按 token 计费,不同服务商价格相同,在线模型额外收费 | 支持多种模型和推理模式,可通过参数设置最大 128K 输出。Thinking 模型支持“满血推理”。在线模型支持联网,但需额外付费。 |
OAIPro | (需 API Key) | 3.7 Sonnet/Thinking | 非推理/推理 | 64K / 200K | 4K (可调) | 不支持 | 按 token 计费 | Thinking 模型自动开启推理,推理 Token 强制为 max_tokens 的 80%。 |
Cherry Studio | (需 API Key) | 3.7 Sonnet | 非推理/推理 | 200K | 可调 (最大 128K) | 支持(需Tavily Key) | 按 token 计费 + Tavily 查询次数(每月1000次免费) | 结合 Tavily API 可实现联网搜索。 |
NextChat | (需 API Key) | 3.7 Sonnet | 不确定 | 不确定 | 不确定 | 支持(WebPilot插件) | 免费 | 结合 WebPilot 插件可实现联网搜索。 |
如果想免费体验 Claude 3.7 Sonnet,可以通过以下几种方式:
- Claude 官网:
- 访问地址:(需科学上网)https://claude.ai/
- 功能:免费会员可以使用非推理版模型,不支持联网功能。
- lmarena:
- 访问地址:https://lmarena.ai/
- 功能:在 "direct chat" 选项中,可以选择非推理版或 32k 推理版模型,均不支持联网。输入限制为 8k tokens,默认输出为 2k tokens,通过调整参数,最大输出可达 4k tokens。
- lmarena 简介: 一个提供多种大型语言模型(LLM)竞技场和直接聊天功能的平台,用户可以在此比较和测试不同的模型。
- 非推理版
- 32k 推理版
- Max output tokens 参数(最多 4k)
- Max output tokens 解释: 此参数用于设置模型单次生成的最大 token 数量。
- Genspark:
- 访问地址:(需科学上网)https://www.genspark.ai/
- 功能:提供推理版模型,支持联网(勾选 "Search Web"),每天有 5 次免费对话机会。
- Genspark 简介: 一个提供人工智能服务的平台,用户可以在此使用各种大型语言模型,并支持联网搜索功能。
- 推理版,可联网,每天 5 次
- Poe:
- 访问地址:(需科学上网)https://poe.com/
- 功能:每天赠送 3000 积分。
- Poe 简介: 由 Quora 推出的一个平台,允许用户与多个大型语言模型进行交互,并创建自定义机器人。
- Claude 3.7 模型:消耗 333 积分,通过滑动条调整,最大支持 16k 上下文,不支持联网。
- Claude 3.7 Thinking 模型:消耗 2367 积分,通过滑动条调整,默认 32k 上下文,最大 64k。
- 默认 32k:
- 最大 64k:
值得注意的是 Poe 的
Global per-message budget
设置。
这个设置表示每次对话的积分消耗上限,默认为 700。如果消息超出此费用,Poe 会给出提示。此设置适用于所有聊天,也可以在聊天设置中编辑特定聊天的预算。如果预算设置过低,可能会导致 AI 对话失败,因为某些模型需要更高的积分消耗才能正常运行。
- Cursor(试用期):
- 访问地址:https://www.cursor.com/cn
- 功能:不支持联网。
- Cursor 简介: 一款集成人工智能的代码编辑器,旨在帮助开发者更高效地编写和调试代码。
API 使用
对于开发者而言,通过 API 使用 Claude 3.7 Sonnet 可以获得更大的灵活性和控制力。
- 价格:Claude 3.7 Sonnet API 的定价与 3.5 版本相同,输入为 3 美元/百万 tokens,输出为 15 美元/百万 tokens。缓存读取为 0.3 美元/百万 tokens,缓存写入为 3.75 美元/百万 tokens。推理过程也会计算输出 Token,因此实际 Token 数和总价比不开推理时要高。
- 上下文窗口:与 Claude 3.5 Sonnet 一样,Claude 3.7 Sonnet API 的总上下文窗口为 200k tokens。
- 上下文窗口解释: 指模型在处理输入时可以考虑的文本长度。
- Token 解释: 文本的基本单位,可以是单词、字符或子词。
- 最大输出:Claude 3.5 Sonnet API 的最大输出为 8k tokens,而 Claude 3.7 Sonnet 通过设置参数,最大输出可达 128k tokens。
大模型的 API 版本通常比 Chat 版本拥有更大的上下文窗口和最大输出,这是因为 API 用户按实际使用量付费,输入输出越多,服务提供商的收入也越高。而 Chat 版本通常采用包月固定价格,输出越多,服务提供商的成本越高。
混合式推理模型
现在只有 3.7 是混合式推理模型,Sam 说 GPT4.5 是最后一代非推理模型,GPT5.0 与 o 系列就合并了,估计也是混合式推理模型。
混合式就是推理与非推理,用同一个模型,API用参数,Chat版用滑块或下拉菜单等控制推理 Token 消耗/努力程度。
对应关系的话,推理表现与底模性能X推理时间成正比,底模性能不同先不比,推理时间可以对标一下,以测GPT降智常用的日文诗等题目为例,个人实测。
以下是个人估计,仅考虑思考时间对标关系,不考虑智力。仅供参考
R1 的思考Token少,因为R1是免费的,必须在控制成本的前提下,才能考虑性能。
现在 DeepSeek 一直拿 R1-low 在与 o3mini-med 等打,其实如果开放更大的推理 Token,应该会有更强表现
另外一个原因 DeepSeek 卡,明显不够用,前面 "系统繁忙" 了一个月,近期不太可能像 o3mini,Claude 这样通过大幅延长时间,增加Token数,这样力大砖飞,暴力加算力提升性能。
同理 Gemini 跟 R1 一样,也是免费策略,控制成本第一,所以 Gemini 2.0 Flash Thinking 的思考Token也就是 o3mini-low 那一档。
如何设置 128K 最大输出
Cherry Studio + OpenRouter 设置方法(非推理)
此方法适用于通过 OpenRouter 使用 Claude 3.7 Sonnet API。
- OpenRouter 简介: 一个提供多种大型语言模型 API 聚合服务的平台。
- Cherry Studio 简介: 一款支持多种大型语言模型 API 的客户端工具。
- 打开 Cherry Studio,添加或编辑助手。
- 在“模型设置”中,添加
betas
参数,参数数据类型选择 JSON:
["output-128k-2025-02-19"]
- 添加
max_tokens
参数,参数类型选择数字,数值设置为 128000:
betas
解释: 用于启用特定实验性功能的参数。max_tokens
解释: 用于设置模型单次生成的最大 token 数量。
实测表明,通过 OpenRouter 可以实现超过 64K 的输出,但有一定概率会被截断。这可能是由于网络不稳定或模型本身的限制导致的。
OpenRouter 设置方法(120K 满血推理)
此方法仅适用于 OpenRouter 的 Claude-3.7-Sonnet:Thinking 模型。
- 打开 Cherry Studio,添加或编辑助手。
- 在“模型设置”中,添加
betas
参数,参数数据类型选择 JSON:["output-128k-2025-02-19"]
- 添加
thinking
参数,参数类型选择 JSON,数值设置为:{"type": "enabled", "budget_tokens": 1200000}
thinking
解释: 用于启用推理模式并设置推理预算的参数。
- 将模型温度设置为 1。其他温度值可能会导致推理无效。
- 添加
max_tokens
参数,数值设置为 128000(最小值为 1024,需要比推理预算大几 K,留给最终输出):
Open WebUI + 官方 API 或 oaipro 设置方法(120K+ 满血推理)
- Open WebUI 简介: 一个开源的、可自托管的大型语言模型 Web 界面。
- oaipro 简介: 提供 Claude API 代理服务的平台。
通过 Open WebUI 的 pipe
功能修改 header
,可以实现任意 API 站点的 Claude 3.7 128K 输出。
pipe
解释: Open WebUI 的一项功能,允许用户修改请求头。header
解释: HTTP 请求头,包含关于请求的元数据。
推理最大可以设置为 127999,这是因为:
总上下文 200K(固定)- 最大输出 128K(可设)= 输入最大剩余 72K
最大输出 128K(可设)- 思维链 120K(可设)= 最终输出剩余 8K
如何验证推理模式是否开启
可以尝试提出一些较为复杂的问题。如果开启了推理模式,Cherry Studio 会在没有任何输出的情况下思考几十秒到几分钟。目前,Cherry Studio 尚未适配推理过程的显示。
例如,可以尝试以下题目(不开推理通常无法得出正确答案,开启推理则需要几分钟时间,且多数情况下能做对):
正确答案:
大输出的优缺点
优点:
- 可以替代部分智能体的工作。例如,以前翻译书籍可能需要智能体拆分章节,现在可以直接处理整本书。
- 可能节省成本。如果不拆分章节,直接全文输入,每次输出 8K,重复 16 次也能达到 128K 输出。虽然输出成本相同,但原文只需输入一次,节省了 15 次输入成本。
- 通过合理的输入策略,可以大幅降低成本,提高效率,甚至提升处理速度。
- 约 10 万字+,可整书翻译,写书写网文,前后一致性好,不会写了到后面忘了前面,理论上可以一次性输出 3. 5的16倍的代码量,从而极大提高处理能力和效率。
缺点:
- 所有大模型的性能都会随着上下文增加而衰减,具体衰减幅度有待评估。
- 128K 单次输出成本较高,因此在进行大输出之前,务必仔细测试提示词,避免出错导致浪费。
API 联网
Claude 官方 API 本身不支持联网,但可以通过以下方法实现:
- CherryStudio + Tavily API Key:每月免费 1000 次联网。
- Tavily 简介: 一个提供搜索 API 服务的平台。
方法:更新到 CherryStudio 最新 1.0 版,在 tavily.com 注册并申请免费的 API key:
将 API key 填入 Cheery 的设置中,并在提问框中点亮联网按钮:
- NextChat + WebPilot 插件:免费联网。
- NextChat 简介: 一个支持多种大型语言模型和插件的聊天平台。
- WebPilot 简介: 一个提供网页内容提取和总结功能的插件。
- OpenRouter Chatroom:自带联网按钮。方法:登录 Chatroom | OpenRouter,选择 3.7 Sonnet 模型,点亮提问框中的联网按钮:
- OpenRouter 自带联网功能:任意前端 + OpenRouter API Key。方法:添加模型时,手动填写模型名称
anthropic/claude-3.7-sonnet:online
,每千次查询 4 美元。
其他 API 相关信息
- 官方 API:
- 入口:https://www.anthropic.com/api
- 最低充值 5 美元。
- 不支持通过 Cherry 参数设置
betas
开启 128K 输出。 - Tier 1 输入限制为 20k tpm,输出限制为 8k tpm。
- 入口:https://www.anthropic.com/api
- OpenRouter API:
- 入口:https://openrouter.ai/anthropic/claude-3.7-sonnet
- 提供 Claude-3.7-Sonnet、Claude-3.7-Sonnet Thinking、Claude-3.7-Sonnet Beta 三种模型。
- 支持 Claude-3.7-Sonnet Online 或 Claude-3.7-Sonnet Thinking Online,可联网,额外收费 4 美元/千次查询。
- 有 Anthropic、Amazon、Google 三个服务商,价格相同。
- Google 服务商的最大输出只有 64K,Anthropic 和 Amazon 可以通过参数设置 128K。
- 入口:https://openrouter.ai/anthropic/claude-3.7-sonnet
- OAIPro API:
- oaipro 简介: 提供 Claude API 代理服务的平台。
- 默认输入 64K,思维链 + 最终输出 4K。
- 不支持通过 Cherry 参数设置
betas
开启 128K 输出。如果未添加max_tokens
参数,默认输出 4K。 - Claude-3-7-Sonnet-20250219-Thinking 模型:直接开启推理,无需额外参数,推理 Token 强制为
max_tokens
的 80%,似乎不能指定thinking
参数。 - Claude-3-7-Sonnet-20250219 模型:可以手动指定
thinking
参数。
- 低价中转站:
- aicnn:普通输出约 72 元/百万 tokens。
- aicnn 简介: 提供人工智能服务的平台,包括 API 中转。
- 注意:部分低价中转站可能只支持 64K 输出,不支持 128K。
- aicnn:普通输出约 72 元/百万 tokens。
Chat 版本
免费会员
可以使用 Claude 3.7 Sonnet,但有一定的使用限制。根据 Anthropic 以往的做法,免费用户的额度可能不会太多。
此外,免费会员现在无法使用 Claude 3.5 Haiku 模型。
- 上下文窗口:实测约为 32K。
- 最大输出:实测约为 8K。
- 无推理
付费会员
付费 Chat 版本的上下文窗口和最大输出尚不确定是否与免费版本相同。
付费版提供 Normal 和 Extended 两档推理模式。但需要注意的是,付费账号也存在被封禁的风险。建议在确保拥有纯净 IP 地址之前,谨慎充值会员。相对而言,API 使用更为稳妥。
Claude 会员的使用限制并非像 GPT 或 Grok 那样按照次数计算,而是限制总 Token 数。因此,使用推理模式,尤其是 Extended 模式,会显著减少每日可提问的次数。有用户透露,Anthropic 可能会推出一种付费重置使用限量的功能,允许用户一次性付费跳过冷却期。
功能
- 上传文件:支持最多 20 个文件,每个文件最大 30MB。
- 多模态:支持图片识别,不支持语音和视频识别。
- GitHub:新增功能,可以连接到用户的 GitHub 仓库,作为上传文件的一种方式。
- Claude Code:官方推出的一款面向开发者的命令行工具,目前以有限研究预览的形式发布。该工具支持代码搜索、阅读、编辑、测试运行、GitHub 提交以及命令行操作等多项功能,旨在缩短开发时间,提升测试驱动开发和复杂问题调试的效率。
- 联网、深度搜索、深度研究、语音模型、文生图:与 Claude 3.5 版本相同,均不支持。
模型评测
代码能力
代码能力一直是 Claude 模型的强项,也是其核心用户群体——程序员的主要关注点。如果代码能力下降,Claude 可能会面临严峻的挑战。
- Lmarena:webdev 评分领先。参考:https://lmarena.ai/?leaderboard
- Livebench:Claude 3.7 非推理版相比 3.5 版本提升较小,推理版提升较大,但成本也相应增加(单价相同,输出 Token 增加)。参考:https://livebench.ai/
- Livebench 简介: 一个持续评估大型语言模型性能的平台。
- Aider:Claude 3.7 推理模式的成本约为 3.5 版本的 2.5 倍。
- Aider 简介: 一款 AI 编程助手,可以帮助开发者进行代码生成和调试。
参考:https://aider.chat/docs/leaderboards/
- CodeParrot AI: Claude 3.7 在 HumanEval 编码基准测试中表现出色,得分为92.1,相较于Claude 3.5 (89.4) 有所提升。
- CodeParrot AI 简介: 一个提供一系列编码工具来简化开发流程的平台。
智能体工具使用
Anthropic 官方宣称 Claude 3.7 在智能体工具使用方面表现出色。
数学能力
Claude 3.7 普通版在数学方面的能力一般,推理版表现较好。
推理能力
市场表现
谷歌搜索热度:
Google Play:Claude App 在美国总榜排名第 107 位。
App Store:未能进入前 200 名。
总结与展望
Claude 3.7 Sonnet 的发布,标志着 Anthropic 在大模型领域的又一次迭代。尽管版本号变化不大,但其在代码生成、推理能力以及大上下文输出方面都有所改进。不过,在免费用户的使用限制、缺乏联网功能以及市场表现等方面,Claude 仍面临挑战。
根据 Anthropic 以往的更新速度,Claude 4.0 的发布可能还需要一段时间。Claude 的综合发展速度,尤其是在 C 端(消费者端)的表现,明显落后于其他竞争对手。其估值已经被 xAI 超越。
按照目前的趋势,Claude 可能会被 GPT、DeepSeek 和 Gemini 挤出全球大模型的第一梯队。未来,Claude 可能会与 Grok、豆包等模型竞争第二梯队的位置,或者选择彻底放弃 C 端市场,专注于编程、智能体、写作等垂直领域。