Qwen3.7-Max - 阿里千问推出的新一代闭源旗舰大模型

30.6K 00

Qwen3.7-Max是什么

Qwen3.7-Max是阿里云千问发布的面向智能体（Agent）时代的新一代闭源旗舰大模型，定位为"全能智能体基座"。模型在编程智能体、通用智能体、高难度推理、长周期自主执行等维度实现全面突破，支持跨框架泛化，在Arena全球大模型盲测总榜中位列国产模型第一，逼近Claude Opus 4.6 Max等国际顶尖水平。API即将通过阿里云百炼平台上线。

Qwen3.7-Max的功能特色

编程智能体能力领先：在SWE-Pro（60.6）、SWE-Multilingual（78.3）、SciCode（53.5）、Terminal-Bench 2.0（69.7）等编程基准上取得领先或与最强竞品持平，覆盖从前端原型到复杂多文件工程的全链路开发任务。
通用智能体与办公自动化：在MCP-Mark（60.8）、MCP-Atlas（76.4）、Skillbench（59.2）、BFCL-V4（75.0）等通用智能体基准表现突出；SpreadSheetBench-v1办公自动化基准得分87.0，处于顶尖水平。
高难度推理突破：GPQA Diamond 92.4（超越Opus-4.6的91.3）、HLE 41.4、HMMT 2026 Feb 97.1、IMOAnswerBench 90.0、Apex 44.5，在数学与科学推理基准上多项登顶。
35小时长周期自主执行：在从未见过的平头哥真武M890 PPU硬件上，全自主完成35小时、1,158次工具调用、432次内核评估的Extend Attention Kernel优化任务，最终达成10.0倍几何平均加速，30小时后仍在发现有效改进。
跨框架泛化能力：不针对特定框架优化，在Claude Code、OpenClaw、Qwen Code及各类自定义框架下均能稳定发挥，基于任务-框架-验证器解耦的组合式扩展训练实现真正泛化。
多语言与长上下文：WMT24++（85.8）、MAXIFE（89.2）、PolyMATH（86.5）等多语言基准领先；MRCR-v2 128K长上下文得分90.4。
preserve_thinking功能：支持在多轮对话消息中保留所有前序轮次的思维内容，专为智能体长链路任务设计，保持推理连贯性。
GPU内核优化：Kernel Bench L3达到1.98倍中位数加速/96%加速率，能为多种NVIDIA GPU及陌生架构生成生产级加速内核。

Qwen3.7-Max的核心优势

智能体基座定位全面：不仅是对话模型，更是能驱动Claude Code、OpenClaw等框架的全能智能体底层引擎，覆盖编程、办公、推理、具身智能等多场景。
长周期稳定性业界顶尖：35小时千次调用不断线、不"失忆"、不退化，具备持续自我反思与策略调整能力，远超GLM 5.1（7.3x）、Kimi K2.6（5.0x）、DeepSeek V4 Pro（3.3x）的同任务表现。
国产第一梯队，全球前三：在Arena全球盲测总榜超过Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1，与GPT、Claude、Gemini最强模型同属第一梯队。
环境扩展方法论可预测：在Qwen3.5基础上扩展训练环境质量与多样性，性能增益高度可预测，驱动的是真正的能力泛化而非基准过拟合。
实战验证而非刷分：通过RL训练奖励作弊监控（80小时、万次调用、新增13条规则、识别1,618个作弊案例）和YC-Bench模拟经营（营收2.08M美元，为Qwen3.6-Plus的2倍）等真实任务验证能力。

Qwen3.7-Max的操作步骤

在线体验：访问 https://chat.qwen.ai 使用Qwen Studio直接对话体验。
API调用：访问 https://bailian.console.aliyun.com 注册阿里云百炼获取API Key，模型ID为qwen3.7-max，通过OpenAI兼容协议调用。
Claude Code集成：设置环境变量ANTHROPIC_MODEL=qwen3.7-max，配置百炼Anthropic兼容端点即可直接使用。
OpenClaw集成：在OpenClaw配置文件中添加百炼provider，设置qwen3.7-max为默认模型。
Qwen Code集成：安装@qwen-code/qwen-code@latest，运行qwen命令使用针对Qwen系列深度优化的编程助手。

Qwen3.7-Max的适用人群

软件工程师与开发者：需要处理从前端原型到复杂多文件仓库级工程、代码重构、自动化调试的编程智能体用户。
算法与系统工程师：需要进行GPU内核优化、性能分析、底层系统编程的高技术深度任务用户。
科研人员与数据分析师：需要高难度数学推理、科学计算、复杂数据建模、论文格式修复与出版级文档生成的学术与办公场景用户。
企业自动化与生产力用户：需要通过MCP集成和多智能体协作实现文档处理、报表生成、工作流自动化的办公自动化需求者。
具身智能与机器人开发者：需要通过工具调用操控物理设备（如机器狗），在真实环境中执行理解、规划、记忆与决策的具身智能体开发者。
长周期任务执行者：需要执行持续数十小时、数百至数千步工具调用的长程自主任务（如RL训练监控、商业模拟决策）的高级用户。

Qwen3.7-Max的常见问题

Q：Qwen3.7-Max和Qwen3.6-Plus相比提升了多少？

A：提升全面且幅度显著。Terminal-Bench 69.7 vs 61.6、MCP-Mark 60.8 vs 48.2、Apex 44.5 vs 8.8、GPQA Diamond 92.4 vs 90.4、MRCR-v2 128K 90.4 vs 85.9。YC-Bench模拟经营营收2.08M美元，是Qwen3.6-Plus（1.05M）的2倍。

Q：和Claude Opus 4.6 Max相比怎么样？

A：在GPQA Diamond（92.4 vs 91.3）、HLE（41.4 vs 40.0）、HMMT（97.1 vs 96.2）、MCP-Atlas（76.4 vs 75.8）等多项领先。SWE-Verified（80.4 vs 80.8）和Kernel Bench（96% vs 98%）非常接近。整体定位为综合排名前三的旗舰模型。

Q：35小时内核优化实验是什么？

A：在从未见过的平头哥真武M890 PPU硬件上，模型全自主完成35小时、1,158次工具调用的内核优化，最终达10.0倍加速。对比：GLM 5.1达7.3倍、Kimi K2.6达5.0倍、DeepSeek V4 Pro达3.3倍。

Q：可以用在Claude Code里吗？

A：可以。Qwen API支持Anthropic协议，设置ANTHROPIC_MODEL=qwen3.7-max并配置百炼端点即可直接使用。

Q：什么是preserve_thinking？

A：Qwen3.7-Max支持的功能，在多轮对话中保留所有前序轮次的思维内容，专为智能体任务设计，保持长链路推理连贯性，推荐在智能体场景开启。