Qwen3.7-Plus - 阿里通义千问推出的多模态智能体基座模型

堆友AI

Qwen3.7-Plus是什么

Qwen3.7-Plus 是阿里巴巴通义千问团队推出的多模态智能体基座模型,在 Qwen3.7 强大文本能力基础上全面升级视觉-语言理解能力,同时完整保留编码、工具调用与生产力工作流等智能体特性。支持统一处理图像、视频、屏幕、网页与文本输入,可在 GUI/CLI/工具环境中自主完成复杂任务,实现"看、想、写、做、验"的端到端闭环。

Qwen3.7-Plus - 阿里通义千问推出的多模态智能体基座模型

Qwen3.7-Plus的功能特色

  • 多模态交互混合智能体:统一处理图像、视频、屏幕、网页和文本输入,在 GUI / CLI / 工具环境中无缝完成任务闭环。
  • 视觉智能体:结合视觉理解、代码解释器与搜索增强,解决视觉谜题、真实世界问答和复杂推理任务。
  • 视觉编程:将图像或视频直接转化为 SVG、网页与交互式前端代码,实现视觉参考到可执行代码的端到端生成。
  • GUI 智能体:理解移动端与桌面端界面,进行控件定位、任务规划与多步自动化操作。
  • 真实世界感知与推理:覆盖真实场景、文档图表、OCR、视频解析与驾驶场景理解。
  • 全能编码与生产力助手:保留完整的代码生成、工具调用与多步工作流自动化能力,支撑从原型到复杂软件工程的全方位任务。
  • 跨框架泛化部署: через Клод Code、OpenClaw、Qwen Code 还是其他智能体框架部署,均能保持稳定且强劲的表现。

Qwen3.7-Plus的核心优势

  • 多模态智能体闭环能力:在单一智能体循环内融合 GUI 与 CLI 交互,实现从需求分析到交付验证的端到端自动完成。
  • 跨框架泛化能力:通过 Claude Code、OpenClaw、Qwen Code 还是其他框架部署,均能保持稳定且强劲的表现。
  • 顶尖纯文本与编码实力:Terminal Bench 2.0、SWE-bench 系列与 SciCode 等编码 Agent 基准表现接近 Max 级别模型。
  • 系统性多模态增强:在 BabyVision、ScreenSpot Pro、AndroidWorld、OmniDocBench 等视觉理解与操作基准上较 Qwen3.6-Plus 显著提升。
  • 长时自主运行能力:官方案例显示 Agent 可持续稳定运行 11+ 小时,累计生成超 10,000 行代码并触发 1,000+ 次调用。
  • 全球第一梯队排名:在全球权威视觉模型榜单 Vision Arena 中跻身全球前五、中国第一。

Qwen3.7-Plus官网是什么

  • Веб-сайт проекта:https://qwen.ai/blog?id=qwen3.7-plus

Qwen3.7-Plus的操作步骤

  • 方式一(API 调用):访问阿里云百炼平台,在模型广场选择 qwen3.7-plus,获取 API Key 并按标准 HTTP/SDK 方式接入。
  • 方式二(在线体验):访问 Qwen Studio(chat.qwen.ai),在模型选择器中切换至 qwen3.7-plus 即可直接对话体验。
  • 方式三(智能体框架接入):通过 Claude Code、OpenClaw、Qwen Code 等主流智能体框架配置模型端点为 Qwen3.7-Plus,保持跨框架稳定表现。
  • Мультимодальные входы:在对话中直接上传图片、视频或屏幕截图,模型将自动进行视觉理解、推理与代码/工具调用。

Qwen3.7-Plus的适用人群

  • AI Agent 开发者与架构师:需要构建具备视觉感知、工具调用与多步规划能力的多模态智能体系统的技术人员。
  • 前端工程师与 UI/UX 设计师:希望将设计稿、截图或视频直接转化为可执行代码(SVG、网页、交互式前端)的开发与设计人员。
  • 软件工程师与全栈开发者:需要端到端自动化完成需求分析、代码编写、测试验证与版本迭代的编程智能体用户。
  • 企业办公自动化从业者:需要自动化处理文档、票据、表格、报告 OCR 解析与多模态数据提取的商务与行政人员。
  • 自动驾驶与机器人视觉研究人员:从事动态场景理解、交通参与者感知、空间关系推理与具身智能相关科研的学者与工程师。
  • 内容创作者与产品经理:希望基于图像或视频快速生成可编辑代码资产、原型页面或交互演示的创意工作者。

Qwen3.7-Plus的常见问题

Q:Qwen3.7-Plus 与 Qwen3.7-Max 有什么区别?

A:Qwen3.7-Plus 是主打多模态交互混合智能体的视觉-语言统一模型,在编码、工具使用与生产力工作流方面保持完整智能体能力;Qwen3.7-Max 则是同系列旗舰文本模型,定位智能体时代的顶级基座,两者在能力侧重与部署场景上形成互补。


Q:该模型是否支持视频输入?

A:支持。Qwen3.7-Plus 可统一处理图像、视频、屏幕、网页和文本输入,在 VideoMMMU、MLVU、TVBench 等视频理解基准上表现优异,可处理短视频与长视频中的事件、动作、时序与语义关系。


Q:视觉编程能力具体能做什么?

A:模型可将图像或视频中的几何结构、颜色、布局、层级关系与动态变化转化为精确的可执行代码,覆盖 SVG 复现、完整网页生成、交互式前端开发等场景,显著降低从视觉参考到可编辑代码资产的转化成本。


Q:是否支持手机或电脑屏幕的自动化操作?

A:支持。Qwen3.7-Plus 具备 GUI Agent 能力,可理解移动端与桌面端界面,进行控件定位、任务规划与多步操作,在 ScreenSpot Pro、OSWorld-Verified 与 AndroidWorld 等屏幕操作基准上表现突出。


Q:如何评估其真实软件工程能力?
A:在 SWE-bench、SWE-bench Pro、SWE-bench Multilingual 等真实软件工程基准上,Qwen3.7-Plus 表现强劲;官方案例也验证了其实际能力:Agent 持续运行 11+ 小时,自动生成超 10,000 行代码并完成一款英语单词学习 APP 的完整研发闭环。
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...