Qwen3.7-Plus - 阿里通义千问推出的多模态智能体基座模型

Последние ресурсы по искусственному интеллектуОпубликовано 1 месяц назад Круг обмена ИИ

26.8K 00

Qwen3.7-Plus是什么

Qwen3.7-Plus 是阿里巴巴通义千问团队推出的多模态智能体基座模型，在 Qwen3.7 强大文本能力基础上全面升级视觉-语言理解能力，同时完整保留编码、工具调用与生产力工作流等智能体特性。支持统一处理图像、视频、屏幕、网页与文本输入，可在 GUI/CLI/工具环境中自主完成复杂任务，实现"看、想、写、做、验"的端到端闭环。

Qwen3.7-Plus的功能特色

多模态交互混合智能体：统一处理图像、视频、屏幕、网页和文本输入，在 GUI / CLI / 工具环境中无缝完成任务闭环。
视觉智能体：结合视觉理解、代码解释器与搜索增强，解决视觉谜题、真实世界问答和复杂推理任务。
视觉编程：将图像或视频直接转化为 SVG、网页与交互式前端代码，实现视觉参考到可执行代码的端到端生成。
GUI 智能体：理解移动端与桌面端界面，进行控件定位、任务规划与多步自动化操作。
真实世界感知与推理：覆盖真实场景、文档图表、OCR、视频解析与驾驶场景理解。
全能编码与生产力助手：保留完整的代码生成、工具调用与多步工作流自动化能力，支撑从原型到复杂软件工程的全方位任务。
跨框架泛化部署: через Клод Code、OpenClaw、Qwen Code 还是其他智能体框架部署，均能保持稳定且强劲的表现。

Qwen3.7-Plus的核心优势

多模态智能体闭环能力：在单一智能体循环内融合 GUI 与 CLI 交互，实现从需求分析到交付验证的端到端自动完成。
跨框架泛化能力：通过 Claude Code、OpenClaw、Qwen Code 还是其他框架部署，均能保持稳定且强劲的表现。
顶尖纯文本与编码实力：Terminal Bench 2.0、SWE-bench 系列与 SciCode 等编码 Agent 基准表现接近 Max 级别模型。
系统性多模态增强：在 BabyVision、ScreenSpot Pro、AndroidWorld、OmniDocBench 等视觉理解与操作基准上较 Qwen3.6-Plus 显著提升。
长时自主运行能力：官方案例显示 Agent 可持续稳定运行 11+ 小时，累计生成超 10,000 行代码并触发 1,000+ 次调用。
全球第一梯队排名：在全球权威视觉模型榜单 Vision Arena 中跻身全球前五、中国第一。

Qwen3.7-Plus官网是什么

Веб-сайт проекта：https://qwen.ai/blog?id=qwen3.7-plus

Qwen3.7-Plus的操作步骤

方式一（API 调用）：访问阿里云百炼平台，在模型广场选择 qwen3.7-plus，获取 API Key 并按标准 HTTP/SDK 方式接入。
方式二（在线体验）：访问 Qwen Studio（chat.qwen.ai），在模型选择器中切换至 qwen3.7-plus 即可直接对话体验。
方式三（智能体框架接入）：通过 Claude Code、OpenClaw、Qwen Code 等主流智能体框架配置模型端点为 Qwen3.7-Plus，保持跨框架稳定表现。
Мультимодальные входы：在对话中直接上传图片、视频或屏幕截图，模型将自动进行视觉理解、推理与代码/工具调用。

Qwen3.7-Plus的适用人群

AI Agent 开发者与架构师：需要构建具备视觉感知、工具调用与多步规划能力的多模态智能体系统的技术人员。
前端工程师与 UI/UX 设计师：希望将设计稿、截图或视频直接转化为可执行代码（SVG、网页、交互式前端）的开发与设计人员。
软件工程师与全栈开发者：需要端到端自动化完成需求分析、代码编写、测试验证与版本迭代的编程智能体用户。
企业办公自动化从业者：需要自动化处理文档、票据、表格、报告 OCR 解析与多模态数据提取的商务与行政人员。
自动驾驶与机器人视觉研究人员：从事动态场景理解、交通参与者感知、空间关系推理与具身智能相关科研的学者与工程师。
内容创作者与产品经理：希望基于图像或视频快速生成可编辑代码资产、原型页面或交互演示的创意工作者。

Qwen3.7-Plus的常见问题

Q：Qwen3.7-Plus 与 Qwen3.7-Max 有什么区别？

A：Qwen3.7-Plus 是主打多模态交互混合智能体的视觉-语言统一模型，在编码、工具使用与生产力工作流方面保持完整智能体能力；Qwen3.7-Max 则是同系列旗舰文本模型，定位智能体时代的顶级基座，两者在能力侧重与部署场景上形成互补。

Q：该模型是否支持视频输入？

A：支持。Qwen3.7-Plus 可统一处理图像、视频、屏幕、网页和文本输入，在 VideoMMMU、MLVU、TVBench 等视频理解基准上表现优异，可处理短视频与长视频中的事件、动作、时序与语义关系。

Q：视觉编程能力具体能做什么？

A：模型可将图像或视频中的几何结构、颜色、布局、层级关系与动态变化转化为精确的可执行代码，覆盖 SVG 复现、完整网页生成、交互式前端开发等场景，显著降低从视觉参考到可编辑代码资产的转化成本。

Q：是否支持手机或电脑屏幕的自动化操作？

A：支持。Qwen3.7-Plus 具备 GUI Agent 能力，可理解移动端与桌面端界面，进行控件定位、任务规划与多步操作，在 ScreenSpot Pro、OSWorld-Verified 与 AndroidWorld 等屏幕操作基准上表现突出。

Q：如何评估其真实软件工程能力？

A：在 SWE-bench、SWE-bench Pro、SWE-bench Multilingual 等真实软件工程基准上，Qwen3.7-Plus 表现强劲；官方案例也验证了其实际能力：Agent 持续运行 11+ 小时，自动生成超 10,000 行代码并完成一款英语单词学习 APP 的完整研发闭环。

Последние ресурсы по искусственному интеллекту

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.