Qwen-VLA - 阿里通义实验室发布的统一视觉-语言-动作具身基础模型
Qwen-VLA是什么
Qwen-VLA 是阿里通义实验室发布的统一视觉-语言-动作(VLA)具身基础模型。以 Qwen3.5-4B 为视觉语言主干,搭配 1.15B 参数的 DiT(Diffusion Transformer)动作解码器,通过统一动作轨迹预测框架、本体感知提示条件化、文本到动作 DiT 预训练(T2A)三大技术创新,将机械臂操作、视觉语言导航、轨迹预测等异构任务统一到单一框架中。

Qwen-VLA的功能特色
- 统一动作轨迹预测框架:将机械臂操作、视觉语言导航、轨迹预测等异构任务统一为"观察场景 + 理解指令 → 预测未来动作序列"的同构问题,不同任务数据可在同一训练流程中共同监督。
- 本体感知提示条件化:通过一段结构化自然语言文本描述机器人型号、臂配置、控制频率等硬件信息,作为唯一平台接口,实现同一套模型权重适配 11 种机器人平台。
- 文本到动作 DiT 预训练(T2A):冻结 VLM 主干,仅使用文本训练 DiT 动作解码器,计算成本约为多模态训练的 1/10,先建立语言索引的动作先验再融入视觉观测。
- 四阶段渐进训练策略:T2A → 持续预训练(CPT)→ 监督微调(SFT)→ 强化学习(RL),逐步构建视觉-语言-动作协同能力,最终产出 Qwen-VLA-Instruct。
- 零样本动态操作:无需任何动态训练数据,即可对运动中的物体进行实时追踪与操作,在 DOMINO 基准零样本成功率达 26.6%。
- 跨本体泛化部署:支持 WidowX、Franka Panda、Mobile ALOHA、傅利叶 GR-1、AgiBot A2-D、Galaxea R1 等 11 种机器人平台,切换平台仅需修改提示词。
- 真实世界 OOD 泛化:在 ALOHA 双臂真机上,域内成功率 83.6%,分布外(颜色、实例、位置、背景、指令)平均成功率达 76.9%。
- 任务自适应 Token 分配:为长时程导航指令分配更大的视觉 Токен 预算,保留比固定均匀采样或滑动窗口更丰富的 episode 历史。
- Flow-Matching 动作解码:基于 1.15B 参数 DiT 生成连贯的动作块,减少执行犹豫与迟疑,在窄时间窗口内精准完成动作。
Qwen-VLA的核心优势
- 通用模型超越专用模型:单一 Qwen-VLA 在 5 个仿真基准中的 3 个(LIBERO、Simpler-WidowX、RoboTwin)超越了针对每个基准独立微调的最佳专用模型。
- 强大的真实世界 OOD 泛化:在 ALOHA 双臂真机上,域内平均成功率 83.6%,分布外(OOD)五个维度(颜色、实例、位置、背景、指令)平均成功率达 76.9%,超越 π₀.₅(+35.4%)和无预训练变体(+40.7%)。
- 零样本动态操作领先:在 DOMINO 动态操作基准上,零样本成功率 26.6%,不仅大幅超越零样本的 π₀.₅(7.5%)和 OpenVLA-OFT(6.7%),甚至超越了专门在 DOMINO 上微调的 PUMA(17.2%)。
- 导航性能超越专家模型:在视觉语言导航连续环境(VLN-CE)中,R2R Val-Unseen 成功率 57.5%、RxR 59.6%,均超越专用导航模型 StreamVLN。
- 轻量跨平台部署:无需为每种机器人定制模型分支或输出头,仅通过替换文本提示即可切换控制约定,实现"一个大脑"驱动多种硬件。
Qwen-VLA官网是什么
- Веб-сайт проекта:https://qwen.ai/blog?id=qwenvla
- Репозиторий GitHub:https://github.com/QwenLM/Qwen-VLA
- Технический документ arXiv:https://arxiv.org/pdf/2605.30280
Qwen-VLA的操作步骤
- 准备机器人本体提示:编写结构化文本描述当前机器人型号(如 WidowX/ALOHA)、臂配置(单臂/双臂)、是否有腰部/移动底座、控制频率(FPS)、预测时域(chunk_size)等硬件参数,作为模型输入的前缀。
- 接入多模态输入:将视觉观测(摄像头实时图像流)与自然语言任务指令(如"把红色积木放到蓝色盒子里")一并输入模型。
- VLM 感知与推理:Qwen3.5-4B 视觉语言主干网络对图像和文本进行联合编码,完成场景理解、物体定位与指令解析,输出高层语义隐藏状态。
- DiT 动作解码:VLM 输出的隐藏状态与噪声动作块拼接,送入 1.15B 参数的 DiT 解码器,通过 flow matching 逐步去噪生成连贯的未来动作序列。
- 执行与闭环控制:将预测的动作序列(如关节角度、末端执行器位姿等)发送至机器人底层控制器执行;RL 优化后的 Qwen-VLA-Instruct 支持根据环境反馈持续调整策略。
- 跨平台切换部署:更换机器人硬件时,仅需修改输入提示中的本体描述文本,无需重新训练模型或调整架构,即可实现同一模型在不同平台间的即插即用。
Qwen-VLA的适用人群
- 具身智能与机器人学习研究人员:从事 VLA(视觉-语言-动作)模型、机器人策略学习及跨本体泛化研究的学术人员。
- 机器人算法与控制系统工程师:负责机械臂操作、移动导航、轨迹规划等算法开发,需要统一框架替代碎片化专用模型的工程团队。
- 仿真到真实(Sim-to-Real)迁移开发者:需要将仿真环境中训练的策略快速部署到真实机器人硬件,且追求零样本或低样本迁移效率的开发者。
- 多模态大模型与 Physical AI 研究者:关注大模型从纯数字智能向物理世界延伸,探索视觉-语言-动作统一建模的前沿研究者。
- 智能制造与仓储物流自动化工程师:在工厂自动化、智能仓储、物流分拣等场景中,需要操作、导航、移动操作复合能力的落地应用工程师。
- 人形机器人与双臂机器人研发团队:开发双足/轮式人形机器人、双臂协作机器人,需要跨平台通用控制大脑的产品团队。
Qwen-VLA的常见问题
Q:Qwen-VLA 支持哪些机器人平台?
A:支持 WidowX、Google Robot、Franka Panda(单臂/双臂)、ARX5、Fourier GR-1、Mobile ALOHA、AgiBot A2-D、Galaxea R1、AIRBOT MMK2、Tien Kung、Real Human 等 11 种平台,覆盖单臂、双臂、人形等多种形态。
Q:什么是"本体感知提示条件化"?
A:将机器人型号、臂配置(单臂/双臂)、是否有腰部/移动底座、控制频率(FPS)、预测时域(chunk_size)等硬件差异编码为一段自然语言文本提示,作为唯一的平台特定接口。骨干网络理解该提示后,即可输出适配该机器人的动作,无需修改模型架构。
Q:T2A 预训练为什么先冻结 VLM?
A:VLM 已充分预训练,而 DiT 从随机初始化开始。若直接联合训练,会浪费计算资源在视觉无关的解码器学习上,并干扰 VLM 预训练成果。先冻结 VLM 纯文本训练 DiT,计算成本约为多模态训练的 1/10,且实验表明带图像反而使 T2A 性能下降 2.8 个百分点。
Q:Qwen-VLA 与专用模型相比表现如何?
A:在 LIBERO(97.9%)、Simpler-WidowX(73.7%)、RoboTwin-Easy/Hard(86.1%/87.2%)等 5 个仿真基准中的 3 个,单一通用模型超越了针对各基准独立微调的最佳专用模型。
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...




