Qwen-VLA - 阿里通义实验室发布的统一视觉-语言-动作具身基础模型

Последние ресурсы по искусственному интеллектуОпубликовано 2 месяца назад Круг обмена ИИ

34.1K 00

Qwen-VLA是什么

Qwen-VLA 是阿里通义实验室发布的统一视觉-语言-动作（VLA）具身基础模型。以 Qwen3.5-4B 为视觉语言主干，搭配 1.15B 参数的 DiT（Diffusion Transformer）动作解码器，通过统一动作轨迹预测框架、本体感知提示条件化、文本到动作 DiT 预训练（T2A）三大技术创新，将机械臂操作、视觉语言导航、轨迹预测等异构任务统一到单一框架中。

Qwen-VLA的功能特色

统一动作轨迹预测框架：将机械臂操作、视觉语言导航、轨迹预测等异构任务统一为"观察场景 + 理解指令 → 预测未来动作序列"的同构问题，不同任务数据可在同一训练流程中共同监督。
本体感知提示条件化：通过一段结构化自然语言文本描述机器人型号、臂配置、控制频率等硬件信息，作为唯一平台接口，实现同一套模型权重适配 11 种机器人平台。
文本到动作 DiT 预训练（T2A）：冻结 VLM 主干，仅使用文本训练 DiT 动作解码器，计算成本约为多模态训练的 1/10，先建立语言索引的动作先验再融入视觉观测。
四阶段渐进训练策略：T2A → 持续预训练（CPT）→ 监督微调（SFT）→ 强化学习（RL），逐步构建视觉-语言-动作协同能力，最终产出 Qwen-VLA-Instruct。
零样本动态操作：无需任何动态训练数据，即可对运动中的物体进行实时追踪与操作，在 DOMINO 基准零样本成功率达 26.6%。
跨本体泛化部署：支持 WidowX、Franka Panda、Mobile ALOHA、傅利叶 GR-1、AgiBot A2-D、Galaxea R1 等 11 种机器人平台，切换平台仅需修改提示词。
真实世界 OOD 泛化：在 ALOHA 双臂真机上，域内成功率 83.6%，分布外（颜色、实例、位置、背景、指令）平均成功率达 76.9%。
任务自适应 Token 分配：为长时程导航指令分配更大的视觉 Токен 预算，保留比固定均匀采样或滑动窗口更丰富的 episode 历史。
Flow-Matching 动作解码：基于 1.15B 参数 DiT 生成连贯的动作块，减少执行犹豫与迟疑，在窄时间窗口内精准完成动作。

Qwen-VLA的核心优势

通用模型超越专用模型：单一 Qwen-VLA 在 5 个仿真基准中的 3 个（LIBERO、Simpler-WidowX、RoboTwin）超越了针对每个基准独立微调的最佳专用模型。
强大的真实世界 OOD 泛化：在 ALOHA 双臂真机上，域内平均成功率 83.6%，分布外（OOD）五个维度（颜色、实例、位置、背景、指令）平均成功率达 76.9%，超越 π₀.₅（+35.4%）和无预训练变体（+40.7%）。
零样本动态操作领先：在 DOMINO 动态操作基准上，零样本成功率 26.6%，不仅大幅超越零样本的 π₀.₅（7.5%）和 OpenVLA-OFT（6.7%），甚至超越了专门在 DOMINO 上微调的 PUMA（17.2%）。
导航性能超越专家模型：在视觉语言导航连续环境（VLN-CE）中，R2R Val-Unseen 成功率 57.5%、RxR 59.6%，均超越专用导航模型 StreamVLN。
轻量跨平台部署：无需为每种机器人定制模型分支或输出头，仅通过替换文本提示即可切换控制约定，实现"一个大脑"驱动多种硬件。

Qwen-VLA官网是什么

Веб-сайт проекта：https://qwen.ai/blog?id=qwenvla
Репозиторий GitHub：https://github.com/QwenLM/Qwen-VLA
Технический документ arXiv：https://arxiv.org/pdf/2605.30280

Qwen-VLA的操作步骤

准备机器人本体提示：编写结构化文本描述当前机器人型号（如 WidowX/ALOHA）、臂配置（单臂/双臂）、是否有腰部/移动底座、控制频率（FPS）、预测时域（chunk_size）等硬件参数，作为模型输入的前缀。
接入多模态输入：将视觉观测（摄像头实时图像流）与自然语言任务指令（如"把红色积木放到蓝色盒子里"）一并输入模型。
VLM 感知与推理：Qwen3.5-4B 视觉语言主干网络对图像和文本进行联合编码，完成场景理解、物体定位与指令解析，输出高层语义隐藏状态。
DiT 动作解码：VLM 输出的隐藏状态与噪声动作块拼接，送入 1.15B 参数的 DiT 解码器，通过 flow matching 逐步去噪生成连贯的未来动作序列。
执行与闭环控制：将预测的动作序列（如关节角度、末端执行器位姿等）发送至机器人底层控制器执行；RL 优化后的 Qwen-VLA-Instruct 支持根据环境反馈持续调整策略。
跨平台切换部署：更换机器人硬件时，仅需修改输入提示中的本体描述文本，无需重新训练模型或调整架构，即可实现同一模型在不同平台间的即插即用。

Qwen-VLA的适用人群

具身智能与机器人学习研究人员：从事 VLA（视觉-语言-动作）模型、机器人策略学习及跨本体泛化研究的学术人员。
机器人算法与控制系统工程师：负责机械臂操作、移动导航、轨迹规划等算法开发，需要统一框架替代碎片化专用模型的工程团队。
仿真到真实（Sim-to-Real）迁移开发者：需要将仿真环境中训练的策略快速部署到真实机器人硬件，且追求零样本或低样本迁移效率的开发者。
多模态大模型与 Physical AI 研究者：关注大模型从纯数字智能向物理世界延伸，探索视觉-语言-动作统一建模的前沿研究者。
智能制造与仓储物流自动化工程师：在工厂自动化、智能仓储、物流分拣等场景中，需要操作、导航、移动操作复合能力的落地应用工程师。
人形机器人与双臂机器人研发团队：开发双足/轮式人形机器人、双臂协作机器人，需要跨平台通用控制大脑的产品团队。

Qwen-VLA的常见问题

Q：Qwen-VLA 支持哪些机器人平台？

A：支持 WidowX、Google Robot、Franka Panda（单臂/双臂）、ARX5、Fourier GR-1、Mobile ALOHA、AgiBot A2-D、Galaxea R1、AIRBOT MMK2、Tien Kung、Real Human 等 11 种平台，覆盖单臂、双臂、人形等多种形态。

Q：什么是"本体感知提示条件化"？

A：将机器人型号、臂配置（单臂/双臂）、是否有腰部/移动底座、控制频率（FPS）、预测时域（chunk_size）等硬件差异编码为一段自然语言文本提示，作为唯一的平台特定接口。骨干网络理解该提示后，即可输出适配该机器人的动作，无需修改模型架构。

Q：T2A 预训练为什么先冻结 VLM？

A：VLM 已充分预训练，而 DiT 从随机初始化开始。若直接联合训练，会浪费计算资源在视觉无关的解码器学习上，并干扰 VLM 预训练成果。先冻结 VLM 纯文本训练 DiT，计算成本约为多模态训练的 1/10，且实验表明带图像反而使 T2A 性能下降 2.8 个百分点。

Q：Qwen-VLA 与专用模型相比表现如何？

A：在 LIBERO（97.9%）、Simpler-WidowX（73.7%）、RoboTwin-Easy/Hard（86.1%/87.2%）等 5 个仿真基准中的 3 个，单一通用模型超越了针对各基准独立微调的最佳专用模型。

Последние ресурсы по искусственному интеллекту

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.