Xiaomi OneVL - 小米技术开源的一步式潜空间语言视觉推理框架

堆友AI

Xiaomi OneVL是什么

Xiaomi OneVL 是小米技术团队发布并全面开源的一步式潜空间语言视觉推理框架,专为自动驾驶场景设计。框架在业内首次将VLA(视觉-语言-动作)模型、世界模型与潜空间推理三大技术路线统一到单一架构中,通过"语言推理+视觉未来预测"的双重监督机制,使模型既能理解场景并输出驾驶动作,又能预测未来场景演变。基于Qwen3-VL-4B-Instruct架构,OneVL在NAVSIM、ROADWork、Impromptu、Alpamayo-R1等多个主流自动驾驶基准测试中全面刷新潜在推理方法性能记录,精度超越显式思维链(CoT),推理速度对齐"仅答案"预测模式。

Xiaomi OneVL - 小米技术开源的一步式潜空间语言视觉推理框架

Xiaomi OneVL的功能特色

  • 一步式潜空间推理:将完整推理链条压缩为单步并行处理,推理时通过Prefill机制一次性预填充所有潜空间token,显著降低推理延迟。
  • VLA与世界模型统一:首次在单一框架内整合视觉-语言-动作模型与世界模型能力,打破此前两条技术路线独立发展的局面。
  • 双重监督机制:语言辅助解码器重建思维链文本,视觉辅助解码器基于Emu3.5 IBQ(131k codebook)预测未来帧画面(t+0.5s和t+1.0s)。
  • 双维度可解释性:同时提供语言解释(说明"为什么这样开")和视觉预测(展示"接下来会发生什么"),提升模型决策透明度。
  • Трехфазный процесс обучения:渐进式对齐轨迹、语言与视觉目标,确保稳定联合优化;训练完成后辅助解码器即丢弃,不影响推理效率。
  • 潜空间Token接口:在助手回复中引入4个视觉潜空间token和2个语言潜空间token,复用现有词表token,无需新增特殊token。

Xiaomi OneVL的核心优势

  • 精度与速度兼得:在精度上超越显式CoT方法,在速度上匹配"仅答案"预测模式,成为首个在两方面同时取得突破的潜空间CoT方案。
  • 多项基准SOTA:在ROADWork、Impromptu、Alpamayo-R1三项基准达到SOTA,在NAVSIM取得88.84 PDM-score的优越性能,超越AdaThinkDrive(86.20)和LaST-VLA(87.30)。
  • 超低延迟部署潜力:标准版NAVSIM延迟4.46秒;MLP变体版本延迟可降至0.24秒,仅为传统自回归推理耗时的5.4%,满足车载实时推理需求。
  • 全面开源生态:模型权重、训练代码、推理代码全部开源,降低自动驾驶大模型研究门槛,促进社区协作迭代。
  • 强可解释性与安全性:语言和视觉双维度解释模型决策过程,帮助开发者理解模型"思考"逻辑,提升自动驾驶系统可信度与安全性。

Xiaomi OneVL官网是什么

  • Веб-сайт проекта:https://xiaomi-embodied-intelligence.github.io/OneVL/
  • Репозиторий GitHub:https://github.com/xiaomi-research/onevl
  • Технический документ arXiv:https://arxiv.org/pdf/2604.18486

Xiaomi OneVL的适用人群

  • 自动驾驶算法研究与开发人员:需要端到端自动驾驶推理框架的技术人员,用OneVL的一步式潜空间推理能力进行轨迹预测、路径规划与复杂场景决策研究,其语言+视觉双重监督机制有助于深入理解模型决策逻辑。
  • 具身智能与机器人领域开发者:从事机器人视觉语言动作(VLA)系统开发的工程师,可借助OneVL首次统一的世界模型与VLA架构,将场景理解、动作输出与未来预测能力整合到单一框架中,提升机器人的环境感知与行动规划水平。
  • 计算机视觉与多模态AI研究者:专注于视觉语言融合、潜空间表示学习或世界模型方向的科研人员,OneVL开源的模型权重与训练代码为其提供了研究潜空间Token接口、Emu3.5 IBQ视觉编码及双重辅助解码器机制的理想实验平台。
  • 高校与科研机构的学术团队:正在进行自动驾驶、智能交通或AI可解释性相关课题研究的师生团队,可通过OneVL在NAVSIM、ROADWork等主流基准上的SOTA性能数据,开展模型对比分析、消融实验及学术论文撰写工作。
  • 智能汽车企业的感知/规划/决策技术团队:负责量产级自动驾驶系统研发的工程团队,可用OneVL MLP变体版本仅0.24秒的超低延迟特性,探索车载实时推理部署方案,同时借助其双维度可解释性满足功能安全与决策透明度的工程要求。

Xiaomi OneVL的常见问题

Q:OneVL与现有VLA模型有何不同?

A:传统VLA专注场景理解与驾驶动作输出,世界模型专注未来场景预测,两者独立发展。OneVL通过潜空间推理首次将两者统一,并引入双重监督机制,使模型既能"思考"又能"预判"。


Q:OneVL的推理速度如何?

A:在NAVSIM基准上,OneVL标准版延迟4.46秒,与"仅答案"预测模式相当;MLP变体版本延迟可降至0.24秒,仅为传统自回归推理耗时的5.4%,速度较文字推理方案最快提升2.3倍。


Q:OneVL是否开源?如何获取?

A:是的,小米已全面开源。可通过以下链接获取:技术报告(arXiv)、项目主页(GitHub Pages)、开源代码(GitHub)。


Q:OneVL在哪些基准上取得领先?

A:主要在NAVSIM、ROADWork、Impromptu、Alpamayo-R1四个主流自动驾驶推理与规划基准上进行测试,均刷新潜在推理方法性能上限。


Q:OneVL的可解释性体现在哪里?

A:OneVL提供语言和视觉双维度可解释性,既能用文字说明驾驶决策原因,也能用预测画面展示未来0.5秒和1.0秒的场景演变。


Q:使用OneVL需要什么技术基础?
A:需要具备深度学习、多模态大模型、自动驾驶领域的基础知识,以及相应的GPU计算资源用于模型训练或推理。
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...