Xiaomi OneVL - 小米技术开源的一步式潜空间语言视觉推理框架

Последние ресурсы по искусственному интеллектуОпубликовано 2 месяца назад Круг обмена ИИ

32.2K 00

Xiaomi OneVL是什么

Xiaomi OneVL 是小米技术团队发布并全面开源的一步式潜空间语言视觉推理框架，专为自动驾驶场景设计。框架在业内首次将VLA（视觉-语言-动作）模型、世界模型与潜空间推理三大技术路线统一到单一架构中，通过"语言推理+视觉未来预测"的双重监督机制，使模型既能理解场景并输出驾驶动作，又能预测未来场景演变。基于Qwen3-VL-4B-Instruct架构，OneVL在NAVSIM、ROADWork、Impromptu、Alpamayo-R1等多个主流自动驾驶基准测试中全面刷新潜在推理方法性能记录，精度超越显式思维链（CoT），推理速度对齐"仅答案"预测模式。

Xiaomi OneVL的功能特色

一步式潜空间推理：将完整推理链条压缩为单步并行处理，推理时通过Prefill机制一次性预填充所有潜空间token，显著降低推理延迟。
VLA与世界模型统一：首次在单一框架内整合视觉-语言-动作模型与世界模型能力，打破此前两条技术路线独立发展的局面。
双重监督机制：语言辅助解码器重建思维链文本，视觉辅助解码器基于Emu3.5 IBQ（131k codebook）预测未来帧画面（t+0.5s和t+1.0s）。
双维度可解释性：同时提供语言解释（说明"为什么这样开"）和视觉预测（展示"接下来会发生什么"），提升模型决策透明度。
Трехфазный процесс обучения：渐进式对齐轨迹、语言与视觉目标，确保稳定联合优化；训练完成后辅助解码器即丢弃，不影响推理效率。
潜空间Token接口：在助手回复中引入4个视觉潜空间token和2个语言潜空间token，复用现有词表token，无需新增特殊token。

Xiaomi OneVL的核心优势

精度与速度兼得：在精度上超越显式CoT方法，在速度上匹配"仅答案"预测模式，成为首个在两方面同时取得突破的潜空间CoT方案。
多项基准SOTA：在ROADWork、Impromptu、Alpamayo-R1三项基准达到SOTA，在NAVSIM取得88.84 PDM-score的优越性能，超越AdaThinkDrive（86.20）和LaST-VLA（87.30）。
超低延迟部署潜力：标准版NAVSIM延迟4.46秒；MLP变体版本延迟可降至0.24秒，仅为传统自回归推理耗时的5.4%，满足车载实时推理需求。
全面开源生态：模型权重、训练代码、推理代码全部开源，降低自动驾驶大模型研究门槛，促进社区协作迭代。
强可解释性与安全性：语言和视觉双维度解释模型决策过程，帮助开发者理解模型"思考"逻辑，提升自动驾驶系统可信度与安全性。

Xiaomi OneVL官网是什么

Веб-сайт проекта：https://xiaomi-embodied-intelligence.github.io/OneVL/
Репозиторий GitHub：https://github.com/xiaomi-research/onevl
Технический документ arXiv：https://arxiv.org/pdf/2604.18486

Xiaomi OneVL的适用人群

自动驾驶算法研究与开发人员：需要端到端自动驾驶推理框架的技术人员，用OneVL的一步式潜空间推理能力进行轨迹预测、路径规划与复杂场景决策研究，其语言+视觉双重监督机制有助于深入理解模型决策逻辑。
具身智能与机器人领域开发者：从事机器人视觉语言动作（VLA）系统开发的工程师，可借助OneVL首次统一的世界模型与VLA架构，将场景理解、动作输出与未来预测能力整合到单一框架中，提升机器人的环境感知与行动规划水平。
计算机视觉与多模态AI研究者：专注于视觉语言融合、潜空间表示学习或世界模型方向的科研人员，OneVL开源的模型权重与训练代码为其提供了研究潜空间Token接口、Emu3.5 IBQ视觉编码及双重辅助解码器机制的理想实验平台。
高校与科研机构的学术团队：正在进行自动驾驶、智能交通或AI可解释性相关课题研究的师生团队，可通过OneVL在NAVSIM、ROADWork等主流基准上的SOTA性能数据，开展模型对比分析、消融实验及学术论文撰写工作。
智能汽车企业的感知/规划/决策技术团队：负责量产级自动驾驶系统研发的工程团队，可用OneVL MLP变体版本仅0.24秒的超低延迟特性，探索车载实时推理部署方案，同时借助其双维度可解释性满足功能安全与决策透明度的工程要求。