UnifoLM-VLA-0 - 宇树科技开源的首款操作型大模型

24.2K 00

UnifoLM-VLA-0是什么

UnifoLM-VLA-0 是宇树科技 UnifoLM 系列的首款操作型大模型，突破传统视觉语言模型（VLM）仅能理解图像文字的局限，通过在机器人操作数据上的持续预训练，实现从"图文理解"向具备物理常识的"具身大脑"进化。模型基于 Qwen2.5-VL-7B 开源架构构建，仅利用约 340 小时的真机操作数据，通过融合 2D/3D 空间细节与动力学约束，实现对复杂动作序列的统一建模。在 LIBERO 仿真基准测试中表现接近最优，在真机验证中仅凭单一策略网络即可稳定完成开闭抽屉、插拔插头、抓取放置等 12 类复杂操作任务，在外部扰动下仍保持强鲁棒性。

UnifoLM-VLA-0的功能特色

视觉语言理解：基于Qwen2.5-VL-7B架构，支持自然语言指令与视觉图像的多模态融合理解，准确解析"把红色杯子放到左边抽屉"等包含物体属性、空间关系的复杂指令。
2D/3D空间感知：集成目标检测、实例分割与3D空间定位能力，实时分析操作场景中的物体类别、姿态、位置及空间布局，构建精准的物理环境认知。
动作序列生成：通过动作分块（Action Chunking）机制，将高层指令分解为连贯的机器人末端执行器轨迹序列，支持长时序复杂操作的动作规划与生成。
物理交互建模：嵌入前向与逆向动力学约束，在动作解码过程中建模物体抓取、推拉、旋转等操作的物理规律，确保生成动作符合物理常识与环境约束。
多任务操作控制：单一模型支持开闭抽屉、插拔插头、抓取放置、堆叠整理等12类典型操作任务，实现跨场景、跨物体的通用操作能力。
实时动作预测：基于离散动作表征实现低延迟推理，支持端到端的视觉输入到机器人关节控制信号输出，满足真机部署的实时性要求。
仿真到真实迁移：在LIBERO仿真环境中训练的策略可直接部署于宇树G1人形机器人真机，具备强大的Sim2Real迁移能力与鲁棒性。

UnifoLM-VLA-0的核心优势

具身智能进化：突破传统视觉语言模型（VLM）仅"看得懂"的局限，通过在机器人操作数据上的持续预训练，实现向具备物理交互常识的"具身大脑"进化，真正理解物体抓取、摆放等动作的物理规律与交互逻辑。
数据高效利用：仅用约340小时真机操作数据完成高质量训练，通过系统化清洗开源数据集与高效预训练策略，大幅降低人形机器人大模型的数据收集成本与训练门槛，实现"小数据、大能力"。
空间感知增强：深度融合文本指令与2D/3D空间细节，构建包含检测分割、3D定位、空间推理的多维数据集，显著提升几何空间理解与语义逻辑对齐能力，使动作预测在三维空间中更精准。
动力学建模能力：集成动作分块预测及前向/逆向动力学约束，在动作解码阶段引入物理交互规律建模，实现长时序复杂动作序列的统一理解与生成，提升操作过程的物理合理性与稳定性。
单模型多任务泛化：单一策略网络即可稳定完成开闭抽屉、插拔插头、抓取放置等12类复杂操作任务，无需针对每类任务单独训练模型，展现出强大的跨任务泛化与迁移能力。
强鲁棒性表现：在宇树G1人形机器人真机验证中表现出优异的外部扰动抵抗能力，即使受到环境干扰仍能稳定完成操作任务，具备良好的环境适应性与容错性。
性能对标领先：在LIBERO仿真基准测试中表现接近最优，"no thinking"模式下性能可比肩谷歌Gemini-Robotics-ER 1.5等顶级闭源模型，验证了其技术先进性与实用性。
开源生态完备：模型代码、训练数据集、技术文档已全面开源，且单张RTX 4090即可运行7B模型，显著降低研究与部署门槛，推动人形机器人技术的普惠化与社区协作创新。

UnifoLM-VLA-0官网是什么

プロジェクトのウェブサイト：https://unigen-x.github.io/unifolm-vla.github.io/
GitHubリポジトリ：https://github.com/unitreerobotics/unifolm-vla

UnifoLM-VLA-0的适用人群

人形机器人研发团队：从事双足人形机器人（如宇树G1/G1-1/G1-2）开发的工程师与技术团队，可直接基于该VLA模型快速搭建操作控制系统，无需从零训练感知-决策-执行链路。
具身智能算法研究员：专注于视觉-语言-动作（VLA）模型、机器人模仿学习、世界模型等方向的学术研究者与高校师生，可借助开源代码与数据集开展前沿算法研究、架构改进与理论验证。
AI机器人应用开发者：面向工业分拣、实验室自动化、服务机器人、家庭助理等场景的解决方案开发者，可利用该模型实现"所见即所得"的指令跟随与物体操作能力，加速产品落地。
智能硬件创业者与初创公司：预算有限但希望快速验证人形机器人交互原型的创业团队，借助单卡RTX 4090即可运行的低门槛特性，大幅降低前期研发投入与硬件成本。
开源社区贡献者与技术极客：关注具身智能生态建设的独立开发者、AI爱好者，可基于MIT开源协议参与模型优化、数据贡献、工具链开发，推动社区技术迭代。
机器人教育与培训机构：开设机器人工程、人工智能专业的高校或培训中心，可将该模型作为教学案例与实践平台，帮助学生理解多模态大模型与物理世界的结合方式。