UnifoLM-VLA-0 - 宇树科技开源的首款操作型大模型

堆友AI

UnifoLM-VLA-0是什么

UnifoLM-VLA-0 是宇树科技 UnifoLM 系列的首款操作型大模型,突破传统视觉语言模型(VLM)仅能理解图像文字的局限,通过在机器人操作数据上的持续预训练,实现从"图文理解"向具备物理常识的"具身大脑"进化。模型基于 Qwen2.5-VL-7B 开源架构构建,仅利用约 340 小时的真机操作数据,通过融合 2D/3D 空间细节与动力学约束,实现对复杂动作序列的统一建模。在 LIBERO 仿真基准测试中表现接近最优,在真机验证中仅凭单一策略网络即可稳定完成开闭抽屉、插拔插头、抓取放置等 12 类复杂操作任务,在外部扰动下仍保持强鲁棒性。

UnifoLM-VLA-0 - 宇树科技开源的首款操作型大模型

UnifoLM-VLA-0的功能特色

  • 视觉语言理解:基于Qwen2.5-VL-7B架构,支持自然语言指令与视觉图像的多模态融合理解,准确解析"把红色杯子放到左边抽屉"等包含物体属性、空间关系的复杂指令。
  • 2D/3D空间感知:集成目标检测、实例分割与3D空间定位能力,实时分析操作场景中的物体类别、姿态、位置及空间布局,构建精准的物理环境认知。
  • 动作序列生成:通过动作分块(Action Chunking)机制,将高层指令分解为连贯的机器人末端执行器轨迹序列,支持长时序复杂操作的动作规划与生成。
  • 物理交互建模:嵌入前向与逆向动力学约束,在动作解码过程中建模物体抓取、推拉、旋转等操作的物理规律,确保生成动作符合物理常识与环境约束。
  • 多任务操作控制:单一模型支持开闭抽屉、插拔插头、抓取放置、堆叠整理等12类典型操作任务,实现跨场景、跨物体的通用操作能力。
  • 实时动作预测:基于离散动作表征实现低延迟推理,支持端到端的视觉输入到机器人关节控制信号输出,满足真机部署的实时性要求。
  • 仿真到真实迁移:在LIBERO仿真环境中训练的策略可直接部署于宇树G1人形机器人真机,具备强大的Sim2Real迁移能力与鲁棒性。

UnifoLM-VLA-0的核心优势

  • 具身智能进化:突破传统视觉语言模型(VLM)仅"看得懂"的局限,通过在机器人操作数据上的持续预训练,实现向具备物理交互常识的"具身大脑"进化,真正理解物体抓取、摆放等动作的物理规律与交互逻辑。
  • 数据高效利用:仅用约340小时真机操作数据完成高质量训练,通过系统化清洗开源数据集与高效预训练策略,大幅降低人形机器人大模型的数据收集成本与训练门槛,实现"小数据、大能力"。
  • 空间感知增强:深度融合文本指令与2D/3D空间细节,构建包含检测分割、3D定位、空间推理的多维数据集,显著提升几何空间理解与语义逻辑对齐能力,使动作预测在三维空间中更精准。
  • 动力学建模能力:集成动作分块预测及前向/逆向动力学约束,在动作解码阶段引入物理交互规律建模,实现长时序复杂动作序列的统一理解与生成,提升操作过程的物理合理性与稳定性。
  • 单模型多任务泛化:单一策略网络即可稳定完成开闭抽屉、插拔插头、抓取放置等12类复杂操作任务,无需针对每类任务单独训练模型,展现出强大的跨任务泛化与迁移能力。
  • 强鲁棒性表现:在宇树G1人形机器人真机验证中表现出优异的外部扰动抵抗能力,即使受到环境干扰仍能稳定完成操作任务,具备良好的环境适应性与容错性。
  • 性能对标领先:在LIBERO仿真基准测试中表现接近最优,"no thinking"模式下性能可比肩谷歌Gemini-Robotics-ER 1.5等顶级闭源模型,验证了其技术先进性与实用性。
  • 开源生态完备:模型代码、训练数据集、技术文档已全面开源,且单张RTX 4090即可运行7B模型,显著降低研究与部署门槛,推动人形机器人技术的普惠化与社区协作创新。

UnifoLM-VLA-0官网是什么

  • プロジェクトのウェブサイト:https://unigen-x.github.io/unifolm-vla.github.io/
  • GitHubリポジトリ:https://github.com/unitreerobotics/unifolm-vla

UnifoLM-VLA-0的适用人群

  • 人形机器人研发团队:从事双足人形机器人(如宇树G1/G1-1/G1-2)开发的工程师与技术团队,可直接基于该VLA模型快速搭建操作控制系统,无需从零训练感知-决策-执行链路。
  • 具身智能算法研究员:专注于视觉-语言-动作(VLA)模型、机器人模仿学习、世界模型等方向的学术研究者与高校师生,可借助开源代码与数据集开展前沿算法研究、架构改进与理论验证。
  • AI机器人应用开发者:面向工业分拣、实验室自动化、服务机器人、家庭助理等场景的解决方案开发者,可利用该模型实现"所见即所得"的指令跟随与物体操作能力,加速产品落地。
  • 智能硬件创业者与初创公司:预算有限但希望快速验证人形机器人交互原型的创业团队,借助单卡RTX 4090即可运行的低门槛特性,大幅降低前期研发投入与硬件成本。
  • 开源社区贡献者与技术极客:关注具身智能生态建设的独立开发者、AI爱好者,可基于MIT开源协议参与模型优化、数据贡献、工具链开发,推动社区技术迭代。
  • 机器人教育与培训机构:开设机器人工程、人工智能专业的高校或培训中心,可将该模型作为教学案例与实践平台,帮助学生理解多模态大模型与物理世界的结合方式。
© 著作権表示

関連記事

コメントなし

コメントに参加するにはログインが必要です!
今すぐログイン
なし
コメントはありません