Xiaomi-Robotics-0 - 小米开源的首代具身智能大模型

堆友AI

Xiaomi-Robotics-0是什么

Xiaomi-Robotics-0 是小米开源的首代具身智能大模型,拥有47亿参数,采用"大脑+小脑"混合架构设计。视觉语言大脑基于多模态大模型,负责理解人类模糊指令与空间推理;动作执行小脑则通过Diffusion Transformer生成高频连续动作块,确保机器人动作平滑精准。模型创新性地引入异步执行机制,实现推理与执行并行,消除传统串行延迟。在LIBERO、SimplerEnv等仿真基准中,Xiaomi-Robotics-0以98.7%的成功率刷新SOTA纪录,真机测试中也展现出稳定的双臂操作能力。

Xiaomi-Robotics-0 - 小米开源的首代具身智能大模型

Xiaomi-Robotics-0的功能特色

  • 多模态指令理解:支持视觉、语言和动作的多模态融合,能理解人类模糊的自然语言指令(如"请把毛巾叠好")并转化为具体动作。
  • 实时动作生成:基于Diffusion Transformer(DiT)的动作执行小脑,可生成高频、连续的"动作块",确保机器人动作平滑精准。
  • 异步推理执行:创新性地解耦模型推理与机器人执行,实现"边想边做",消除传统串行等待延迟。
  • 长时序任务规划:具备强大的任务分解与规划能力,可完成积木拆解、叠毛巾等复杂长序列操作。
  • 消费级硬件适配:通过Flash Attention 2和bfloat16优化,支持在普通消费级GPU上实时流畅运行。
  • 双臂协同控制:支持双臂机器人的协调操作,实现高自由度的精细手眼配合任务。

Xiaomi-Robotics-0的核心优势

  • SOTA级性能表现:在LIBERO、SimplerEnv、CALVIN三大仿真基准中均刷新最优纪录,平均成功率高达98.7%。
  • "大脑+小脑"解耦架构:Mixture-of-Transformers设计将认知推理与动作执行分离,兼顾智能决策与实时响应。
  • 异步执行零延迟:创新性的并行计算机制让机器人在执行当前动作时已完成下一步推理,彻底消除"思考卡顿"。
  • 抗遗忘训练策略:融合2亿机器人轨迹与8000万视觉-语言数据,防止模型在学习动作时出现灾难性遗忘。
  • 真机部署友好:经过消费级GPU优化,无需昂贵专用硬件即可实现流畅推理,大幅降低落地门槛。
  • 全栈开源生态:代码、模型权重及技术文档全面开放,兼容Hugging Face,助力学术研究与产业创新。

Xiaomi-Robotics-0官网是什么

  • 项目官网:https://xiaomi-robotics-0.github.io/
  • GitHub仓库:https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
  • HuggingFace模型库:https://huggingface.co/collections/XiaomiRobotics/xiaomi-robotics-0
  • 技术论文:https://xiaomi-robotics-0.github.io/assets/paper.pdf

Xiaomi-Robotics-0的适用人群

  • 机器人研发团队:可直接获取SOTA级VLA模型进行算法验证与产品原型开发,加速具身智能技术落地。
  • 学术研究人员:开源代码与完整技术文档为高校及科研机构提供可复现的研究基准,推动机器人学习领域创新。
  • AI开发者与工程师:兼容Hugging Face生态,支持快速微调与二次开发,降低多模态大模型在机器人领域的应用门槛。
  • 硬件厂商:消费级GPU适配特性帮助中小硬件企业低成本集成高性能机器人大脑,提升产品智能化水平。
  • 自动化行业从业者:适用于工业协作机器人、服务机器人等场景,解决传统机械臂编程复杂、泛化能力差的问题。
  • 具身智能创业者:开源策略提供技术底座,助力初创团队快速构建差异化机器人应用,缩短产品上市周期。
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...