Xiaomi-Robotics-0 - 小米开源的首代具身智能大模型

29.1K 00

Xiaomi-Robotics-0是什么

Xiaomi-Robotics-0 是小米开源的首代具身智能大模型，拥有47亿参数，采用"大脑+小脑"混合架构设计。视觉语言大脑基于多模态大模型，负责理解人类模糊指令与空间推理；动作执行小脑则通过Diffusion Transformer生成高频连续动作块，确保机器人动作平滑精准。模型创新性地引入异步执行机制，实现推理与执行并行，消除传统串行延迟。在LIBERO、SimplerEnv等仿真基准中，Xiaomi-Robotics-0以98.7%的成功率刷新SOTA纪录，真机测试中也展现出稳定的双臂操作能力。

Xiaomi-Robotics-0的功能特色

多模态指令理解：支持视觉、语言和动作的多模态融合，能理解人类模糊的自然语言指令（如"请把毛巾叠好"）并转化为具体动作。
实时动作生成：基于Diffusion Transformer（DiT）的动作执行小脑，可生成高频、连续的"动作块"，确保机器人动作平滑精准。
异步推理执行：创新性地解耦模型推理与机器人执行，实现"边想边做"，消除传统串行等待延迟。
长时序任务规划：具备强大的任务分解与规划能力，可完成积木拆解、叠毛巾等复杂长序列操作。
消费级硬件适配：通过Flash Attention 2和bfloat16优化，支持在普通消费级GPU上实时流畅运行。
双臂协同控制：支持双臂机器人的协调操作，实现高自由度的精细手眼配合任务。

Xiaomi-Robotics-0的核心优势

SOTA级性能表现：在LIBERO、SimplerEnv、CALVIN三大仿真基准中均刷新最优纪录，平均成功率高达98.7%。
"大脑+小脑"解耦架构：Mixture-of-Transformers设计将认知推理与动作执行分离，兼顾智能决策与实时响应。
异步执行零延迟：创新性的并行计算机制让机器人在执行当前动作时已完成下一步推理，彻底消除"思考卡顿"。
抗遗忘训练策略：融合2亿机器人轨迹与8000万视觉-语言数据，防止模型在学习动作时出现灾难性遗忘。
真机部署友好：经过消费级GPU优化，无需昂贵专用硬件即可实现流畅推理，大幅降低落地门槛。
全栈开源生态：代码、模型权重及技术文档全面开放，兼容Hugging Face，助力学术研究与产业创新。

Xiaomi-Robotics-0官网是什么

项目官网：https://xiaomi-robotics-0.github.io/
GitHub仓库：https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
HuggingFace模型库：https://huggingface.co/collections/XiaomiRobotics/xiaomi-robotics-0
技术论文：https://xiaomi-robotics-0.github.io/assets/paper.pdf