MiMo-Embodied - シャオミのオープンソース・クロスドメイン具現化知能台座モデル

堆友AI

MiMo-Embodiedとは?

MiMo-Embodiedは、シャオミグループがオープンソース化した世界初のクロスエンボディベースモデルであり、エンボディAIと自律走行の統合に成功している。MiMo-Embodiedは、エンボディドAIと自律走行間の知識移行問題を解決し、2つの領域におけるタスクの統一的なモデリングを実現する。エンボディドAIの3つのコアタスク(推論、タスク計画、空間理解)と自律走行の3つの主要タスク(環境センシング、状態予測、運転計画)を同時にサポートし、フルシーンインテリジェンスサポートを形成する。統一されたアーキテクチャは、屋内操作(例:ロボットナビゲーション、オブジェクトインタラクション)と屋外運転(例:環境知覚、経路計画)タスクを統合し、従来の視覚言語モデル(VLM)が単一の領域に限定されるという制限を打破する。

MiMo-Embodied - 小米开源的跨领域具身智能基座模型

MiMo-Embodiedの特徴

  • 領域横断的な一般性自律走行と身体化知能を統合した最初のモデルとして、MiMo-Embodiedは、幅広い複雑なシナリオの動的環境において、マルチモーダルな知覚、推論、意思決定を可能にします。
  • マルチモーダル対話機能画像、ビデオ、テキスト入力をサポートし、視覚的な質問と回答、コマンドフォローなどのマルチモーダルなタスクを処理することができ、より自然な人間とコンピュータのインタラクション体験を提供します。
  • 強い推論連鎖推論によって微調整されたモデルは、複雑な論理的推論と多段階のタスク計画が可能であり、具現化知能におけるタスク実行や自律走行における経路計画に適している。
  • 高精度の環境センシング自律走行シナリオにおいて、MiMo-Embodiedは交通シーンを正確に感知し、重要な要素を特定し、動的挙動を予測することで、運転の安全性を確保します。
  • 空間理解とナビゲーションこのモデルは、屋内ナビゲーション、物体定位、空間関係推論のための優れた空間理解力を持ち、ロボット操作や自律走行における経路計画に適している。
  • 学習の最適化複雑なタスクにおけるモデルの意思決定の質と信頼性を向上させ、実世界環境での効率的な展開を保証するために、強化学習の微調整を採用。
  • オープンソースとスケーラビリティMiMo-Embodiedは完全なオープンソースであり、コードとモデルはHugging Faceで入手可能で、研究者や開発者に、さらなるカスタマイズや拡張をサポートする強力なツールを提供している。

MiMo-Embodiedの核となる強み

  • クロスドメイン・ケイパビリティ・カバレッジ屋内操作(例:ロボットナビゲーション、オブジェクトインタラクション)と屋外走行(例:環境認識、経路計画)のタスクを統一アーキテクチャで統合し、従来の視覚言語モデル(VLM)の単一ドメインへの制限を打ち破る。
  • 双方向のシナジー・エンパワーメント屋内インタラクション能力と道路意思決定能力との間の知識伝達シナジーを検証し、シーンを超えたインテリジェントな統合のための新しいアイデアを提供する。
  • フルチェーンの最適化は信頼できる体現・自己運転能力学習、思考連鎖(CoT)推論強化、強化学習(RL)微強化を含む4段階の漸進的訓練戦略を用いて、実環境での展開に向けたモデルの信頼性を向上させる。
  • マルチモーダルインタラクション視覚や言語など複数の入力をサポートし、視覚的な質疑応答、指示の追従、場面の理解など、複雑なマルチモーダルなタスクに対応。
  • 学習の最適化強化学習による微調整により、複雑な環境におけるモデルの意思決定能力とタスク実行の信頼性を向上させる。
  • 高い推理力ダイナミックな環境における複雑なタスクの実行と意思決定のための、強力な論理的推論と多段階タスク計画能力。
  • 空間理解空間関係理解、物体位置特定、ナビゲーションタスクに優れ、ロボット工学や自律走行システムにおける精密操作をサポートします。

MiMo-Embodiedの公式ウェブサイトは?

  • Githubリポジトリ:: https://github.com/XiaomiMiMo/MiMo-Embodied
  • HuggingFaceモデルライブラリ:: https://huggingface.co/XiaomiMiMo/MiMo-Embodied-7B
  • arXivテクニカルペーパー:: https://arxiv.org/pdf/2511.16518

MiMo-Embodiedは誰のためのものですか?

  • 自律走行技術開発者自律走行システムの開発と最適化に使用でき、環境認識や意思決定計画などの中核機能をサポートする。
  • ロボット工学エンジニアロボットのナビゲーション、マニピュレーション、インタラクションのタスクに適しており、複雑な環境でのロボットの自律的な動作を容易にします。
  • じんこうちのうけんきゅうしゃオープンソースモデルとして、マルチモーダルインタラクション、具現化知能、自律走行の研究に実験プラットフォームを提供する。
  • 高度道路交通システム開発者交通システムのインテリジェンスを高めるために、交通監視、インテリジェントな配車、その他のシナリオに使用することができます。
  • スマートホームおよび産業オートメーション開発者スマートホームや産業オートメーションシナリオのための複雑なタスクプランニングと人間と機械のコラボレーションをサポートします。
  • 大学・研究機関関連分野の教育・研究のためのオープンソースリソースを提供し、学術交流と技術開発を促進する。
© 著作権表示

関連記事

コメントなし

コメントに参加するにはログインが必要です!
今すぐログイン
なし
コメントはありません