先日、マイクロソフトリサーチが大きな研究成果として、マルチモーダルAIエージェントの基本モデル「Magma」を発表した。 このモデルは、人間のように画像を「読み」、言語を「理解」するだけでなく、ユーザーインターフェース(UI)を直接操作したり、ロボットを制御したりすることができるマルチスキルモデルで、非常に素晴らしいものだ。マグマは、人間のように画像を「見て」言語を「理解する」だけでなく、手元から直接ユーザーインターフェース(UI)を操作したりロボットを制御したりできるマルチスキルモデルだ。 このブレークスルーは、画像を静的にしか理解できないこれまでの視覚言語モデルの限界を打ち破り、AIのインタラクティブな応用に新たな地平を開くものだ。
マイクロソフトによれば、マグマの最も優れた点は、1つのモデルでデジタルと物理の両世界における幅広いインタラクティブ・タスクを処理できることだという。 さらに驚くべきは、マグマは汎用性も高く、既存の特殊なモデルよりも優れた性能を発揮するために、特定のドメイン向けに微調整する必要がないことだ。 つまり、マグマは汎用AIインテリジェンスの礎となり、AIアプリケーションの開発・導入コストを大幅に削減することが期待されているのだ。
マグマの秘伝のタレ:SoMとToMのテクノロジー。
マグマ・モデルを強力なものにしている秘密兵器は、マグマが採用している2つのコア技術、SoM(セット・オブ・マーク)とToM(トレース・オブ・マーク)である。
セット・オブ・マーク(SoM)Magmaのインタラクティブ要素に対する理解は、「タグ付けコレクション」というテクニックが中心となっています。 簡単に言えば、ユーザーインターフェース(UI)のボタンや現実のシーンに登場するロボットアームなど、操作可能な画像内のオブジェクトに「タグ付け」するようなものだ。 こうすることで、AIは画像内のインタラクティブな要素をより正確に認識し、それに応じて行動することができる。 例えば、UI操作の分野では、SoM技術により、マグマはウェブページやAPP上のクリック可能なボタンを正確に識別し、オンラインショッピングや情報入力などの複雑なプロセスを完了するためにユーザーのコマンドに従うことができる。 ロボット制御の分野では、SoM技術により、マグマは環境を感知する能力を持ち、物体の位置や特性を判断し、ロボットアームを正確に制御して、物体の把持、移動、配置などの細かい操作を安定して行うことができる。
トレース・オブ・マーク(ToM) この技術「Marked Trajectories」は、マグマに時間的な動きを学習させることに焦点を当てている。 この技術により、AIは画像内の動きの軌跡にラベルを付けることで、物体がタイムライン上でどのように変化するかをより深く理解できるようになる。 ToMテクノロジーは、マグマに将来の行動を予測する能力を与える。例えば、タスクを実行する際にロボットアームが取るべき最適な経路を決定したり、ビデオ内のキャラクターの行動パターンを分析して次の動きをより正確に計画したりすることができる。 従来のフレームごとの予測手法に比べ、ToMテクノロジーはより少ないトークンでより長い時間範囲の変化を捉えることができるため、ダイナミックなシーンにおけるAIの意思決定能力を大幅に向上させ、環境ノイズによる干渉を効果的に低減することができる。
マグマのパフォーマンス:複数のレビューがチャートのトップに
マグマの強みを検証するために、研究者はいくつかの厳しいベンチマークテストを実施しました。 その結果、マグマは全てのテストにおいて卓越し、凌駕する結果を示し、マグマのテクノロジー・リーダーシップが証明されました。
ユーザーインターフェース(UI)操作の分野において、マグマはMind2WebとAITWの両方で非常に高い精度を達成しています。 これは、マグマが複雑なウェブページやモバイルアプリのインターフェイスを操作し、ウェブブラウジングやアプリ操作といった複雑なタスクさえも実際のユーザーのようにこなせることを強く証明しています。
ロボット制御の面では、WidowXとLIBEROの両テストにおいて、Magmaは既存のロボットビジョン言語モデルOpenVLAを凌駕しています。 テスト結果は、Magmaがソフトウェア操作や固形物のピックアンドプレースなどの複雑なタスクを成功裏に実行できることを示しており、既知の環境と未知の環境の両方において優れた汎化と安定性を示しています。 これは、マグマが自動生産ライン、インテリジェント物流、ホームサービスなどの産業用ロボットやサービスロボットに使用される可能性があることを意味します。
ゼロからのサンプル学習:新しい環境への迅速な適応
マグマのもう一つのハイライトは、その優れたゼロサンプルおよび数サンプルの学習機能である。 これによりMagmaは、時間のかかる微調整を追加することなく、これまでに見たことのない新しい環境に直接適用することができます。 テストデータによると、Magmaはユーザーインターフェース(UI)操作とロボット操作の両方において、ゼロサンプルで完全なタスクフローを完了できることが示されています。 この機能により、採用への障壁が低くなり、Magmaはより早く、より簡単に実世界のシナリオに導入することができます。
ユーザーインターフェース(UI)操作やロボットアプリケーションでの卓越した性能に加え、マグマは視覚クイズや時間推論などのタスクでもその強さを発揮しました。 特に空間推論のテストでは、業界のベンチマークとして広く認知されているGPT-4oを凌駕した。 マイクロソフト社も、GPT-4oにとって空間推論の評価はまだ難しい問題であることを認めているが、MagmaはGPT-4oに比べて事前学習データの量が圧倒的に少ないにもかかわらず、そのような問題をよりよく解くことができる。 マグマの今後の発展が楽しみである。
全体として、マイクロソフトのMagmaモデルのリリースは、マルチモーダルAIの分野における画期的なブレークスルーであることは間違いない。 そのユニークなSoMとToMテクノロジー、そして優れたゼロサンプルと少数サンプルの学習能力により、マグマは新世代のAIインテリジェンスの開発をリードし、ユーザーインターフェース(UI)インタラクション、ロボット制御、そしてより広範なAIアプリケーションの分野で新たな技術革命を起こすと期待されている。