AI Personal Learning
und praktische Anleitung
豆包Marscode1

Microsoft Magma Model: Ein intelligenter KI-Körper, der sich um UI-Operationen und Robotersteuerungen kümmert

微软 Magma 模型:一款 AI 智能体,搞定 UI 操作和机器人控制-1

Kürzlich veröffentlichte Microsoft Research eine wichtige Forschungsleistung - Magma, ein Basismodell für multimodale KI-Agenten. Dieses Modell ist ein vielseitiges Modell, das nicht nur Bilder "liest" und Sprache "versteht" wie ein Mensch, sondern auch Benutzeroberflächen (UIs) direkt bedienen und Roboter steuern kann, was sehr beeindruckend ist. Magma ist ein vielseitiges Modell, das nicht nur Bilder "sieht" und Sprache "versteht" wie ein Mensch, sondern auch Benutzeroberflächen (UIs) bedienen und Roboter direkt aus der Hand steuern kann. Dieser Durchbruch überwindet die Grenzen bisheriger visueller Sprachmodelle, die Bilder nur statisch verstehen können, und eröffnet neue Horizonte für interaktive Anwendungen der KI.


Das Beste an Magma ist laut Microsoft, dass es mit nur einem Modell ein breites Spektrum interaktiver Aufgaben sowohl in der digitalen als auch in der physischen Welt bewältigen kann. Was noch überraschender ist, ist die Tatsache, dass Magma sehr vielseitig ist und nicht auf einen bestimmten Bereich abgestimmt werden muss, um eine überlegene Leistung gegenüber bestehenden spezialisierten Modellen zu zeigen. Dies bedeutet, dass Magma der Eckpfeiler einer universell einsetzbaren KI-Intelligenz sein dürfte, die die Kosten für die Entwicklung und den Einsatz von KI-Anwendungen erheblich senken wird.

Das Geheimnis von Magma: SoM- und ToM-Technologien.

Die Geheimwaffe, die das Magma-Modell so leistungsstark macht, sind die beiden Kerntechnologien, die es einsetzt: Set-of-Mark (SoM) und Trace-of-Mark (ToM).

Markensatz (SoM)Magmas Verständnis von interaktiven Elementen basiert auf der Technik des "Tagging Collections". Vereinfacht ausgedrückt handelt es sich dabei um das "Markieren" von Objekten in einem Bild, die manipuliert werden können, z. B. Schaltflächen auf einer Benutzeroberfläche (UI) oder ein Roboterarm in einer realen Szene. Auf diese Weise kann die KI interaktive Elemente im Bild genauer erkennen und entsprechend handeln. Im Bereich der UI-Manipulation ermöglicht es die SoM-Technologie Magma beispielsweise, anklickbare Schaltflächen auf einer Webseite oder einer APP genau zu erkennen und Benutzerbefehle zu befolgen, um komplexe Vorgänge wie Online-Shopping, das Ausfüllen von Informationen usw. abzuschließen. Im Bereich der Robotersteuerung verleiht die SoM-Technologie Magma die Fähigkeit, die Umgebung zu erfassen, um die Position und die Eigenschaften von Objekten zu beurteilen und dann den Roboterarm präzise zu steuern, um Feinarbeiten wie das Greifen, Bewegen und Platzieren von Objekten stabil auszuführen.

Markenspur (ToM) Die Technologie "Marked Trajectories" ermöglicht es Magma, über zeitliche Bewegungen zu lernen. Diese Technologie ermöglicht es der KI, ein tieferes Verständnis dafür zu erlangen, wie sich Objekte auf der Zeitachse verändern, indem sie Bewegungsbahnen in einem Bild kennzeichnet. Mit der ToM-Technologie kann Magma künftige Aktionen vorhersagen, z. B. indem es den besten Weg für einen Roboterarm bei der Ausführung einer Aufgabe bestimmt oder die Verhaltensmuster einer Figur in einem Video analysiert, um ihre nächste Bewegung genauer zu planen. Im Vergleich zu herkömmlichen Frame-by-Frame-Vorhersagemethoden verwendet die ToM-Technologie weniger Token, um Veränderungen über längere Zeiträume zu erfassen, was die Entscheidungsfähigkeit der KI in dynamischen Szenen erheblich verbessert und Störungen durch Umgebungsgeräusche wirksam reduziert.

Magma-Performance in Aktion: Mehrfache Bewertungen an der Spitze der Charts

Um die Stärken von Magma zu bestätigen, führten die Forscher mehrere strenge Benchmark-Tests durch. Die Ergebnisse zeigten, dass Magma in jedem Test hervorragend abschnitt und seine Technologieführerschaft unter Beweis stellte.

Im Bereich der Manipulation von Benutzeroberflächen (UI) hat Magma sowohl bei Mind2Web als auch bei AITW sehr hohe Genauigkeitsraten erreicht. Dies ist ein starker Beweis für die Fähigkeit von Magma, komplexe Webseiten und mobile App-Schnittstellen zu manipulieren und sogar komplexe Aufgaben wie Web-Browsing und App-Manipulationen wie ein echter Benutzer durchzuführen.

In Bezug auf die Robotersteuerung übertrifft Magma das bestehende Roboter-Vision-Sprachmodell OpenVLA sowohl in WidowX- als auch in LIBERO-Tests. Die Testergebnisse zeigen, dass Magma in der Lage ist, komplexe Aufgaben wie die Software-Manipulation und das Aufnehmen und Platzieren fester Objekte erfolgreich auszuführen, und eine ausgezeichnete Generalisierung und Stabilität sowohl in bekannten als auch in unbekannten Umgebungen aufweist. Das bedeutet, dass Magma das Potenzial hat, in Industrie- und Servicerobotern eingesetzt zu werden, z. B. in automatisierten Produktionslinien, in der intelligenten Logistik, bei Hausdiensten und mehr.

Zero & Less Sample Learning: Sich schnell an neue Umgebungen anpassen

Ein weiteres Highlight von Magma ist seine hervorragende Lernfähigkeit für Null- und Wenig-Proben. Dadurch kann Magma direkt auf neue, noch nie zuvor gesehene Umgebungen angewendet werden, ohne zusätzliche zeitaufwändige Feinabstimmung. Testdaten haben gezeigt, dass Magma einen vollständigen Aufgabenablauf mit null Samples abschließen kann, sowohl bei Operationen auf der Benutzeroberfläche (UI) als auch bei Robotikaufgaben. Diese Funktion senkt die Hürden für die Einführung, so dass Magma schneller und einfacher in realen Szenarien implementiert werden kann.

Neben seiner herausragenden Leistung bei der Bedienung von Benutzeroberflächen (UI) und Robotikanwendungen hat Magma auch seine Stärke bei Aufgaben wie visuellem Quiz und zeitlichem Denken unter Beweis gestellt. Vor allem im Test zum räumlichen Denken übertraf Magma sogar GPT-4o, das weithin als Benchmark in der Branche gilt. Microsoft räumte auch ein, dass die Bewertung des räumlichen Denkens für GPT-4o immer noch ein schwieriges Problem darstellt, aber Magma kann solche Probleme besser lösen, obwohl die Menge der Pre-Training-Daten weitaus geringer ist als die von GPT-4o. Man darf also auf die zukünftige Entwicklung von Magma gespannt sein.

Alles in allem ist die Veröffentlichung von Microsofts Magma-Modell zweifelsohne ein weiterer Meilenstein im Bereich der multimodalen KI. Mit seinen einzigartigen SoM- und ToM-Technologien sowie seinen exzellenten Null- und Wenig-Sample-Lernfähigkeiten wird Magma voraussichtlich den Weg für eine neue Generation von KI-Körpermodellen ebnen und eine neue technologische Revolution auf dem Gebiet der Benutzerschnittstellen-Interaktion, der Robotersteuerung und einer breiteren Palette von KI-Anwendungen auslösen.

Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " Microsoft Magma Model: Ein intelligenter KI-Körper, der sich um UI-Operationen und Robotersteuerungen kümmert
de_DEDeutsch