Modelo Magma de Microsoft: un cuerpo inteligente con IA que se encarga de las operaciones de interfaz de usuario y los controles robóticos

Recientemente, Microsoft Research dio a conocer un importante logro de investigación: Magma, un modelo básico de agentes de IA multimodal. Se trata de un modelo con múltiples habilidades que no sólo "lee" imágenes y "entiende" el lenguaje como un humano, sino que también puede manejar directamente interfaces de usuario (UI) y controlar robots, lo cual es muy impresionante. Magma es un modelo polivalente que no sólo "ve" imágenes y "entiende" el lenguaje como un ser humano, sino que también puede manejar interfaces de usuario (UI) y controlar robots directamente con la mano. Este avance rompe las limitaciones de los anteriores modelos de lenguaje visual, que sólo pueden entender imágenes de forma estática, y abre nuevos horizontes a las aplicaciones interactivas de la IA.
Lo mejor de Magma, según Microsoft, es que puede manejar una amplia gama de tareas interactivas tanto en el mundo digital como en el físico con un solo modelo. Lo más sorprendente es que Magma también es muy versátil y no necesita ser ajustado a un dominio específico para demostrar un rendimiento superior al de los modelos especializados existentes. Esto significa que se espera que Magma sea la piedra angular de una inteligencia artificial de propósito general, reduciendo significativamente el coste de desarrollo e implantación de aplicaciones de IA.
La salsa secreta de Magma: las tecnologías SoM y ToM.
El arma secreta que hace que el modelo Magma sea tan potente son las dos tecnologías básicas que emplea: Set-of-Mark (SoM) y Trace-of-Mark (ToM).
Set-of-Mark (SoM)La forma en que Magma entiende los elementos interactivos se centra en la técnica de "etiquetado de colecciones". En pocas palabras, se trata de "etiquetar" los objetos de una imagen que pueden manipularse, como los botones de una interfaz de usuario (IU) o un brazo robótico en una escena de la vida real. De este modo, la IA puede reconocer con mayor precisión los elementos interactivos de la imagen y actuar en consecuencia. Por ejemplo, en el ámbito de la manipulación de la interfaz de usuario, la tecnología SoM permite a Magma identificar con precisión los botones en los que se puede hacer clic en una página web o una aplicación, y seguir las órdenes del usuario para completar procesos complejos, como compras en línea, cumplimentación de información, etc. En el campo del control robótico, la tecnología SoM proporciona a Magma la capacidad de percibir el entorno, lo que le permite juzgar la posición y las características de los objetos y, a continuación, controlar con precisión el brazo robótico para realizar de forma estable operaciones finas como agarrar, mover y colocar objetos.
Rastro de la marca (ToM) La tecnología, Marked Trajectories, se centra en permitir que Magma aprenda sobre movimientos temporales. Esta tecnología permite a la IA comprender mejor cómo cambian los objetos en la línea de tiempo etiquetando las trayectorias de movimiento en una imagen. La tecnología ToM permite a Magma predecir acciones futuras, por ejemplo, determinando la mejor trayectoria que debe seguir un brazo robótico al realizar una tarea, o analizando los patrones de comportamiento de un personaje en un vídeo para planificar con mayor precisión su próximo movimiento. En comparación con los métodos tradicionales de predicción fotograma a fotograma, la tecnología ToM utiliza menos tokens para captar los cambios en intervalos de tiempo más largos, lo que mejora notablemente la capacidad de decisión de la IA en escenas dinámicas y reduce eficazmente las interferencias del ruido ambiental.
El rendimiento de Magma en acción: las múltiples críticas encabezan las listas de éxitos
Para validar los puntos fuertes de Magma, los investigadores realizaron varias pruebas comparativas rigurosas. Los resultados mostraron que Magma sobresalió y superó en todas las pruebas, demostrando su liderazgo tecnológico.
En el campo de la manipulación de interfaces de usuario (UI), Magma ha logrado índices de precisión muy elevados tanto en Mind2Web como en AITW. Esto es una prueba fehaciente de la capacidad de Magma para manipular páginas web complejas e interfaces de aplicaciones móviles, incluso realizando tareas complejas como la navegación web y la manipulación de aplicaciones como si se tratara de un usuario real.
En términos de control robótico, Magma supera al modelo de lenguaje de visión robótica OpenVLA existente en las pruebas WidowX y LIBERO. Los resultados de las pruebas muestran que Magma es capaz de realizar con éxito tareas complejas como la manipulación de software y el pick-and-place de objetos sólidos, y demuestra una excelente generalización y estabilidad tanto en entornos conocidos como desconocidos. Esto significa que Magma tiene potencial para utilizarse en robots industriales y de servicios, como líneas de producción automatizadas, logística inteligente y servicios a domicilio, entre otros.
Cero y menos aprendizaje por muestreo: adaptarse rápidamente a nuevos entornos
Otro aspecto destacado de Magma es su excelente capacidad de aprendizaje de cero y pocas muestras. Esto permite que Magma se aplique directamente a entornos nuevos, nunca antes vistos, sin necesidad de una puesta a punto adicional que requiere mucho tiempo. Los datos de las pruebas han demostrado que Magma puede completar un flujo de tareas completo con cero muestras, tanto en operaciones de interfaz de usuario (UI) como en tareas de robótica. Esta característica reduce las barreras de adopción, lo que hace que Magma sea más rápido y fácil de implementar en escenarios del mundo real.
Además de su excelente rendimiento en el manejo de interfaces de usuario (UI) y aplicaciones robóticas, Magma también ha demostrado su fortaleza en tareas como el cuestionario visual y el razonamiento temporal. Especialmente en la prueba de razonamiento espacial, Magma superó incluso a GPT-4o, ampliamente considerado como la referencia del sector. Microsoft también admitió que la evaluación del razonamiento espacial sigue siendo un problema muy difícil para GPT-4o, pero Magma puede resolver mejor este tipo de problemas a pesar de que la cantidad de datos de preentrenamiento es muy inferior a la de GPT-4o. Esto hace que uno espere con impaciencia el futuro desarrollo de Magma.
En definitiva, el lanzamiento del modelo Magma de Microsoft es sin duda otro hito en el campo de la IA multimodal. Gracias a sus exclusivas tecnologías SoM y ToM, así como a su excelente capacidad de aprendizaje de cero y pocas muestras, se espera que Magma lidere el desarrollo de una nueva generación de inteligencias de IA y cree una nueva revolución tecnológica en el campo de las interacciones de interfaz de usuario (UI), el control robótico y una gama más amplia de aplicaciones de IA.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...