Модель Microsoft Magma: интеллектуальный корпус с искусственным интеллектом, который позаботится об операциях пользовательского интерфейса и управлении роботами

Недавно Microsoft Research выпустила крупное научное достижение - Magma, базовую модель мультимодальных ИИ-агентов, которая не только "читает" изображения и "понимает" язык, как человек, но и может напрямую управлять пользовательскими интерфейсами (UI) и управлять роботами, что очень впечатляет. Magma - это многофункциональная модель, которая не только "видит" изображения и "понимает" язык, как человек, но и может управлять пользовательскими интерфейсами (UI) и управлять роботами прямо с руки. Этот прорыв разрушает ограничения предыдущих моделей визуального языка, которые могли понимать изображения только статически, и открывает новые горизонты для интерактивных приложений ИИ.
По словам представителей Microsoft, самое лучшее в Magma - это то, что она может решать широкий спектр интерактивных задач как в цифровом, так и в физическом мире с помощью всего одной модели. Что еще более удивительно, так это то, что Magma очень универсальна и не нуждается в тонкой настройке под конкретную область, чтобы продемонстрировать превосходство над существующими специализированными моделями. Это означает, что Magma станет краеугольным камнем интеллектуального ИИ общего назначения, значительно снизив стоимость разработки и развертывания приложений ИИ.
Секретный соус Magma: технологии SoM и ToM.
Секретное оружие, которое делает модель Magma такой мощной, - это две основные технологии, используемые в ней: Set-of-Mark (SoM) и Trace-of-Mark (ToM).
Набор знаков (SoM)В основе понимания интерактивных элементов в Magma лежит техника "коллекций меток". Проще говоря, это похоже на "пометку" объектов на изображении, которыми можно манипулировать, например кнопок на пользовательском интерфейсе (UI) или роботизированной руки в реальной сцене. Таким образом, ИИ может более точно распознавать интерактивные элементы на изображении и действовать соответствующим образом. Например, в области манипулирования пользовательским интерфейсом технология SoM позволяет Magma точно определять кнопки на веб-странице или в APP и выполнять команды пользователя для завершения сложных процессов, таких как онлайн-покупки, заполнение информации и так далее. В области управления роботами технология SoM наделяет Magma способностью чувствовать окружающую среду, позволяя ей определять положение и характеристики объектов, а затем точно управлять роботизированной рукой для стабильного выполнения тонких операций, таких как захват, перемещение и размещение объектов.
След марки (ToM) Технология "Отмеченные траектории" направлена на то, чтобы Magma могла изучать временные перемещения. Эта технология позволяет ИИ глубже понять, как объекты меняются на временной шкале, отмечая траектории движения на изображении. Технология ToM дает Magma возможность предсказывать будущие действия, например, определять наилучший путь для роботизированной руки при выполнении задачи или анализировать поведенческие модели персонажа на видео, чтобы более точно спланировать его следующий шаг. По сравнению с традиционными методами покадрового прогнозирования, технология ToM использует меньшее количество Token для фиксации изменений в более длительных временных диапазонах, что значительно повышает способность ИИ принимать решения в динамичных сценах и эффективно снижает помехи от окружающего шума.
Производительность Magma в действии: многочисленные отзывы возглавляют хит-парад
Чтобы подтвердить преимущества Magma, исследователи провели несколько строгих эталонных тестов. Результаты показали, что Magma превзошла и превзошла все тесты, доказав свое технологическое лидерство.
В области манипулирования пользовательским интерфейсом (UI) Magma достигла очень высоких показателей точности как в Mind2Web, так и в AITW. Это убедительное доказательство способности Magma манипулировать сложными веб-страницами и интерфейсами мобильных приложений, даже выполняя такие сложные задачи, как просмотр веб-страниц и работа с приложениями, как если бы это был реальный пользователь.
С точки зрения управления роботами Magma превосходит существующую модель языка видения роботов OpenVLA в тестах WidowX и LIBERO. Результаты тестов показывают, что Magma способна успешно выполнять сложные задачи, такие как программное манипулирование и подбор и размещение твердых объектов, и демонстрирует отличную обобщенность и стабильность как в известном, так и в неизвестном окружении. Это означает, что Magma имеет потенциал для использования в промышленных и сервисных роботах, таких как автоматизированные производственные линии, интеллектуальная логистика, домашние сервисы и многое другое.
Нулевое и пробное обучение: быстрая адаптация к новым условиям
Еще одна изюминка Magma - отличная способность к обучению на нулевых и малых выборках. Это позволяет применять Magma непосредственно к новым, ранее не встречавшимся средам без дополнительных затрат времени на тонкую настройку. Данные тестирования показали, что Magma может выполнить полный поток задач с нулевыми выборками как в операциях с пользовательским интерфейсом (UI), так и в задачах робототехники. Эта особенность снижает барьеры для внедрения, делая Magma более быстрой и простой в реализации в реальных сценариях.
Помимо выдающихся результатов в работе с пользовательским интерфейсом (UI) и робототехническими приложениями, Magma также продемонстрировала свои сильные стороны в таких задачах, как визуальный опрос и временные рассуждения. В частности, в тесте на пространственные рассуждения Magma даже превзошла GPT-4o, который считается эталоном в отрасли. Microsoft также признала, что оценка пространственных рассуждений по-прежнему является сложной задачей для GPT-4o, но Magma может лучше решать такие задачи, несмотря на то, что объем данных предварительного обучения намного меньше, чем у GPT-4o. Это заставляет с нетерпением ждать дальнейшего развития Magma.
В целом, выпуск модели Magma от Microsoft, несомненно, является еще одним важным прорывом в области мультимодального ИИ. Благодаря уникальным технологиям SoM и ToM, а также превосходным возможностям обучения на нулевых и малых выборках, модель Magma должна стать лидером в разработке нового поколения искусственных интеллектов и произвести новую технологическую революцию в области взаимодействия с пользовательским интерфейсом (UI), управления робототехникой и широкого спектра приложений для ИИ.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...