Microsoft 마그마 모델: UI 운영 및 로봇 제어를 처리하는 AI 인텔리전트 바디

48.7K 00

최근 마이크로소프트 리서치에서 주요 연구 성과인 멀티모달 AI 에이전트의 기본 모델인 마그마를 발표했습니다. 이 모델은 사람처럼 이미지를 '읽고' 언어를 '이해'할 뿐만 아니라 사용자 인터페이스(UI)를 직접 조작하고 로봇을 제어할 수 있는 멀티스킬 모델로 매우 인상적인 모델입니다. 마그마는 사람처럼 이미지를 '보고' 언어를 '이해할' 뿐만 아니라 사용자 인터페이스(UI)를 조작하고 손에서 직접 로봇을 제어할 수 있는 멀티 스킬 모델입니다. 이 획기적인 기술은 이미지를 정적으로만 이해할 수 있는 기존 시각 언어 모델의 한계를 극복하고 대화형 AI 애플리케이션의 새로운 지평을 열었습니다.

Microsoft에 따르면 마그마의 가장 큰 장점은 단 하나의 모델로 디지털 세계와 물리적 세계 모두에서 광범위한 대화형 작업을 처리할 수 있다는 점입니다. 더욱 놀라운 점은 마그마가 매우 다재다능하며 특정 도메인에 맞게 미세 조정할 필요 없이 기존의 전문화된 모델보다 뛰어난 성능을 발휘한다는 점입니다. 즉, 마그마는 범용 AI 인텔리전스의 초석이 되어 AI 애플리케이션 개발 및 배포 비용을 크게 절감할 수 있을 것으로 기대됩니다.

마그마의 비밀 소스: SoM 및 ToM 기술.

마그마 모델을 강력하게 만드는 비밀 병기는 바로 이 모델이 사용하는 두 가지 핵심 기술, 즉 세트 오브 마크(SoM)와 트레이스 오브 마크(ToM)입니다.

마크 설정(SoM)마그마의 인터랙티브 요소에 대한 이해는 '컬렉션 태그 지정' 기술을 중심으로 이루어집니다. 간단히 말해, 사용자 인터페이스(UI)의 버튼이나 실제 장면의 로봇 팔과 같이 조작할 수 있는 이미지 속 개체에 '태그'를 붙이는 것과 같습니다. 이렇게 하면 AI가 이미지의 인터랙티브 요소를 더 정확하게 인식하고 그에 따라 행동할 수 있습니다. 예를 들어, UI 조작 영역에서는 SoM 기술을 통해 Magma가 웹 페이지나 앱에서 클릭 가능한 버튼을 정확하게 식별하고 사용자 명령을 따라 온라인 쇼핑, 프로필 작성 등과 같은 복잡한 프로세스를 완료할 수 있습니다. 로봇 제어 분야에서는 SoM 기술을 통해 마그마가 환경을 감지하여 물체의 위치와 특성을 판단하고 로봇 팔을 정밀하게 제어하여 물체를 잡거나 이동하고 배치하는 등의 정밀한 작업을 안정적으로 수행할 수 있습니다.

마크 추적(ToM) 마크된 궤적 기술은 마그마가 시간적 움직임에 대해 학습할 수 있도록 하는 데 중점을 둡니다. 이 기술을 통해 AI는 이미지에 이동 궤적을 표시함으로써 타임라인에서 사물이 어떻게 변화하는지 더 깊이 이해할 수 있습니다. ToM 기술은 로봇 팔이 작업을 수행할 때 최적의 경로를 결정하거나 동영상 속 인물의 행동 패턴을 분석하여 다음 동작을 보다 정확하게 계획하는 등 마그마의 미래 행동을 예측할 수 있는 기능을 제공합니다. 기존의 프레임 단위 예측 방식에 비해 ToM 기술은 더 적은 토큰을 사용하여 더 긴 시간 범위의 변화를 포착하므로 동적인 장면에서 AI의 의사 결정 능력이 크게 향상되고 환경 소음으로 인한 간섭을 효과적으로 줄일 수 있습니다.

실제 마그마 성능: 여러 리뷰가 차트 상위권에 올랐습니다.

마그마의 강점을 검증하기 위해 연구원들은 몇 가지 엄격한 벤치마크 테스트를 실시했습니다. 그 결과 마그마는 모든 테스트에서 탁월한 성능을 보이며 기술 리더십을 입증했습니다.

사용자 인터페이스(UI) 조작 분야에서 마그마는 Mind2Web과 AITW 모두에서 매우 높은 정확도를 달성했습니다. 이는 복잡한 웹 페이지와 모바일 앱 인터페이스를 조작하고 웹 브라우징과 앱 조작과 같은 복잡한 작업까지 실제 사용자처럼 수행할 수 있는 Magma의 능력을 입증하는 강력한 증거입니다.

로봇 제어 측면에서 마그마는 기존 로봇 비전 언어 모델인 OpenVLA보다 WidowX와 LIBERO 테스트 모두에서 우수한 성능을 보였습니다. 테스트 결과 마그마는 소프트웨어 조작, 고체 물체 픽 앤 플레이스와 같은 복잡한 작업을 성공적으로 수행할 수 있으며 알려진 환경과 알려지지 않은 환경 모두에서 뛰어난 일반화 및 안정성을 보여주었습니다. 이는 마그마가 자동화 생산 라인, 지능형 물류, 홈 서비스 등과 같은 산업 및 서비스 로봇에 활용될 수 있는 잠재력을 가지고 있음을 의미합니다.

제로 & 적은 샘플 학습: 새로운 환경에 빠르게 적응하기

마그마의 또 다른 특징은 제로 및 소수 샘플 학습 기능이 뛰어나다는 점입니다. 이를 통해 마그마는 시간이 많이 걸리는 추가 미세 조정 없이 전에 없던 새로운 환경에 바로 적용할 수 있습니다. 테스트 데이터에 따르면 마그마는 사용자 인터페이스(UI) 작업과 로봇 작업 모두에서 제로 샘플로 전체 작업 흐름을 완료할 수 있는 것으로 나타났습니다. 이 기능은 도입 장벽을 낮춰 실제 시나리오에서 Magma를 더 빠르고 쉽게 구현할 수 있게 해줍니다.

마그마는 사용자 인터페이스(UI) 조작과 로보틱스 애플리케이션에서 뛰어난 성능을 보였을 뿐만 아니라 시각적 퀴즈와 시간적 추론과 같은 작업에서도 강점을 보여주었습니다. 특히 공간 추론 테스트에서 마그마는 업계 벤치마크로 널리 알려진 GPT-4o를 능가하는 성능을 보였는데요. 마이크로소프트 역시 공간 추론 평가가 GPT-4o에게는 여전히 어려운 문제이지만 마그마는 사전 학습 데이터의 양이 GPT-4o보다 훨씬 적음에도 불구하고 이러한 문제를 더 잘 해결할 수 있다고 인정했습니다. 앞으로 마그마의 발전이 더욱 기대되는 이유입니다.

전반적으로 마이크로소프트의 마그마 모델 출시는 의심할 여지 없이 멀티모달 AI 분야의 또 다른 획기적인 발전입니다. 고유한 SoM 및 ToM 기술과 뛰어난 제로 및 소수 샘플 학습 기능을 갖춘 마그마는 차세대 AI 인텔리전스 개발을 선도하고 사용자 인터페이스(UI) 상호 작용, 로봇 제어 및 광범위한 AI 애플리케이션 분야에서 새로운 기술 혁명을 일으킬 것으로 기대됩니다.