AI '세계 모델'이란 무엇인가요? 페이페이 리, 구글, 오픈AI가 모두 여기에 투자하는 이유는 무엇인가요?

50.9K 00

AI 모델의 개발은 점점 더 다양해지고 있으며, 대규모 언어 모델과 소규모 언어 모델 외에도 월드 시뮬레이터라고 불리는 '월드 모델'이 AI의 차세대 핵심 발전 방향 중 하나로 꼽히고 있습니다.

2024년 AI 선구자이자 컴퓨터 과학자인 페이페이 리의 공간 지능 스타트업 월드 랩스(World Labs)는 '빅 월드 모델' 구축을 목표로 두 차례의 펀딩을 완료했으며 현재 기업가치는 10억 달러에 달하고, 구글 딥마인드는 오픈AI의 이미지 생성 모델을 빼돌렸다. Sora 월드 시뮬레이터를 개발한 사람 중 한 명인 OpenAI는 소라를 세계의 모델로 설명하기도 합니다.

什么是 AI「世界模型」？为什么李飞飞、Google、OpenAI 都纷纷投入？

월드 모델이란 정확히 무엇인가요? 왜 더 많은 관심을 받고 있나요?

AI에 현실 세계에 대한 이해 제공

AI 세계 모델은 인간의 두뇌가 감각으로부터 정보를 받아들여 주변 세계를 보다 구체적으로 이해하는 인간의 마음 모델에서 영감을 받았습니다.

AI 연구자인 데이비드 하와 위르겐 슈미트후버는 한 논문에서 야구 타자가 100마일 속구를 칠 수 있는 이유를 공의 방향을 '본능적으로' 예측할 수 있기 때문이며, 이는 무의식적으로 일어나는 추론과 근육의 작용이라고 설명합니다. 뇌 모델의 예측에 따라 적절한 시간과 장소에서 본능적으로 배트를 휘두르기 때문입니다. 멘탈 모델링은 인간의 지능을 위한 전제 조건이라는 주장이 제기되고 있습니다.

인공지능 시스템으로서 인공지능 세계 모델도 같은 경로를 따릅니다. AI 스타트업 런웨이에 따르면 AI 월드 모델은 외부 환경에 대한 내부 단서를 구성하고 이러한 단서를 기반으로 미래의 환경 이벤트를 시뮬레이션할 수 있으며, 월드 모델의 목표는 실제 세계와 똑같은 상황을 시뮬레이션하는 것입니다.

세계 모델이 주목받는 이유는 무엇인가요?

사실 월드 모델링의 개념은 10년 이상 전부터 존재해 왔지만 이러한 관심이 높아지는 이유 중 하나는 AI가 생성한 동영상의 등장입니다. .

테크크런치는 오늘날 대부분의 AI 생성 동영상 콘텐츠가 여전히 팔다리가 뒤틀리거나 서로 붙어 있는 것처럼 보이는 '공포의 계곡' 현상을 겪고 있다고 지적합니다. 또한, 생성형 AI 모델은 수년간의 이미지 학습에도 불구하고 농구공이 튀어 오르는 방향과 같은 물리적 현상을 정확하게 예측할 수 있지만 실제로는 왜 농구공이 튀어 오르는지 알지 못합니다.

반대로 3D 세계 인식 기능을 갖춘 월드 모델은 농구공의 바운스 효과를 더 잘 보여줄 수 있습니다. AI가 이러한 인사이트를 얻으려면 사진, 오디오, 비디오, 텍스트 등 다양한 데이터로 월드 모델을 학습시켜야 합니다.

월드 모델의 잠재력은 동영상 생성에만 국한되지 않습니다. 메타의 수석 AI 과학자 리쿤 양과 같은 연구자들은 다음과 같이 말합니다. 향후 디지털 및 물리적 영역 모두에서 복잡한 예측 및 계획에 세계 모델을 사용할 수 있습니다. 월드 랩의 공동 설립자인 저스틴 존슨은 다음과 같이 말했습니다. 게임, 가상 사진 등을 위한 가상 3D 세계를 생성합니다. .

개발자에게는 강력한 세계 모델이 있으면 지루하고 번거롭고 시간만 낭비하는 작업인 각 물체의 움직임을 하나하나 정의할 필요가 없습니다.Snap의 전 AI 책임자이자 Higgsfield의 CEO인 Alex Mashrabov는 언론과의 인터뷰에서 고급 세계 모델을 사용하면 다음과 같이 말했습니다. AI는 자신이 처한 모든 시나리오를 스스로 이해하고 가능한 해결책에 대한 추론을 시작할 수 있습니다.

월드 모델링을 위해 넘어야 할 3가지 벽

세계 모델의 개념은 매력적이지만, 아직 해결해야 할 기술적 과제가 많이 남아 있습니다. 리쿤 양은 2024년 강연에서 자신이 구상한 세계 모델을 실현하려면 적어도 10년은 더 걸릴 것이라고 인정했습니다.

외신 분석에 따르면, 세계 모델이 직면한 장애물은 현재 AI 모델 개발의 축소판이기도 합니다. 첫째. 월드 모델을 훈련하고 실행하려면 많은 연산 능력이 필요합니다. --초기 모델로 간주되는 소라에만 수천 개의 GPU가 필요합니다.

또한. 세계 모델도 환각을 일으킵니다. 를 사용하여 학습 데이터에 편견을 내재화할 수 있습니다. 예를 들어 유럽 도시의 화창한 날 영상을 기반으로 학습된 시각 모델이 눈 내리는 한국의 도시를 이해하거나 표현하는 데 어려움을 겪거나 심지어 잘못된 콘텐츠를 생성할 수도 있습니다.

이 문제를 해결하기 위해 월드 모델의 학습 데이터는 다양한 시나리오를 포괄할 수 있을 만큼 광범위해야 할 뿐만 아니라 AI가 다양한 시나리오의 뉘앙스를 이해할 수 있을 만큼 구체적이어야 합니다. 그러나 현재 AI 개발도 데이터 부족 위기에 직면해 있습니다. 그러나 현재 AI 개발도 데이터 부족 위기에 직면해 있으며, Epoch AI는 2026년부터 2032년 사이에 개발자가 생성형 AI 모델을 학습할 데이터가 부족해질 것으로 예측하고 있습니다.

그럼에도 불구하고 월드 모델은 여전히 매우 매력적이며, 마슈라보프는 장애물만 극복한다면 월드 모델이 가상 세계 생성뿐만 아니라 로봇 공학 및 AI 의사 결정 분야의 획기적인 발전을 통해 AI와 현실 세계를 "훨씬 더 강력하게" 연결할 수 있을 것이라고 말합니다.

Skybox AI: 360° 파노라마 이미지를 생성하여 가상 세계를 쉽게 제작할 수 있습니다.