什么是 AI「世界模型」？为什么李飞飞、Google、OpenAI 都纷纷投入？

50.8K 00

AI 模型的发展日趋多样化，除了大型语言模型、小型语言模型，被称为世界模拟器（world simulators）的「世界模型（world models）」，正被视为 AI 下一个重点发展方向之一。

2024 年，AI 先驱、计算机科学家李飞飞的空间智慧初创公司 World Labs，已完成两轮融资，目标是打造「大世界模型」，目前估值 10 亿美元；Google DeepMind 则挖角 OpenAI 的图像生成模型 Sora 的负责人之一，构建「世界模拟器」；OpenAI 也将 Sora 描述为世界模型。

什么是 AI「世界模型」？为什么李飞飞、Google、OpenAI 都纷纷投入？

究竟什么是世界模型？为什么它越来越受到关注？

让 AI 拥有对真实世界的理解

AI 世界模型受到人类心智模型的启发——人类大脑会从感官获取信息，从而形成对周围世界更具体的理解。

AI 研究者 David Ha 和 Jürgen Schmidhuber 在一篇论文中举例，棒球击球手之所以能打中时速 100 英里的快球，是因为他们可以「本能地」预测球的方向，而这一切是在潜意识中进行推理并发生的——他们的肌肉根据大脑模型的预测，在正确的时间和位置本能地挥棒。有观点认为，心智模型是人类智慧的先决条件。

作为一种 AI 系统，AI 世界模型也遵循相同路径。根据 AI 初创公司 runway，AI 世界模型能够针对外部环境构建内部提示，并依据这些提示模拟未来的环境事件；世界模型的目标是模拟出与真实世界完全一致的状况。

世界模型为何成为焦点？

事实上，世界模型的概念已经存在十几年，但 之所以渐受关注的原因之一是 AI 生成视频的兴起 。

《TechCrunch》观察到，目前大多数 AI 生成的视频内容仍存在恐怖谷现象，例如将四肢表现得扭曲或相互融合。此外，尽管生成式 AI 模型经过多年的图像训练，对于篮球弹跳方向等物理现象或许可以准确预测，但实际上并不知道篮球为何会弹跳。

相比之下，拥有 3D 世界认知的世界模型，可以更好地展现篮球弹跳的效果。为了让 AI 实现这种洞察力，世界模型需要接受一系列数据的训练，包括照片、音频、视频和文本。

世界模型的潜力不仅局限于生成视频。Meta 首席 AI 科学家杨立昆等研究人员表示， 世界模型未来可以用于数字和实体领域的复杂预测和规划 。World Labs 联合创始人 Justin Johnson 则表示，世界模型未来可以 根据游戏、虚拟摄影等需求生成虚拟的 3D 世界 。

对于开发者来说，借助强大的世界模型，不需要逐一定义每个物体的移动方式——这通常是枯燥、麻烦且浪费时间的任务。Snap 前 AI 主管、Higgsfield 执行长 Alex Mashrabov 向媒体表示，借助先进的世界模型，AI 能够对所处的任何场景产生自我理解，并开始推理可能的解决方案。

世界模型要跨越的 3 道高墙

尽管世界模型的概念诱人，但仍面临诸多技术挑战。杨立昆在 2024 年的一场演讲中坦言，要实现他心目中的世界模型，至少还需要 10 年时间。

根据外媒分析，世界模型所面临的障碍，也是目前 AI 模型发展的缩影。首先， 训练和运行世界模型需要大量的算力 ——仅被视为早期世界模型的 Sora，就需要数千个 GPU。

此外， 世界模型也会产生幻觉 ，并可能将偏差内化到训练数据中。例如，基于欧洲城市晴天视频训练的视觉模型，可能难以理解或表现下雪的韩国城市，甚至直接生成错误的内容。

为了解决这一问题， 世界模型的训练数据必须足够广泛，不仅需要涵盖各种不同场景，还必须非常具体，以便 AI 深入理解不同场景的细微差别 。然而，目前 AI 的发展也面临数据匮乏的危机。Epoch AI 预测，到 2026 年至 2032 年之间，开发人员将耗尽用于训练生成式 AI 模型的数据。

尽管如此，世界模型依然极具吸引力。Mashrabov 表示，如果障碍一一被克服，世界模型可以「更强有力地」连接 AI 与现实世界——不仅在生成虚拟世界上取得突破，还能在机器人和 AI 决策领域带来重大进展。

相关项目

World Labs：一张图片构建3D世界模型，申请“空间智能”模型内测资格

Skybox AI：生成360°全景图像，轻松创建虚拟世界