AI 模型的发展日趋多样化,除了大型语言模型、小型语言模型,被称为世界模拟器(world simulators)的「世界模型(world models)」,正被视为 AI 下一个重点发展方向之一。
2024 年,AI 先驱、计算机科学家李飞飞的空间智慧初创公司 World Labs,已完成两轮融资,目标是打造「大世界模型」,目前估值 10 亿美元;Google DeepMind 则挖角 OpenAI 的图像生成模型 Sora 的负责人之一,构建「世界模拟器」;OpenAI 也将 Sora 描述为世界模型。
让 AI 拥有对真实世界的理解
AI 世界模型受到人类心智模型的启发——人类大脑会从感官获取信息,从而形成对周围世界更具体的理解。
AI 研究者 David Ha 和 Jürgen Schmidhuber 在一篇论文中举例,棒球击球手之所以能打中时速 100 英里的快球,是因为他们可以「本能地」预测球的方向,而这一切是在潜意识中进行推理并发生的——他们的肌肉根据大脑模型的预测,在正确的时间和位置本能地挥棒。有观点认为,心智模型是人类智慧的先决条件。
作为一种 AI 系统,AI 世界模型也遵循相同路径。根据 AI 初创公司 runway,AI 世界模型能够针对外部环境构建内部提示,并依据这些提示模拟未来的环境事件;世界模型的目标是模拟出与真实世界完全一致的状况。
世界模型为何成为焦点?
事实上,世界模型的概念已经存在十几年,但 之所以渐受关注的原因之一是 AI 生成视频的兴起 。
《TechCrunch》观察到,目前大多数 AI 生成的视频内容仍存在恐怖谷现象,例如将四肢表现得扭曲或相互融合。此外,尽管生成式 AI 模型经过多年的图像训练,对于篮球弹跳方向等物理现象或许可以准确预测,但实际上并不知道篮球为何会弹跳。
相比之下,拥有 3D 世界认知的世界模型,可以更好地展现篮球弹跳的效果。为了让 AI 实现这种洞察力,世界模型需要接受一系列数据的训练,包括照片、音频、视频和文本。
世界模型的潜力不仅局限于生成视频。Meta 首席 AI 科学家杨立昆等研究人员表示, 世界模型未来可以用于数字和实体领域的复杂预测和规划 。World Labs 联合创始人 Justin Johnson 则表示,世界模型未来可以 根据游戏、虚拟摄影等需求生成虚拟的 3D 世界 。
对于开发者来说,借助强大的世界模型,不需要逐一定义每个物体的移动方式——这通常是枯燥、麻烦且浪费时间的任务。Snap 前 AI 主管、Higgsfield 执行长 Alex Mashrabov 向媒体表示,借助先进的世界模型,AI 能够对所处的任何场景产生自我理解,并开始推理可能的解决方案。
世界模型要跨越的 3 道高墙
尽管世界模型的概念诱人,但仍面临诸多技术挑战。杨立昆在 2024 年的一场演讲中坦言,要实现他心目中的世界模型,至少还需要 10 年时间。
根据外媒分析,世界模型所面临的障碍,也是目前 AI 模型发展的缩影。首先, 训练和运行世界模型需要大量的算力 ——仅被视为早期世界模型的 Sora,就需要数千个 GPU。
此外, 世界模型也会产生幻觉 ,并可能将偏差内化到训练数据中。例如,基于欧洲城市晴天视频训练的视觉模型,可能难以理解或表现下雪的韩国城市,甚至直接生成错误的内容。
为了解决这一问题, 世界模型的训练数据必须足够广泛,不仅需要涵盖各种不同场景,还必须非常具体,以便 AI 深入理解不同场景的细微差别 。然而,目前 AI 的发展也面临数据匮乏的危机。Epoch AI 预测,到 2026 年至 2032 年之间,开发人员将耗尽用于训练生成式 AI 模型的数据。
尽管如此,世界模型依然极具吸引力。Mashrabov 表示,如果障碍一一被克服,世界模型可以「更强有力地」连接 AI 与现实世界——不仅在生成虚拟世界上取得突破,还能在机器人和 AI 决策领域带来重大进展。
相关项目