2026年,人工智能领域正在经历一场深刻的范式转移。当大语言模型将数字世界的文本处理能力推向极致之后,行业的共识已清晰指向下一个核心赛场——物理世界。
AI不再满足于屏幕内的对话与生成,它开始试图“触达实体世界”。英伟达CEO黄仁勋将这一浪潮称为“物理AI”,在他看来,世界模型正是实现物理AI的关键——能够帮助AI理解物理世界的规律,从而实现机器人、自动驾驶汽车等设备的自主操控。

(图片来源:浙商证券)
也正是因为世界模型潜在的能力和用途巨大,其目前离真正的可用尚有不少的距离和困境。
概念先于共识:当所有人都在说同一件事,说的其实不是同一件事
世界模型面临的第一重困境,恰恰是它最热闹的地方——概念本身。世界模型大概是2025年以来AI领域最热也最混乱的词汇。一个能生成火焰视频的模型、一个能凭空生成可玩游戏的语言模型、一个能精确模拟燃烧过程的物理引擎,现在都被叫作世界模型。智源研究院院长王仲远直言,不少视频生成模型、3D重建工具、多模态大模型都在纷纷贴上这个标签,行业对世界模型的定义、技术路线、评测标准始终没有形成共识。

(图片来源:浙商证券)
李飞飞在今年6月发表的长文中试图为这个混乱的局面建立一个分析框架。她把市面上的世界模型分为三类:渲染器只管“看起来像”,生成漂亮的像素和视频,但不保证物理和几何的正确性;模拟器追求结构上的精确,输出的不是画面而是几何数据、材质参数、碰撞网格这类信息;规划器则负责在感知和行动之间搭桥,让智能体在行动前能预判世界的变化。但这个分类本身也说明了问题——如果连“世界模型是什么”都需要用一整篇长文来
王仲远则从另一个角度切入了这个问题。他将当前的技术路线分为四类:以语言为中心的世界模型(如VLA)、以像素为中心的世界模型(如视频生成)、以三维结构为中心的世界模型(如3D重建)、以视觉表征为中心的世界模型(如JEPA系列)。每一类都自称世界模型,但每一类距离真正能理解、预测、交互真实物理世界的基座模型,都还有非常大的差距。这四类路线都在各自的方向上推进,但它们之间不存在一个清晰的优劣排序,更不存在一个公认的“正确方向”。
数据的天堑:真实世界的燃料从哪里来
如果说概念混乱是“不知道该往哪走”的问题,那么数据匮乏就是“想走也没路”的问题。训练一个能理解物理世界的模型,需要的数据和训练大语言模型的数据完全是两码事。大语言模型可以从互联网上抓取几乎无限的文本——网页、书籍、论文、论坛帖子,文本数据几乎是免费的。但物理世界的数据呢?一个杯子从桌边掉下来会碎,人类看一眼就懂,但要让AI学会这个因果关系,需要的是带有精确几何、物理标注、动作标签的多模态交互数据。这种数据比互联网视频稀缺好几个数量级。
更麻烦的是,即便有了数据,也不一定是对的数据。王仲远坦言,真实物理世界的多模态交互数据极度匮乏,不同技术路线对数据的需求也各不相同。以具身智能为例,机器人在流水线上可以完成特定的任务,但不具备泛化性和通用性——原因就在于缺乏对世界常识、物理规律的通用理解。目前世界模型的成功应用仍然局限于自动驾驶或电子游戏等特定领域,而这些领域的数据规模和多样性,远远不足以支撑一个通用世界模型。
合成数据一度被视为解药。用物理仿真引擎和游戏引擎生成大量虚拟数据,成本远低于采集真实数据。但这条路也有自己的陷阱。各种物理仿真工具虽然可以对世界进行模拟,但因为人类掌握的真实物理知识、引擎规则和算法还不够完备,仿真始终无法达到100%的真实。仿真环境里物体的运动规律跟真实世界之间一直存在差距——这就是业内常说的仿真到现实的鸿沟。AI生成的几何体可能看起来没问题,但暗藏着面重叠、尺寸不对等缺陷,一旦送进物理引擎计算,结果就会变得荒谬。用有缺陷的数据训练模型,模型学到的也只能是有缺陷的世界。
架构的迷思:视频生成、三维重建还是潜空间预测
在数据和概念之外,还有一个更深层的问题:即便有了正确的数据、清晰的定义,我们也不知道该用什么架构去构建这个世界模型。这不仅是技术选择的问题,而是整个领域在根本假设上的分歧。
目前代表性的技术路线,如以谷歌的Genie3为代表的世界模拟器路线,创造出一个像电子游戏般、能根据用户输入实时演进的交互式视频环境。比如你一声令下让它“下雨”,整个世界就会动态响应。它的优点在于画面和用户是双向奔赴的,支持长时间的连贯探索。但说到底,其内核还是基于视频生成的逻辑,并没真正掌握背后的物理因果
又如李飞飞World Labs团队——以三维结构为中心,可以称之为空间路线。他们的Marble模型能生成持久的、可下载的3D环境,用户只需一句提示就能生成一个可导出的3D世界。但批评者指出,Marble看起来更像是一个3D渲染流水线,而不是机器人的大脑。它捕捉的是表面是什么样子,并没有内置这个世界为什么会这样运”的物理规律。对于人类来说,看到一个放在斜坡上的球就知道它会滚下来;但机器人想做出同样的判断,还需要质量、摩擦、速度这些信息。
还有则是认知路线,以杨立昆主导的JEPA架构为代表。它的核心思想是预测下一个表征,而非预测下一个数据。模型没必要浪费算力去生成像素,只需专注于捕捉那些能用于AI决策的世界状态。这种路线在理论上更接近认知科学中“心智模型”的概念——大脑并不存储世界的每一个像素,而是存储一个抽象的内部表征,用来推理和预测。但这条路也远未成熟,从抽象表征到实际行动之间还有漫长的工程鸿沟。
世界模型离大规模应用还有多远
世界模型离世界有多远?这个问题没有一个简单的数字答案。从概念的层面看,它离世界还隔着一层“定义之雾”——当所有人都在用同一个词说不同的事,共识本身就遥不可及。从数据的层面看,它离世界还隔着一片“数据之海”——真实物理世界的交互数据稀缺到让最乐观的研究者也感到焦虑。从架构的层面看,它离世界还隔着一道范式之墙——视频生成、三维重建、潜空间预测,每条路都有各自的理论支撑,也都有各自的致命短板。
智源研究院的判断是,至少未来三到五年,都会是世界模型持续演进迭代的阶段。这个判断既乐观又克制——乐观在于它相信方向是对的,克制在于它承认时间不会太短。王仲远把世界模型比作深度学习的2012年前后——彼时,数据孤岛严重、路线未定、基准还在打架,ChatGPT时刻尚未到来。
但世界模型面临的挑战,可能比当年的深度学习更深层。深度学习处理的是模式识别——从数据中找出统计规律。世界模型要处理的是因果推理——理解为什么物体会这样运动、为什么事件会这样发生。这两种能力之间,隔着的可能不是几年的技术迭代,而是某种根本性的认知范式转换。
而从长远的视角看我们不必执着于世界模型这个标签,也不必执着于某一条特定的技术路线。真正重要的是,我们能否让AI从“看起来像世界”走向“理解世界”,从像素级的模拟走向因果级的推理。
相关新闻:
