首页 - 股票 - 个股掘金 - 正文

为什么卷积神经网络和Transformer架构不适用于物理AI

来源:证券之星资讯 2026-06-11 13:36:40

如果你现在打开手机,随便问一个大语言模型:“把一只玻璃杯推到桌子边缘,会发生什么?”它大概率会告诉你杯子会掉下去摔碎。

这个答案听起来很聪明,但真相是——它并不真的“知道”杯子为什么往下掉。它只是在训练数据里见过太多次“杯子”“掉落”“破碎”这几个词扎堆出现,然后根据概率统计,给出了最可能的那句话。这种“聪明的猜测”在文本世界里游刃有余,可一旦我们试图把AI塞进一台需要端盘子、叠衣服、走楼梯的机器人,情况就变得棘手了。

过去几年,卷积神经网络和Transformer架构称得上是人工智能领域最耀眼的明星。CNN统治了计算机视觉,Transformer把语言模型推到了前所未有的高度,两者联手几乎定义了当代AI的技术路线。但当聚光灯从屏幕转向现实世界,当AI必须离开数字沙盘、踏入物理环境与人真实交互时,一个令人不安的问题开始浮现:这两种我们无比依赖的架构,是不是根本就不适合用来做“物理AI”?

眼睛能看见,却不理解物体

先说说CNN。卷积神经网络的设计初衷是模拟人类视觉系统,它用一堆可学习的滤波器去扫描图像,提取边缘、纹理、形状等特征,然后层层抽象直到完成分类或识别。这套机制在ImageNet上打败了人类,在很多视觉任务上几乎成了默认方案。但问题恰恰出在它的设计哲学上——CNN本质上是在学习“像素与标签之间的统计关联”,而不是在理解“物体由什么构成”。

举一个很直观的例子。想象一下,一个小孩看到一辆被几棵盆栽挡住一半的汽车,即便他从没见过这种遮挡模式,也能毫不费力地判断出那是一辆车。为什么呢?因为他头脑里有一个“车由轮子、车身、车窗等部件组成”的认知框架,即使某个部件被挡住了,他也能用其他部件的线索来补全判断。然而标准的CNN可没这个本事。

它的判断基于整体像素模式,一旦遮挡模式稍微变化——比如挡的不是车身而是车灯——那些精心训练的卷积核就乱了阵脚。研究表明,传统的“黑箱式”深度卷积神经网络在处理部分遮挡时表现很不稳定,直到研究者引入更结构化的“物体部件组合”方法,把物体表示为一组空间可组合的部件,才显著提升了遮挡情况下的识别鲁棒性。

这个问题放在物理AI的语境下,就变得更加要命了。机器人走在路上,眼前随时可能出现堆叠的箱子、交错的管道、半开的门——全是动态的、部分遮挡的真实场景。如果它只能依赖CNN输出的“像素特征”去做决策,而缺乏对物体构成的内在理解,那么稍微一转身、光线一变化,原本“认识”的东西就可能认不出来了。

这还不是最麻烦的。更让人头疼的是CNN对纹理的强烈偏执——它更容易根据表面纹理来分类,而不是根据物体形状。这就好比一个人判定猫的方式不是看耳朵、瞳孔和胡须的整体结构,而是只看毛色——毛色相似的动物就当成猫,换了毛就不认识了。这种偏执,在变幻莫测的物理世界中,是致命的。

统计相关不等于因果推理

如果说CNN的盲区在于“看见了却不懂”,那么Transformer的问题更深刻——它天生就不是为了理解因果而设计的。

Transformer的核心武器是自注意力机制,它能一次性捕捉序列中任意两个位置之间的依赖关系。这在语言模型里简直是神器——一个词能和几千字外的另一个词建立关联,这对于理解语义、生成连贯文本来说至关重要。但请注意,“注意力”算出来的只是“统计相关性”——在训练数据里,“打雷”和“下雨”常常一起出现,所以它们之间的注意力权重很高,但模型并不知道是打雷导致了下雨,还是两者背后另有原因。用一句话来概括:Transformer是个顶级的“开普勒”,却永远成不了“牛顿”。

物理AI不需要这种只会死记硬背的“好学生”。一台在工厂里搬运零件的机器人,必须理解力学的基本规则:它推一个箱子,箱子的移动速度和方向取决于推力大小、摩擦系数、箱子质量。如果模型没有内化这些物理因果,只是根据视觉输入与动作输出的统计关联来做决策,那么一旦环境发生微小变化——比如地板从干燥变得湿滑,或者零件材质从金属换成了塑料——整个策略就全盘失效了。有研究者一针见血地指出,当前的具身大模型本质上是“记忆轨迹”而非“理解逻辑”,它们只能依赖视觉输入与动作的映射关系,环境中的任何微小变化都可能导致彻底失灵。

图灵奖得主姚期智院士在一次访谈中也直接点出了问题所在:如今具身智能最大的技术瓶颈之一,在于它们只会不断模仿人的行为,却缺乏可解释的世界模型和物理因果推理过程。从“模仿”走向“推理”,这恰恰是现有Transformer架构难以跨越的一道门槛,因为它的底层逻辑就是预测下一个token,而不是演绎逻辑或因果推断。

数据荒漠和能耗黑洞

就算我们暂时忽略架构层面的根本性局限,光看工程现实,CNN和Transformer在物理AI上也已经步履蹒跚了。数据就是第一个绕不过去的坎。

大语言模型之所以能成功,是因为互联网本身就是一座取之不尽的数据矿山——维基百科、新闻、论坛、论文、代码库……全是现成的、经过组织和标注的文本数据。训练一个GPT-4级别的模型需要消耗数亿美元,但这笔钱花得下去,因为数据就在那里。

可物理AI呢?机器人需要的数据来自真实世界中的每一次交互:每一次抓取、每一步行走、每一下推拉——每一帧数据背后都是真实的物理动作和对应的多模态传感反馈。这样的数据极难大规模采集:一台遥操作采集设备一年的使用周期内,单条高质量数据的成本折合仍高达3到5元,而全行业汇聚的高质量具身数据仅约50万小时,不足大语言模型训练数据的数万分之一。一个具备通用泛化能力的具身模型,至少需要千万小时级别的数据支撑——把这个缺口摆到账面上,谁都看得出问题的严重性。

就算数据问题解决了,算力成本同样不容乐观。Transformer的注意力机制有一个广为人知的弱点:计算复杂度与序列长度的平方成正比。在语言模型中,这个“O(n²)”的复杂度已经够让人头疼了,但在物理AI的场景里,传感器流是连续、高频、多模态的——视觉、触觉、惯性测量单元、关节角度……数据源源不断地涌入。如果在机器人本体上跑一个参数量动辄几十亿的Transformer模型来处理这么多维度的时序数据,功耗和延迟都能飙到一个难以接受的水平。有研究指出,全局注意力机制下每个token都要和所有其他token计算,这是平方级增长的复杂度,而对CNN来说最基础的相邻关系,在Transformer里都需要大量冗余计算。

需要反思,而非盲从

当然,说CNN和Transformer不适用于物理AI,并不意味着这些架构在物理AI中完全没有用武之地。CNN可以用来做感知端的多模态特征提取,Transformer可以用来做高层任务规划和语义理解。问题是,我们不能把一个本来设计用来处理离散序列或静态图像的架构,寄予“理解物理世界因果律”这种完全不匹配的厚望。

物理AI需要的是能够内嵌物理规律的模型——它应该天然懂得连续性、守恒律和因果链,而不是靠海量数据硬生生去拟合出这些规律的表面特征;它需要高效的时序推理能力,能够在有限的计算资源下完成实时的闭环控制;它需要从“模仿人的动作”升级为“理解物理的逻辑”,即学会“先想清楚再动手”,通过建模因果关系来提升泛化能力。

剑桥大学一位控制理论学者曾给过一个引人深思的比喻:用Transformer去学习物理规律,就像用钢琴弹一首小提琴奏鸣曲——声音可能接近,但弓弦之间那种复杂的物理耦合,是你永远弹不出来的。

APP下载
广告
下载证券之星
郑重声明:以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至jubao@stockstar.com,我们将安排核实处理。如该文标记为算法生成,算法公示请见 网信算备310104345710301240019号。
网站导航 | 公司简介 | 法律声明 | 诚聘英才 | 征稿启事 | 联系我们 | 广告服务 | 举报专区
欢迎访问证券之星!请点此与我们联系 版权所有: Copyright © 1996-