AI“内卷”到头?LeCun、李飞飞、谢赛宁联手发问:超级智能,始于超感知

我们正处在一个被大语言模型(LLM)“刷屏”的时代。从GPT到Gemini,参数竞赛、上下文窗口的无限拉长、跑分榜上的数字狂欢,似乎成了AI发展的唯一叙事。我们惊叹于AI“看图说话”的能力,惊叹于它能写诗、能编程。

但我们内心深处,或许都藏着一个疑问:这,就是通往AGI(通用人工智能)的正确道路吗?

当Yann LeCun、李飞飞和谢赛宁这三位AI领域的泰斗级人物,罕见地联手发表一篇论文时,整个行业都该停下来,认真聆听。

这篇名为「寒武纪-S:迈向视频中的空间超感知」的论文,与其说是一个新模型,不如说是一篇檄文,一记重拳,它瞄准的,正是当前LLM范式最根本的缺陷。

莫拉维克悖论的“幽灵”:AI为何“看”不懂世界?

这篇论文的核心,是一个振聋发聩的观点:超级智能,始于超感知。

什么是超感知?它不是指更清晰的摄像头,而是指智能体真正“体验”世界的能力——像人类一样,吸收源源不断的感官输入,并在内部构建一个关于世界的“模型”。

我们不妨审视一下当下的AI。

我们惊叹GPT-4能“看图说话”,但那真的是“理解”吗?论文的作者们犀利地指出,目前的多模态模型,大多仍停留在“语义感知”阶段。你给它一张图,它告诉你“一只猫在垫子上”。这很棒,但这只是在解析像素和物体的关系

如果你给它看一段10分钟的第一人称视频,让它“持续数出所有房间里有多少把椅子”,或者“回忆你依次在哪些房间看到了泰迪熊”,AI会立刻崩溃。

这就是“莫拉维克悖论”的当代显现:对人类(甚至一只猫、一只松鼠)来说毫不费力的感知能力,对最顶尖的AI模型来说却难如登天。

LeCun、李飞飞和谢赛宁团队认为,问题出在范式上。我们一直在“强迫”一个基于文本符号训练出来的LLM去“感知”世界,这无异于缘木求鱼。

一场““精心设计”的“失败”:VSI-Super基准的启示

为了证明这一点,团队做了一件“冒犯”行业的事:他们构建了一个全新的基准VSI-Super。

这个基准的任务听起来简单得可笑:

  1. 长时空间记忆(VSR):看一段长达几小时的视频,记住插入的“异常物体”出现的顺序和位置。
  2. 持续空间计数(VSC):在不断变化的视角和场景中,持续统计物体的总数。

结果如何?顶尖的Gemini 2.5模型,在60分钟的视频上准确率就已惨不忍睹,超过120分钟更是直接“内存溢出”。在计数任务上,当物体增多时,模型的预测值会“饱和”,停在一个小数字上不再更新——这暴露了它根本没有“计数”的概念,只是在背诵训练数据里的“分布”。

更有意思的是,团队紧接着用专门构建的VSI-590K空间数据集,训练了寒武纪-S模型。这个模型在老的空间基准(VSI-Bench)上取得了SOTA(最好)成绩。

但关键来了: 这个“空间特长生”寒武纪-S,在新的VSI-Super基准上,同样惨败

这场“精心设计的失败”有力地证明了:问题不在于数据不够多、模型不够大、上下文不够长。问题在于,LLM这套“老路”,根本走不通“超感知”这条新路。

大脑的““惊异度”:AI真正该学的是什么?

那么,出路何在?

三位大佬给出的答案,极富远见,甚至带有一丝哲思:预测性感知

他们将目光投向了认知科学——人脑是如何工作的?

人眼每秒接收的数据量高达Gbit/s,但大脑最终指导行为的信息仅有约10 bits/s。这中间发生了什么?

答案是:过滤和预测

你的大脑在后台持续运行着一个“世界模型”。它不断地预测“下一秒会发生什么”。

  • 如果预测对了(比如你走路时,地面纹理的正常后退),大脑就判定“一切正常”,直接压缩或忽略这些信息。
  • 如果预测错了(比如地上突然出现一个洞),预测误差(“惊异度”)就会飙升。大脑立刻拉响警报:“注意!有新情况!”——这才会触发你的注意力,并更新你的记忆。

我们不是在“看”世界,我们是在用“预测”来“过滤”世界。

寒武纪-S团队在模型之上,训练了一个“潜在帧预测(LFP)”模块,来模拟这个“惊异度”。

  • “惊异度”低的帧(无聊的、符合预期的),就压缩内存;
  • “惊异度”高的帧(意外的、场景切换),就集中计算资源,并将其作为事件边界。

结果是颠覆性的:仅仅依靠这个“惊异度”机制,一个小模型,就在VSI-Super这个“变态”基准上,超越了体量庞大的Gemini。

结语:跳出““内卷””,AI需要真正的“世界观”

「寒武纪-S」的登场,其意义远不止于一个新模型或一个新基准。

它是一次对当前AI发展范式的集体反思。LeCun(LLM批评者)和李飞飞(世界模型布道者)的联手,本身就是一种强烈的信号:AI的未来,不能只靠“大力出奇迹”的Scaling Law。

当下的AI“内卷”,正把我们引向一个“感知能力落后于松鼠”的窘境。我们不需要一个能记住100万个Token、却搞不清“东西在谁左边”的AI。

真正的价值,来自于那些能在现实世界中感知和行动的模型——从工厂的机器人,到医院的手术刀,再到我们每个人都期待的AI眼镜和个人助理。而这一切,都依赖于对物理空间、对因果、对“世界如何运行”的深刻理解。

「寒武纪-S」撕开了一个口子,让我们得以窥见AGI的另一种可能:AI必须构建自己的“世界观”

这很难,但这很可能是唯一的出路。正如谢赛宁所说:“我不敢说我们的方法就是正确的道路——但我确信,当前的范式是远远不够的。”

超级智能,始于超感知。这场关于“感知”的革命,才刚刚开始。