Yann LeCun谈大模型未来路径：多模态预训练是关键_AI热点日报

Yann LeCun谈大模型未来路径：多模态预训练是关键

类型：热点整理2026-03-09

机器之心编辑部基础模型时代，大模型能力的爆发，很大程度上源于在海量文本上的预训练。然而问题在于，文本本质上只是人类对现实世界的一种抽象表达，是对真实世界信息的有损压缩。借用柏拉图《洞穴寓言》的比喻：

机器之心编辑部

在基础模型时代，大模型各项能力的爆发式增长，很大程度上得益于海量文本的预训练。但问题在于，文本本质只是人类对现实世界的一种抽象表达，是对真实世界信息的有损压缩。

借柏拉图《洞穴寓言》的比喻来说：语言模型早已非常擅长描述洞穴墙壁上的影子，却从未真正看到过投射这些影子的实体。它们能够很好地捕捉符号，却难以理解物理世界中高保真的物理规律、几何结构以及因果关系。

除了这种哲学层面的局限，还面临一个更现实的天花板：高质量的文本数据是有限的，并且正逐渐接近枯竭。

相比之下，视觉世界拥有近乎无限的信号来源。那些洞穴之外的信息，记录着现实世界最原始的动态变化，而这些恰恰是语言所无法完整表达的。

因此，未来的发展路径需要走出“影子世界”，直接去建模现实本身。

为此，来自Meta与纽约大学的研究者们转向了统一的多模态预训练：不再将视觉信号视作一种辅助输入，而是将其与语言一样，视为模型中的一等公民。

论文标题：Beyond Language Modeling: An Exploration of Multimodal Pretraining

来源：https://www.163.com/dy/article/KNJ00CH50511AQHO.html

模态预训练编码器谢赛宁新论文

补充最近整理过的热点入口。