LeCun最新研究成果证明世界本质符合高斯分布

时间：2026-06-11 17:03

LeCun团队证明LeJEPA在潜变量服从高斯分布时，能通过SIGReg正则项实现线性可识别性，表示空间与真实结构仅差一个正交变换。机器人控制实验显示，高斯采样训练出的模型在目标导向任务中规划效果与理想情况无统计差异，高斯分布是该理论成立的唯一条件。

LeCun提出的LeJEPA究竟是否成功构建了世界模型？他本人最新发表的论文给出了明确答案。

答案是肯定的，但需要满足一个条件：世界的底层潜变量必须服从高斯分布。

该论文提供了一套完整的数学证明，涵盖了精确成立的条件以及在近似情况下误差的退化规律。

此外，LeCun团队通过机器人手臂控制实验进行了验证——在目标导向的控制任务中，使用高斯采样训练出的模型，其规划效果与已知真实状态的理想情况在统计上无显著差异。

这为LeCun多年来押注的JEPA技术路线终于提供了坚实的理论依据。

如何判断模型是否真正学习了世界结构？

判断机器学习模型的内部表示是否与真实世界的结构相匹配，关键在于它能否还原世界中的真实变量。

一个模型在训练集上表现出色，并不代表它真正理解了世界——它可能只是将图像的纹理、光照、背景等无关信息混杂在一起，恰好拼凑出正确答案。一旦场景发生变化，这种表示就会失效。

真正有效的表示应当对应世界的真实自由度，例如物体的位置、速度、颜色等独立的内在变量，而不是经过观测过程扭曲后的混合产物。

问题在于，对这些变量的观测本身便是一道屏障。我们看到的图像、传感器读数，都是世界真实状态经过复杂非线性变换后的结果。这个变换可能极为复杂，大量结构信息在此过程中被混淆、叠加。从这样的观测出发反向推导真实结构，在数学上通常无法保证，这恰恰是表示学习长期面临的核心难题。

对比学习、VICReg、BYOL等自监督学习方法都绕开了这一核心问题。它们的共同特点是：对模型输出的嵌入分布没有明确约束，只是通过各种技巧防止表示退化为常数。至于嵌入分布的形状和性质，这些方法并不关心。因此，要从理论上分析这些方法学到的表示是否还原了真实结构，缺乏足够的数学工具。

LeJEPA的设计在此选择了一条不同的路径。它通过一个名为SIGReg的正则项，将模型输出的嵌入分布显式约束为各向同性高斯分布。这一约束赋予嵌入空间明确的几何结构，正是这种结构使得严格的理论分析成为可能。

选择高斯分布的前提是论文对世界的潜变量做了一个假设——它们服从高斯分布。这一选择基于两个理由：高斯分布是给定均值和方差条件下熵最大的分布，意味着它对潜变量的结构做出了最少的额外假设，是一个尽可能保守的起点；同时，任务相关的潜变量往往是大量微观变量聚合的结果，根据中心极限定理，这类聚合变量天然趋向高斯分布。

高斯分布：有效且唯一的答案

在LeCun的论文中，判断LeJEPA的表示是否还原了世界真实结构的标准称为线性可识别性。即，如果学到的表示与真实潜变量之间存在线性对应关系，则认为模型还原了世界的真实结构。但这个标准门槛不低——它要求表示空间中的每一个维度都对应真实世界中某个独立的变量。用数学语言表述，就是存在一个矩阵Q，使得真实潜变量经过Q的线性变换后，恰好等于模型输出的表示。

用于判断线性可识别性的工具是线性探针。在冻结的表示上，训练一个线性分类器或回归器，用于衡量表示中包含多少关于目标变量的信息。线性探针本身只能做线性变换，这意味着它能提取到什么完全取决于表示中的信息——如果表示确实线性对应真实变量，线性探针就能准确提取，反之亦然。论文中，作者正是利用线性探针来衡量LeJEPA的表示是否还原了真实潜变量。

实验设置如下：首先在已知的低维高斯潜变量上施加非线性混合函数，这些混合函数包括螺旋形变换、正弦剪切、抛物线剪切、RealNVP耦合层等多种形式，目的是将潜变量变换成观测数据；接着，使用LeJEPA在这些观测数据上训练编码器；最后，在编码器输出的表示和原始潜变量之间拟合一个线性回归，用R²衡量两者的线性对应程度。R²越接近1，说明表示与真实潜变量之间的线性关系越强，即线性可识别性越好。

实验还将潜变量的维度从2扩展到1024，远超DINOv2等模型的嵌入维度，以验证结论在不同规模下是否依然成立。结果显示，在所有测试的混合函数和维度下，SIGReg和VICReg的R²均保持在0.999以上，在高斯潜变量条件下，线性可识别性稳定成立。

从理论角度分析，对于高斯分布，描述变量在时间上演化的转移算子有一组特殊的特征函数，称为Hermite多项式。它们是高斯分布下函数空间的自然正交基，类似于周期函数中的傅里叶级数。这组多项式的关键性质是：函数中非线性成分的次数越高，它在正样本对之间的相关性就越低。

LeJEPA的对齐损失旨在最大化正样本对之间的相关性，因此任何非线性扭曲都会受到严格惩罚。结合SIGReg对嵌入分布的约束，这个线性映射必然是一个正交变换——即真实潜变量的一个旋转。

论文进一步证明了该条件的唯一性。Sturm-Liouville理论是经典数学物理中分析微分算子特征函数的框架，它描述了在何种条件下算子的特征函数具有特定形状。论文借助这一框架证明，要使转移算子的第一个特征函数恰好是仿射函数（即线性函数加常数），潜变量的分布必须满足一个极为严格的条件——其对数密度的导数必须是线性的。而满足这一条件的分布，恰好只有高斯分布。

这意味着高斯分布在该问题中的地位是唯一的。换成Laplace分布、均匀分布或其他任何非高斯分布，线性可识别性的保证都无法成立。论文也用实验印证了这一点：在广义正态分布族中扫描形状参数，线性恢复的R²在形状参数等于2（即高斯分布）时出现尖锐峰值，偏离高斯之后迅速下降。

在表示空间规划，即在真实世界规划

线性可识别性一旦成立，意味着什么？

这意味着在学到的表示空间中进行规划，得到的结果与在真实世界中求解最优控制完全等价。如果表示与真实潜变量之间仅差一个旋转，那么表示空间中的直线轨迹，解码回真实空间后仍然是一条直线，而直线轨迹恰好是许多控制问题中的最优解。因此，只要代价函数对旋转不敏感，在表示空间中规划出的最优策略，就等同于在真实世界中规划出的最优策略。

论文通过一个机器人手臂控制任务验证了这一点。实验场景是DMC Reacher，一个拥有两个关节的机械臂，目标是从起始姿态运动到目标姿态。

实验分为两组：第一组使用各向同性随机采样（OU过程）生成训练数据，潜变量的分布满足高斯假设；第二组直接使用强化学习策略跑出的真实轨迹作为训练数据，潜变量的分布因策略的目标导向性而集中在状态空间的某个低熵区域，不再满足高斯假设。

结果显示，第一组训练出的编码器，在表示空间中进行直线插值规划，得到的关节轨迹与已知真实状态的理想情况在统计上无差异；第二组训练出的编码器，采用同样的规划方法却产生了明显偏差，控制代价显著上升。

同一套物理系统，使用随机探索方式采样就能满足理论条件，而使用目标导向的策略采样则会破坏条件。两者的区别，正在于数据的分布。这意味着，在自监督预训练阶段，数据采样策略本身就是理论保证的一部分。

论文地址：https://arxiv.org/abs/2605.26379

来源：https://cloud.tencent.com.cn/developer/article/2685340

机器人

上一篇英伟达NitroGen入选CVPR2026最佳论文候选通用游戏Agent 下一篇AI SEO效果验证实操指南：测量、采样与证明业务价值

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。