CMU与纽约大学破解神经网络潜在变量识别难题

首页

热心网友

转载

2026-05-15

这项由卡内基梅隆大学、穆罕默德·本·扎耶德人工智能大学（MBZUAI）以及纽约大学联合开展的研究，于2026年发表在国际学习表征会议（ICLR 2026）上，论文编号为arXiv:2604.17568。感兴趣的读者可以通过该编号在学术数据库中查阅完整论文。

当神经网络

隐藏在数据背后的秘密世界

每次按下快门，相机捕捉到的并非花朵本身的颜色与纹理，而是光线经过一系列折射后落在传感器上的一串数字信号。这就像隔着一层磨砂玻璃观察世界，你看到的只是模糊的投影，而非背后的真实图景。那么，如果只给你这串数字，你能反推出玻璃另一侧的世界吗？

这正是机器学习领域一个古老而棘手的核心谜题。研究者们将其形式化为：观测数据X，等于某个未知函数g作用于潜在变量Z的结果，即X=g(Z)。这里的Z，就是藏在磨砂玻璃背后的真实驱动因素，比如物体的形状、颜色、材质；g则是那层玻璃的模糊方式，即数据生成过程；而X，是我们唯一能直接观测到的表象。

问题的难点在于，函数g和变量Z同时未知。你只有最终的面包，却要同时猜出面粉配方、烤箱温度和烘焙时间。长期以来，主流思路是引入各种强假设来约束问题，比如假设g是线性的，或者假设潜在变量之间彼此独立。这些假设在理论上固然优美，但在真实世界中往往难以验证，就像侦探破案前必须先假定“凶手惯用右手”，一旦条件不符，整个推理便可能崩塌。

于是，这篇论文的研究团队换了一个思路：与其在苛刻条件下追求完美还原，不如先问，在几乎不做额外假设的情况下，我们至少能可靠地恢复出哪些信息？沿着这个思路，他们提出了“多样性字典学习”这一全新框架。

字典学习是什么：线性与非线性的根本分野

要理解新框架，得先弄懂“字典学习”这个经典概念。它的核心思想，是把观测数据看作是由一些基本元素（称为“字典原子”）组合而成的。好比一篇文章，可以看作是许多词语按特定顺序和频率的组合，词语就是字典原子。

传统的稀疏字典学习有一个关键假设：这种组合是线性的。也就是说，观测X等于一个字典矩阵D乘以潜在编码Z，结果就是各个原子的简单加权叠加。这个假设极大简化了数学处理，但代价是可能严重偏离现实。以神经网络为例，其内部的表示经过层层非线性激活函数（如ReLU）的加工，早已不是简单的线性叠加。当前在机械可解释性领域广泛使用的稀疏自编码器（SAE），正是建立在线性字典学习的基石上。这不禁让人担忧：用一把线性的尺子，去丈量一个本质上弯曲的空间，结果能靠谱吗？

这篇论文转向了更一般的非线性情形，允许g是任意光滑可逆函数。数学上，这立刻带来了一个挑战：在不加约束的情况下，理论上存在无数种g和Z的组合，都能产生一模一样的观测数据X——就像同一款蛋糕，可以由无数种不同的温度和时间组合烘烤出来。看似走到了山穷水尽之处，但研究团队却在这里发现了一片新天地。

结构才是一切的关键：雅可比矩阵的奥秘

他们意识到，与其纠结于具体的数值关系，不如先厘清潜在变量与观测变量之间的“连接关系”。描述这种关系的工具，叫做雅可比矩阵（Jacobian matrix）的支撑结构。

简单来说，雅可比矩阵描述的是：当某个潜在变量Z_j发生微小变动时，哪些观测变量X_i会跟着变化？如果X_i随之变化，就认为Z_j“影响”X_i，两者之间存在一条连接。把所有这样的连接画成一张图，就得到了依赖结构。这个结构是“非参数”的，它不关心函数的具体形式，只关心“谁影响谁”这个更本质的问题。研究团队将其正式定义为雅可比矩阵中非零元素的位置集合。

举个例子，假设有三个潜在变量（Z₁, Z₂, Z₃）生成三个观测变量（X₁, X₂, X₃）。其中，Z₁和Z₂共同影响X₁和X₂，而三个潜在变量一起影响X₃。把这些连接关系写成一个矩阵，有星号的位置代表有连接，空白代表无连接，这就构成了依赖结构的具体形态。正是这个看似简单的结构，成为了整个理论大厦的基石。

集合代数：用“韦恩图思维”切割隐藏世界

研究团队的核心洞察源于一个朴素的问题：对于不同组的观测变量，它们背后对应的潜在变量集合，能告诉我们什么？

以两组观测变量X_K和X_V为例。X_K背后有一批潜在因素（记为集合I_K），X_V背后有另一批（记为I_V）。这两组因素之间的关系，可以用集合运算来刻画——它们的交集I_K ∩ I_V是两者共享的公共因子；它们的对称差I_K △ I_V是各自独有的因子；而I_K \ I_V和I_V \ I_K则分别是K独有和V独有的部分。

这就像用韦恩图分析两个班级的音乐喜好：左圈是A班喜欢的类型，右圈是B班喜欢的，重叠部分是两班都爱的，两侧独有部分则代表了各自的独特品味。

基于此，论文提出了“集合论不确定性”这一核心概念。它描述的是：当两个模型在观测数据上完全等价时，它们内部的潜在变量集合之间必须满足怎样的约束？具体来说，它保证了三点：第一，公共因子（交集里的）不能表达为独有因子（对称差里的）的函数，意味着共同特征与特有特征彼此独立，不会纠缠不清。第二，独有因子也不能依赖于公共因子，保证了独立性是双向的。第三，K独有的因子不能被V独有的因子所解释，反之亦然，确保不同群体的专属特征也泾渭分明。

用更直白的话说，这个理论保证了：用这套方法学到的潜在表示，其中那些对多个观测负责的“公共因子”，和那些只对单个观测负责的“专属因子”，会被清晰地分开，互不污染。

从集合结论到更丰富的推论

手握“集合论不确定性”这个工具，研究团队进一步推导出三种更具实用价值的结论，分别对应不同的现实任务场景。

第一种是以对象为中心的解耦：某个观测集合（比如描述一张图片中“椅子”的像素）背后的全部潜在因素，不会被另一个观测集合（比如描述“桌子”的像素）独有的因素所影响。这确保了描述不同对象的表示模块相互独立，正是“以对象为中心的表示学习”所追求的目标。

第二种是以个体为中心的解耦：某个观测集合独有的潜在因素，完全不依赖于另一个观测集合的任何因素（包括公共部分）。这对于“域适应”任务至关重要——当模型从一个数据分布迁移到另一个时，需要将每个域特有的特征与通用特征干净地分离，而这个理论保证了这种分离是可行的。

第三种是以共享为中心的解耦：公共潜在因素不能被任何一方独有的因素所解释。这确保了跨域或跨对象的通用知识能被独立、纯净地提取出来，对于提升模型的迁移和泛化能力意义重大。

更美妙的是，研究团队还揭示了一种连锁效应：如果多个观测变量的潜在支撑集拼起来能覆盖整个潜在空间，那么上述集合论的保证就能延伸到韦恩图中的每一个“原子区域”。也就是说，所有可能的交叉组合都能被“块状”地识别出来。论文中以三个观测变量为例，展示了其潜在支撑集如何形成包含七个不同原子区域的韦恩图，并且每一块都能与其他所有块保持独立，实现块级别的可识别性。

两个正式定理：什么条件下能保证这一切成立？

理论之美在于，上述所有保证，只需要非常温和的条件即可成立。论文的第一个主要定理（定理1）给出了精确的充分条件。

第一个条件是潜在变量Z的概率密度在整个空间上处处为正。这是一个极为标准的技术性假设，含义仅仅是潜在变量可以取任何可能的值，不会被限制在某个狭小的角落。

第二个条件是稀疏性正则化：在模型训练过程中，要求学到的模型的雅可比矩阵的非零元素个数，不超过真实模型的非零元素个数。换句话说，就是在训练时对连接关系的数量施加惩罚，鼓励模型找到尽可能简洁的依赖结构。

这里有一个关键点必须强调：这个稀疏条件仅仅是训练时的正则化手段，而不是对真实数据生成过程的假设。真实世界的数据完全可以由极其复杂、连接密集的过程生成，我们并不需要假设它是稀疏的。我们只是在训练模型时，给它施加了一种“奥卡姆剃刀”式的偏好——当多个模型都能解释数据时，优先选择连接最少的那个。这与结构因果模型中的“忠实性”、“最小性”原则一脉相承。

此外，还需要一个关于“充分非线性”的技术假设（假设1），它保证雅可比矩阵在不同数据点上的变化足够丰富，能够区分真实的因果连接和偶然的相关性。这对于平滑函数和连续分布来说，通常自然满足。

第二个定理（定理2）更进一步：在同样条件下，不仅可以识别集合关系，连整个依赖结构本身都是可识别的——只要允许对潜在变量的编号进行重新排列（这是一种不可避免的标准不确定性）。这意味着，训练收敛后，模型学到的“谁影响谁”的连接图谱，与真实世界中的连接图谱是完全一致的（允许列重排）。

从集合识别到元素级识别：足够多样性就能完全还原

上面的结论是“块级别”的。在更强的结构条件下，研究团队证明了可以将每一个潜在变量单独识别出来（定理3），这被称为元素级可识别性。

所需的额外条件叫做“足够多样性”（假设2）。它有三种等价的形式，核心思想是要求不同观测变量的连接模式存在差异。例如，第一种形式要求：存在某个潜在变量Z_i，它是某个观测变量X_k“独有”的贡献。第二种形式则要求：Z_i被多数观测变量共享，但却被某个特定的观测变量排除在外。

与传统的“结构稀疏”假设相比，“足够多样性”是一个宽泛得多的条件。它根本不要求整体结构是稀疏的——即使在几乎全连接的图中，只要不同观测变量的连接模式存在哪怕一点点差异，条件就可能被满足。这是一个关于“差异性”或“多样性”的要求，与“稀疏性”有本质区别。

研究团队推测，“足够多样性”条件很可能是在没有任何分布和函数形式假设下，实现元素级识别的必要条件。其依据在于，韦恩图的原子区域是这类结构的最小不可分单元，而“足够多样性”正好保证了每个潜在变量都对应一个独立的原子区域。

实验验证：理论如何在真实数据上站稳脚跟

为了验证理论预测，研究团队设计了两组实验。

第一组是合成数据实验。他们使用多层感知机（MLP）加Leaky ReLU激活函数来生成非线性的观测数据，然后以变分自编码器（VAE）为骨干模型，在损失函数中加入依赖稀疏正则化。实验设置了3到5个潜在变量，并将观测变量分为两组X_K和X_V。

为了验证集合论的可识别性，他们计算了潜在变量不同子集之间的R²分数。R²越低，说明两组变量之间纠缠越少，即解耦越好。结果显示，交集与对称差之间、以及两个互补部分之间的R²分数，都显著低于随机基线，且在不同维度设置下稳定出现，证实了理论保证的有效性。

对于元素级识别，他们分别构造了满足“足够多样性”条件的数据集和违反该条件（全连接）的数据集，用平均相关系数（MCC）来衡量恢复的潜在变量与真实变量之间的对应程度。结果清晰显示：只有满足多样性条件时才能达到高MCC，全连接时MCC则明显偏低，直接印证了定理3的预测。

第二组是视觉数据实验，更贴近实际应用。他们在三个标准的解耦表示学习基准数据集上测试：Cars3D（汽车在不同视角、颜色下的图像）、Shapes3D（几何体在不同颜色、形状、光照下的图像）和更复杂的MPI3D（机械臂图像）。

研究团队将依赖稀疏正则化（作用于雅可比矩阵的L1正则）添加到三种主流生成模型中：基于VAE的FactorVAE、基于GAN的DisCo，以及基于扩散模型的EncDiff。同时与两种基线对比：不加正则化的原模型，以及在潜在变量Z本身上施加L1正则化（潜在稀疏）的版本。

评估使用了FactorVAE分数和DCI解耦分数两个标准指标。结果显示，在绝大多数数据集和模型组合下，加入依赖稀疏正则化后性能均有提升，且通常优于潜在稀疏正则化。例如在Shapes3D上，EncDiff加入依赖稀疏后，DCI分数从0.901提升至0.947，FactorVAE分数达到了满分1.0。这印证了理论预测：依赖稀疏提供了正确的归纳偏置。

除了定量指标，丰富的可视化结果更具说服力。通过固定其他维度、只改变某一个潜在维度，可以直观看到每个维度控制的视觉属性。在Fashion数据集上，三个维度分别清晰对应了性别、鞋跟高度和上身宽度。在Shapes3D上，四个维度分别对应墙面角度、墙面颜色、物体形状和物体颜色。对比实验还展示了“潜在变量替换”——将源图像的某个语义属性（如墙面颜色）替换为目标图像的值，而其他属性保持不变——结果表明，依赖稀疏正则化能实现这种精准替换且副作用最小。

对机械可解释性的启示：SAE的困境与出路

论文专门探讨了这一框架对机械可解释性，尤其是对稀疏自编码器（SAE）的深刻启示。

SAE的核心假设是线性叠加：认为大语言模型的内部表示是许多“特征”的稀疏线性组合。这个假设在数学上简洁，在实践中也发现了一些有意义的特征，但存在两个深层问题：第一，线性假设会引入系统性偏差，因为真实的神经网络表示空间充满非线性。第二，在潜在向量上施加稀疏性，迫使模型使用极高维度（有时达百万级）的稀疏向量，容易导致“特征分裂”（一个概念被拆成多个特征）和“特征吸收”（一个特征包含多个不相关概念），反而损害了可解释性。

多样性字典学习提供了一种原则性的替代路径：用依赖稀疏（雅可比矩阵稀疏）替代潜在稀疏，用非线性可识别框架替代线性假设。这不仅从理论上绕开了线性约束，实验也表明依赖稀疏比潜在稀疏更能恢复有意义的表示。

在新增实验中，团队在GPT-2-Small模型上比较了雅可比稀疏自编码器（JSAE）与两种主流SAE变体在“死亡特征”（从不激活的维度）数量上的表现。结果显示，JSAE的死亡特征数量（62个）远少于Top-K SAE（439个）和Batch Top-K SAE（207个），说明依赖稀疏能在保持更多活跃、有意义特征的同时完成分析。

归根结底，这项研究最根本的贡献，是为一个本质上开放的问题提供了部分确定性的答案。面对复杂、非线性、难以验证的真实数据生成过程，追求完全识别往往需要不切实际的强假设。研究团队选择退一步，问一个更实际的问题：即便无法完整还原隐藏世界，我们至少能可靠地还原哪些部分？

他们的答案是：那些通过集合运算（交、并、补、对称差）定义的结构性关系，以及整个“谁影响谁”的依赖图谱，在非常温和的条件下就能被可靠识别。而实现这一切所需的实践代价，仅仅是在训练时增加一项鼓励连接简洁的正则化项。这项正则化可以无缝嵌入任何可求导的生成模型，从VAE到GAN再到扩散模型。

这体现了一种更务实的科学态度：不追求打开所有锁的万能钥匙，而是清晰地界定哪些锁确实能打开，并锻造一把足够通用、在真实场景中真正管用的钥匙。

Q&A

Q1：多样性字典学习与稀疏自编码器（SAE）有什么本质区别？

A：核心区别在于施加稀疏约束的对象不同。SAE是在潜在变量Z本身上施加稀疏约束，要求其激活值大多为零，这会导致需要极高维度来表达概念，并引发特征吸收、死亡特征等问题。多样性字典学习则是在雅可比矩阵（即依赖结构）上施加稀疏约束，鼓励减少不必要的连接，而不要求激活值本身稀疏。此外，SAE基于线性生成假设，而新框架支持任意非线性过程，理论保证更为一般化。

Q2：足够多样性条件和稀疏性假设有何不同？为什么说多样性不等于稀疏？

A：稀疏性假设要求依赖结构本身是稀疏的，即大多数潜在变量与大多数观测变量之间没有连接。而“足够多样性”条件只要求不同观测变量的潜在支撑集之间存在某种差异性，例如某个观测变量有一个独有的潜在因素，或者某个因素被一组变量共享但被某个成员排除。即使在几乎全连接（即非常不稀疏）的情形下，只要连接模式之间存在差异，足够多样性条件就可能成立。因此，它是一个比稀疏性宽泛得多的条件，关注的是连接模式的“差异”，而非连接的“数量”。

Q3：依赖稀疏正则化在大型模型中计算代价大吗？有没有可行的实现方式？

A：计算完整的雅可比矩阵确实开销较大，但有两种常用策略可以显著降低计算成本。第一，可以先利用潜在稀疏等方法识别出活跃的潜在维度子集，只对这个较小的子集计算雅可比矩阵。对于Transformer等架构，活跃维度通常远小于总维度。第二，对于具有残差连接、注意力、前馈网络等特定结构的模型，其相关的雅可比矩阵块存在闭合形式的高效分解，只需少量矩阵乘法即可近似。根据实际测试报告，加入依赖稀疏正则化后的训练速度约为标准L1正则化的一半，对于常规的大语言模型训练而言，这个代价是可以接受的。

来源:https://www.techwalker.com/2026/0504/3185734.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：浙江大学与阿里巴巴合作研发情感化AI语音助手技术解析下一篇：Adobe研究院推出双重核查机制确保大语言模型输出内容有据可查