CMU与纽约大学破解神经网络潜在变量识别难题
这项由卡内基梅隆大学、穆罕默德·本·扎耶德人工智能大学(MBZUAI)以及纽约大学联合开展的研究,于2026年发表在国际学习表征会议(ICLR 2026)上,论文编号为arXiv:2604.17568。感兴趣的读者可以通过该编号在学术数据库中查阅完整论文。

隐藏在数据背后的秘密世界
每次按下快门,相机捕捉到的并非花朵本身的颜色与纹理,而是光线经过一系列折射后落在传感器上的一串数字信号。这就像隔着一层磨砂玻璃观察世界,你看到的只是模糊的投影,而非背后的真实图景。那么,如果只给你这串数字,你能反推出玻璃另一侧的世界吗?
这正是机器学习领域一个古老而棘手的核心谜题。研究者们将其形式化为:观测数据X,等于某个未知函数g作用于潜在变量Z的结果,即X=g(Z)。这里的Z,就是藏在磨砂玻璃背后的真实驱动因素,比如物体的形状、颜色、材质;g则是那层玻璃的模糊方式,即数据生成过程;而X,是我们唯一能直接观测到的表象。
问题的难点在于,函数g和变量Z同时未知。你只有最终的面包,却要同时猜出面粉配方、烤箱温度和烘焙时间。长期以来,主流思路是引入各种强假设来约束问题,比如假设g是线性的,或者假设潜在变量之间彼此独立。这些假设在理论上固然优美,但在真实世界中往往难以验证,就像侦探破案前必须先假定“凶手惯用右手”,一旦条件不符,整个推理便可能崩塌。
于是,这篇论文的研究团队换了一个思路:与其在苛刻条件下追求完美还原,不如先问,在几乎不做额外假设的情况下,我们至少能可靠地恢复出哪些信息?沿着这个思路,他们提出了“多样性字典学习”这一全新框架。
字典学习是什么:线性与非线性的根本分野
要理解新框架,得先弄懂“字典学习”这个经典概念。它的核心思想,是把观测数据看作是由一些基本元素(称为“字典原子”)组合而成的。好比一篇文章,可以看作是许多词语按特定顺序和频率的组合,词语就是字典原子。
传统的稀疏字典学习有一个关键假设:这种组合是线性的。也就是说,观测X等于一个字典矩阵D乘以潜在编码Z,结果就是各个原子的简单加权叠加。这个假设极大简化了数学处理,但代价是可能严重偏离现实。以神经网络为例,其内部的表示经过层层非线性激活函数(如ReLU)的加工,早已不是简单的线性叠加。当前在机械可解释性领域广泛使用的稀疏自编码器(SAE),正是建立在线性字典学习的基石上。这不禁让人担忧:用一把线性的尺子,去丈量一个本质上弯曲的空间,结果能靠谱吗?
这篇论文转向了更一般的非线性情形,允许g是任意光滑可逆函数。数学上,这立刻带来了一个挑战:在不加约束的情况下,理论上存在无数种g和Z的组合,都能产生一模一样的观测数据X——就像同一款蛋糕,可以由无数种不同的温度和时间组合烘烤出来。看似走到了山穷水尽之处,但研究团队却在这里发现了一片新天地。
结构才是一切的关键:雅可比矩阵的奥秘
他们意识到,与其纠结于具体的数值关系,不如先厘清潜在变量与观测变量之间的“连接关系”。描述这种关系的工具,叫做雅可比矩阵(Jacobian matrix)的支撑结构。
简单来说,雅可比矩阵描述的是:当某个潜在变量Z_j发生微小变动时,哪些观测变量X_i会跟着变化?如果X_i随之变化,就认为Z_j“影响”X_i,两者之间存在一条连接。把所有这样的连接画成一张图,就得到了依赖结构。这个结构是“非参数”的,它不关心函数的具体形式,只关心“谁影响谁”这个更本质的问题。研究团队将其正式定义为雅可比矩阵中非零元素的位置集合。
举个例子,假设有三个潜在变量(Z₁, Z₂, Z₃)生成三个观测变量(X₁, X₂, X₃)。其中,Z₁和Z₂共同影响X₁和X₂,而三个潜在变量一起影响X₃。把这些连接关系写成一个矩阵,有星号的位置代表有连接,空白代表无连接,这就构成了依赖结构的具体形态。正是这个看似简单的结构,成为了整个理论大厦的基石。
集合代数:用“韦恩图思维”切割隐藏世界
研究团队的核心洞察源于一个朴素的问题:对于不同组的观测变量,它们背后对应的潜在变量集合,能告诉我们什么?
以两组观测变量X_K和X_V为例。X_K背后有一批潜在因素(记为集合I_K),X_V背后有另一批(记为I_V)。这两组因素之间的关系,可以用集合运算来刻画——它们的交集I_K ∩ I_V是两者共享的公共因子;它们的对称差I_K △ I_V是各自独有的因子;而I_K \ I_V和I_V \ I_K则分别是K独有和V独有的部分。
这就像用韦恩图分析两个班级的音乐喜好:左圈是A班喜欢的类型,右圈是B班喜欢的,重叠部分是两班都爱的,两侧独有部分则代表了各自的独特品味。
基于此,论文提出了“集合论不确定性”这一核心概念。它描述的是:当两个模型在观测数据上完全等价时,它们内部的潜在变量集合之间必须满足怎样的约束?具体来说,它保证了三点:第一,公共因子(交集里的)不能表达为独有因子(对称差里的)的函数,意味着共同特征与特有特征彼此独立,不会纠缠不清。第二,独有因子也不能依赖于公共因子,保证了独立性是双向的。第三,K独有的因子不能被V独有的因子所解释,反之亦然,确保不同群体的专属特征也泾渭分明。
用更直白的话说,这个理论保证了:用这套方法学到的潜在表示,其中那些对多个观测负责的“公共因子”,和那些只对单个观测负责的“专属因子”,会被清晰地分开,互不污染。
从集合结论到更丰富的推论
手握“集合论不确定性”这个工具,研究团队进一步推导出三种更具实用价值的结论,分别对应不同的现实任务场景。
第一种是以对象为中心的解耦:某个观测集合(比如描述一张图片中“椅子”的像素)背后的全部潜在因素,不会被另一个观测集合(比如描述“桌子”的像素)独有的因素所影响。这确保了描述不同对象的表示模块相互独立,正是“以对象为中心的表示学习”所追求的目标。
第二种是以个体为中心的解耦:某个观测集合独有的潜在因素,完全不依赖于另一个观测集合的任何因素(包括公共部分)。这对于“域适应”任务至关重要——当模型从一个数据分布迁移到另一个时,需要将每个域特有的特征与通用特征干净地分离,而这个理论保证了这种分离是可行的。
第三种是以共享为中心的解耦:公共潜在因素不能被任何一方独有的因素所解释。这确保了跨域或跨对象的通用知识能被独立、纯净地提取出来,对于提升模型的迁移和泛化能力意义重大。
更美妙的是,研究团队还揭示了一种连锁效应:如果多个观测变量的潜在支撑集拼起来能覆盖整个潜在空间,那么上述集合论的保证就能延伸到韦恩图中的每一个“原子区域”。也就是说,所有可能的交叉组合都能被“块状”地识别出来。论文中以三个观测变量为例,展示了其潜在支撑集如何形成包含七个不同原子区域的韦恩图,并且每一块都能与其他所有块保持独立,实现块级别的可识别性。
两个正式定理:什么条件下能保证这一切成立?
理论之美在于,上述所有保证,只需要非常温和的条件即可成立。论文的第一个主要定理(定理1)给出了精确的充分条件。
第一个条件是潜在变量Z的概率密度在整个空间上处处为正。这是一个极为标准的技术性假设,含义仅仅是潜在变量可以取任何可能的值,不会被限制在某个狭小的角落。
第二个条件是稀疏性正则化:在模型训练过程中,要求学到的模型的雅可比矩阵的非零元素个数,不超过真实模型的非零元素个数。换句话说,就是在训练时对连接关系的数量施加惩罚,鼓励模型找到尽可能简洁的依赖结构。
这里有一个关键点必须强调:这个稀疏条件仅仅是训练时的正则化手段,而不是对真实数据生成过程的假设。真实世界的数据完全可以由极其复杂、连接密集的过程生成,我们并不需要假设它是稀疏的。我们只是在训练模型时,给它施加了一种“奥卡姆剃刀”式的偏好——当多个模型都能解释数据时,优先选择连接最少的那个。这与结构因果模型中的“忠实性”、“最小性”原则一脉相承。
此外,还需要一个关于“充分非线性”的技术假设(假设1),它保证雅可比矩阵在不同数据点上的变化足够丰富,能够区分真实的因果连接和偶然的相关性。这对于平滑函数和连续分布来说,通常自然满足。
第二个定理(定理2)更进一步:在同样条件下,不仅可以识别集合关系,连整个依赖结构本身都是可识别的——只要允许对潜在变量的编号进行重新排列(这是一种不可避免的标准不确定性)。这意味着,训练收敛后,模型学到的“谁影响谁”的连接图谱,与真实世界中的连接图谱是完全一致的(允许列重排)。
从集合识别到元素级识别:足够多样性就能完全还原
上面的结论是“块级别”的。在更强的结构条件下,研究团队证明了可以将每一个潜在变量单独识别出来(定理3),这被称为元素级可识别性。
所需的额外条件叫做“足够多样性”(假设2)。它有三种等价的形式,核心思想是要求不同观测变量的连接模式存在差异。例如,第一种形式要求:存在某个潜在变量Z_i,它是某个观测变量X_k“独有”的贡献。第二种形式则要求:Z_i被多数观测变量共享,但却被某个特定的观测变量排除在外。
与传统的“结构稀疏”假设相比,“足够多样性”是一个宽泛得多的条件。它根本不要求整体结构是稀疏的——即使在几乎全连接的图中,只要不同观测变量的连接模式存在哪怕一点点差异,条件就可能被满足。这是一个关于“差异性”或“多样性”的要求,与“稀疏性”有本质区别。
研究团队推测,“足够多样性”条件很可能是在没有任何分布和函数形式假设下,实现元素级识别的必要条件。其依据在于,韦恩图的原子区域是这类结构的最小不可分单元,而“足够多样性”正好保证了每个潜在变量都对应一个独立的原子区域。
实验验证:理论如何在真实数据上站稳脚跟
为了验证理论预测,研究团队设计了两组实验。
第一组是合成数据实验。他们使用多层感知机(MLP)加Leaky ReLU激活函数来生成非线性的观测数据,然后以变分自编码器(VAE)为骨干模型,在损失函数中加入依赖稀疏正则化。实验设置了3到5个潜在变量,并将观测变量分为两组X_K和X_V。
为了验证集合论的可识别性,他们计算了潜在变量不同子集之间的R²分数。R²越低,说明两组变量之间纠缠越少,即解耦越好。结果显示,交集与对称差之间、以及两个互补部分之间的R²分数,都显著低于随机基线,且在不同维度设置下稳定出现,证实了理论保证的有效性。
对于元素级识别,他们分别构造了满足“足够多样性”条件的数据集和违反该条件(全连接)的数据集,用平均相关系数(MCC)来衡量恢复的潜在变量与真实变量之间的对应程度。结果清晰显示:只有满足多样性条件时才能达到高MCC,全连接时MCC则明显偏低,直接印证了定理3的预测。
第二组是视觉数据实验,更贴近实际应用。他们在三个标准的解耦表示学习基准数据集上测试:Cars3D(汽车在不同视角、颜色下的图像)、Shapes3D(几何体在不同颜色、形状、光照下的图像)和更复杂的MPI3D(机械臂图像)。
研究团队将依赖稀疏正则化(作用于雅可比矩阵的L1正则)添加到三种主流生成模型中:基于VAE的FactorVAE、基于GAN的DisCo,以及基于扩散模型的EncDiff。同时与两种基线对比:不加正则化的原模型,以及在潜在变量Z本身上施加L1正则化(潜在稀疏)的版本。
评估使用了FactorVAE分数和DCI解耦分数两个标准指标。结果显示,在绝大多数数据集和模型组合下,加入依赖稀疏正则化后性能均有提升,且通常优于潜在稀疏正则化。例如在Shapes3D上,EncDiff加入依赖稀疏后,DCI分数从0.901提升至0.947,FactorVAE分数达到了满分1.0。这印证了理论预测:依赖稀疏提供了正确的归纳偏置。
除了定量指标,丰富的可视化结果更具说服力。通过固定其他维度、只改变某一个潜在维度,可以直观看到每个维度控制的视觉属性。在Fashion数据集上,三个维度分别清晰对应了性别、鞋跟高度和上身宽度。在Shapes3D上,四个维度分别对应墙面角度、墙面颜色、物体形状和物体颜色。对比实验还展示了“潜在变量替换”——将源图像的某个语义属性(如墙面颜色)替换为目标图像的值,而其他属性保持不变——结果表明,依赖稀疏正则化能实现这种精准替换且副作用最小。
对机械可解释性的启示:SAE的困境与出路
论文专门探讨了这一框架对机械可解释性,尤其是对稀疏自编码器(SAE)的深刻启示。
SAE的核心假设是线性叠加:认为大语言模型的内部表示是许多“特征”的稀疏线性组合。这个假设在数学上简洁,在实践中也发现了一些有意义的特征,但存在两个深层问题:第一,线性假设会引入系统性偏差,因为真实的神经网络表示空间充满非线性。第二,在潜在向量上施加稀疏性,迫使模型使用极高维度(有时达百万级)的稀疏向量,容易导致“特征分裂”(一个概念被拆成多个特征)和“特征吸收”(一个特征包含多个不相关概念),反而损害了可解释性。
多样性字典学习提供了一种原则性的替代路径:用依赖稀疏(雅可比矩阵稀疏)替代潜在稀疏,用非线性可识别框架替代线性假设。这不仅从理论上绕开了线性约束,实验也表明依赖稀疏比潜在稀疏更能恢复有意义的表示。
在新增实验中,团队在GPT-2-Small模型上比较了雅可比稀疏自编码器(JSAE)与两种主流SAE变体在“死亡特征”(从不激活的维度)数量上的表现。结果显示,JSAE的死亡特征数量(62个)远少于Top-K SAE(439个)和Batch Top-K SAE(207个),说明依赖稀疏能在保持更多活跃、有意义特征的同时完成分析。
归根结底,这项研究最根本的贡献,是为一个本质上开放的问题提供了部分确定性的答案。面对复杂、非线性、难以验证的真实数据生成过程,追求完全识别往往需要不切实际的强假设。研究团队选择退一步,问一个更实际的问题:即便无法完整还原隐藏世界,我们至少能可靠地还原哪些部分?
他们的答案是:那些通过集合运算(交、并、补、对称差)定义的结构性关系,以及整个“谁影响谁”的依赖图谱,在非常温和的条件下就能被可靠识别。而实现这一切所需的实践代价,仅仅是在训练时增加一项鼓励连接简洁的正则化项。这项正则化可以无缝嵌入任何可求导的生成模型,从VAE到GAN再到扩散模型。
这体现了一种更务实的科学态度:不追求打开所有锁的万能钥匙,而是清晰地界定哪些锁确实能打开,并锻造一把足够通用、在真实场景中真正管用的钥匙。
Q&A
Q1:多样性字典学习与稀疏自编码器(SAE)有什么本质区别?
A:核心区别在于施加稀疏约束的对象不同。SAE是在潜在变量Z本身上施加稀疏约束,要求其激活值大多为零,这会导致需要极高维度来表达概念,并引发特征吸收、死亡特征等问题。多样性字典学习则是在雅可比矩阵(即依赖结构)上施加稀疏约束,鼓励减少不必要的连接,而不要求激活值本身稀疏。此外,SAE基于线性生成假设,而新框架支持任意非线性过程,理论保证更为一般化。
Q2:足够多样性条件和稀疏性假设有何不同?为什么说多样性不等于稀疏?
A:稀疏性假设要求依赖结构本身是稀疏的,即大多数潜在变量与大多数观测变量之间没有连接。而“足够多样性”条件只要求不同观测变量的潜在支撑集之间存在某种差异性,例如某个观测变量有一个独有的潜在因素,或者某个因素被一组变量共享但被某个成员排除。即使在几乎全连接(即非常不稀疏)的情形下,只要连接模式之间存在差异,足够多样性条件就可能成立。因此,它是一个比稀疏性宽泛得多的条件,关注的是连接模式的“差异”,而非连接的“数量”。
Q3:依赖稀疏正则化在大型模型中计算代价大吗?有没有可行的实现方式?
A:计算完整的雅可比矩阵确实开销较大,但有两种常用策略可以显著降低计算成本。第一,可以先利用潜在稀疏等方法识别出活跃的潜在维度子集,只对这个较小的子集计算雅可比矩阵。对于Transformer等架构,活跃维度通常远小于总维度。第二,对于具有残差连接、注意力、前馈网络等特定结构的模型,其相关的雅可比矩阵块存在闭合形式的高效分解,只需少量矩阵乘法即可近似。根据实际测试报告,加入依赖稀疏正则化后的训练速度约为标准L1正则化的一半,对于常规的大语言模型训练而言,这个代价是可以接受的。
相关攻略
说起让AI变得更聪明,大家的第一反应往往是堆料——更多的参数、更深的层数、更庞大的计算集群。这就像想提升厨艺,总觉得得先扩建厨房、添置更多锅灶才行。但这条路终究有物理和成本的极限,尤其当我们需要把强大的模型塞进手机、平板或边缘设备时,内存和算力的天花板触手可及。 那么,有没有可能不增加参数,就让AI
探讨深度学习技术,卷积神经网络(CNN)与全连接神经网络(DNN,或称多层感知机MLP)是两种最基础且至关重要的模型架构。尽管同属神经网络家族,但它们在设计原理、计算机制及适用场景上存在本质区别。本文将深入解析CNN与普通神经网络的核心差异,帮助您根据具体任务选择最合适的模型。 一、网络结构:从“全
在人工智能的璀璨星空中,卷积神经网络(Convolutional Neural Network, CNN)无疑是那颗最耀眼的明星之一。作为专门处理网格化数据的专家,它在图像识别、视频分析与音频处理等领域展现出了卓越的性能。本文将为您全面解析CNN的工作原理、核心优势及其广泛的应用场景。 一、基本概念
FigureAI最新演示展示了两台Helix-02机器人协同完成卧室整理任务,包括铺被子等柔性物体操作。该技术实现了全球首次单一神经网络驱动的多机器人自主协作,机器人通过视觉观察独立决策,无需中央控制。公司产能已提升至每小时生产一台机器人,并计划推出家用租赁服务。尽管演示展现了先进的协作能力,但其
OCR神经网络模型的结构 理解OCR模型是如何“看懂”文字的?我们可以把它想象成一条高效的流水线,整个处理过程被清晰地划分为几个功能明确的层级。通常,一个完整的OCR神经网络会依次包含特征提取层、卷积层、池化层、全连接层,最终抵达输出层。每一层都承担着独特且关键的任务,共同将原始图像转化为可读的文本
热门专题
热门推荐
在NBA2KOL2中刷新新秀篮板记录需综合球员选择与技巧运用。应选用篮板属性突出的内线球员,注重弹跳与卡位意识。比赛中需精准预判落点,提前抢占位置,善用身体对抗保持优势。同时掌握加速启动、卡位微操等技巧,配合战术创造空间,通过持续练习提升篮板统治力,从而突破记录。
《极限竞速:地平线6》以日本为开放世界舞台,提供超过550辆授权车辆及精美画面与音效。媒体均分高达92分,IGN等赞其树立开放世界赛车新标杆,GameSpot肯定其驾驶乐趣与地图设计。部分评测指出玩法创新不足、文化融合较浅,但公认其为当前顶尖的街机风格赛车游戏之一。
《我的世界》提供生存、创造、冒险和旁观四种模式,可通过指令或创建世界时切换。创造模式可自由建造,生存模式需收集资源成长,冒险模式侧重探索解谜,旁观模式便于观察。掌握切换方法能灵活体验不同玩法。
双境终焉”为高门槛策略玩法,需通关所有常驻关卡后连续挑战蜂王与幽灵蝎。难度分层且附带负面效果,积分随难度递增。战前可通过“火种计划”研发战术模组强化属性;实战中需针对首领特性搭配阵容,合理分配技能与资源以争取高分,最终奖励按总积分结算。
动态交易系统是高度拟真的海上贸易模拟引擎,商品价格随市场供需实时浮动。玩家需洞察不同港口的价格差异,低买高卖。同时必须考虑海盗、天气等航行风险。价格波动受季节、突发事件及势力关系影响,要求玩家综合市场情报与航海动态,做出精准决策,从而获取利润。





