大模型可解释性并非只有唯一机制_AI热点日报

大模型可解释性并非只有唯一机制

类型：热点整理2026-07-01

长久以来，机制可解释性（mechanistic interpretability）领域存在一个几乎未被明确提及、却被视为不证自明的前提：模型针对同一任务的性能或表现，其背后对应着一条唯一的、或近乎唯一的内在「电路」（circuit）。该领域的研究者之所以致力于「电路发现」（circuit disco

长久以来，机制可解释性（mechanistic interpretability）领域存在一个几乎未被明确提及、却被视为不证自明的前提：模型针对同一任务的性能或表现，其背后对应着一条唯一的、或近乎唯一的内在「电路」（circuit）。该领域的研究者之所以致力于「电路发现」（circuit discovery），正是为了将这些「特定的」电路精准识别出来。
然而，一篇被 ICML 2026 收录的新论文给出了一个令人不太舒服的结论：「唯一电路」或许从一开始就不存在。同一个任务，可以由大量结构上几乎完全不重合、却同样具备高任务能力、稀疏且完备的电路独立完成。论文将这个被长期默认的前提命名为「功能各向异性假说」（Functional Anisotropy Hypothesis），并分别从实验与理论两条路径，系统性地将其推翻。

这个假设被默认了相当长时间，却几乎从未被明确阐述。

近几年来，电路与丛发现（Circuit and Sheaf Discovery，简称CSD）已成为机制可解释性领域最热门的研究方向之一。其目标非常直接：打开大模型这个黑箱，探究当模型表现出某种能力时，内部具体是哪些注意力头、MLP，以及它们之间的连接（作为残差流的信息传递通道）在真正发挥作用。

不过，这里需要区分两个相关却不同的概念。电路（circuit）指的是在干预下因果相关的计算子图；而DiscoGP提出的丛（sheaf），标准更加严格：它不仅要因果相关，还必须在独立运行——即被剪枝的边只能传递全部置零的激活值——时，独自支撑起任务表现。

来源：https://www.163.com/dy/article/L0MA3KIH0511AQHO.html

大模型

延伸阅读

补充最近整理过的热点入口。

大模型可解释性并非只有唯一机制

相关热点

延伸阅读