长久以来,机制可解释性(mechanistic interpretability)领域存在一个几乎未被明确提及、却被视为不证自明的前提:模型针对同一任务的性能或表现,其背后对应着一条唯一的、或近乎唯一的内在「电路」(circuit)。该领域的研究者之所以致力于「电路发现」(circuit discovery),正是为了将这些「特定的」电路精准识别出来。
然而,一篇被 ICML 2026 收录的新论文给出了一个令人不太舒服的结论:「唯一电路」或许从一开始就不存在。同一个任务,可以由大量结构上几乎完全不重合、却同样具备高任务能力、稀疏且完备的电路独立完成。论文将这个被长期默认的前提命名为「功能各向异性假说」(Functional Anisotropy Hypothesis),并分别从实验与理论两条路径,系统性地将其推翻。
这个假设被默认了相当长时间,却几乎从未被明确阐述。
近几年来,电路与丛发现(Circuit and Sheaf Discovery,简称CSD)已成为机制可解释性领域最热门的研究方向之一。其目标非常直接:打开大模型这个黑箱,探究当模型表现出某种能力时,内部具体是哪些注意力头、MLP,以及它们之间的连接(作为残差流的信息传递通道)在真正发挥作用。
不过,这里需要区分两个相关却不同的概念。电路(circuit)指的是在干预下因果相关的计算子图;而DiscoGP提出的丛(sheaf),标准更加严格:它不仅要因果相关,还必须在独立运行——即被剪枝的边只能传递全部置零的激活值——时,独自支撑起任务表现。
