游乐游手机版
首页/AI热点日报/热点详情

大模型可解释性并非只有唯一机制

类型:热点整理2026-07-01
长久以来,机制可解释性(mechanistic interpretability)领域存在一个几乎未被明确提及、却被视为不证自明的前提:模型针对同一任务的性能或表现,其背后对应着一条唯一的、或近乎唯一的内在「电路」(circuit)。该领域的研究者之所以致力于「电路发现」(circuit disco

长久以来,机制可解释性(mechanistic interpretability)领域存在一个几乎未被明确提及、却被视为不证自明的前提:模型针对同一任务的性能或表现,其背后对应着一条唯一的、或近乎唯一的内在「电路」(circuit)。该领域的研究者之所以致力于「电路发现」(circuit discovery),正是为了将这些「特定的」电路精准识别出来。
然而,一篇被 ICML 2026 收录的新论文给出了一个令人不太舒服的结论:「唯一电路」或许从一开始就不存在。同一个任务,可以由大量结构上几乎完全不重合、却同样具备高任务能力、稀疏且完备的电路独立完成。论文将这个被长期默认的前提命名为「功能各向异性假说」(Functional Anisotropy Hypothesis),并分别从实验与理论两条路径,系统性地将其推翻。

这个假设被默认了相当长时间,却几乎从未被明确阐述。

近几年来,电路与丛发现(Circuit and Sheaf Discovery,简称CSD)已成为机制可解释性领域最热门的研究方向之一。其目标非常直接:打开大模型这个黑箱,探究当模型表现出某种能力时,内部具体是哪些注意力头、MLP,以及它们之间的连接(作为残差流的信息传递通道)在真正发挥作用。

不过,这里需要区分两个相关却不同的概念。电路(circuit)指的是在干预下因果相关的计算子图;而DiscoGP提出的丛(sheaf),标准更加严格:它不仅要因果相关,还必须在独立运行——即被剪枝的边只能传递全部置零的激活值——时,独自支撑起任务表现。

来源:https://www.163.com/dy/article/L0MA3KIH0511AQHO.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。