Anthropic AI 揭示大模型注意力回路机制
最近,Anthropic公司发布了一项挺有意思的研究,他们用一种新方法,把大语言模型内部那种“黑箱”计算过程,给画成了一张张能看懂的“地图”。这就像给AI做了一次脑部CT扫描,让我们能直观地看到,当模型回答“迈克尔·乔丹从事什么运动?”时,它脑子里的“神经元”是怎么一步步点亮“篮球”这个答案的。
简单来说,模型处理这个问题时,信息走了三条主要通路:一是从“从事”和“运动”这些词本身出发,激活了“输出运动项目”的倾向;二是从“迈克尔·乔丹”这个名字关联的“名人”特征出发,这个特征会正向推动“篮球”,同时抑制“足球”等其他选项;三是还有一些特征组直接建立了到“篮球”的快速通道。最终,这三股力量合流,让模型稳稳地填上了“basketball”。
这项成果的核心,在于他们提出了一套两步走的“解码”方法论:第一步,找到模型内部那些可解释的基本计算单元——也就是“特征”;第二步,弄清楚这些特征之间是如何通过特定的“回路”相互作用,最终产生输出的。 这与此前试图直接分析原始神经元的研究思路不同,Anthropic选择先构建一个更“透明”的“替换模型”。
一、建立可解释的替换模型
为什么非要绕个弯子,先搞个“替换模型”呢?这得从深度学习模型的老大难问题说起。传统的神经网络由海量人工神经元构成,但一个尴尬的事实是:模型需要表达的概念数量,往往远超其神经元数量。这就导致单个神经元常常“身兼数职”,同时表征多个不相关的概念,变得难以解读。直接用它们作为分析基础,就像试图通过观察一团乱麻来理解织布机的结构,困难重重。
Anthropic的“替换模型”核心是一种叫“跨层转码器”(Cross-Layer Transcoder, CLT)的架构。你可以把它想象成给原模型的每一层“思维”都配了一个翻译官。这些翻译官(即CLT特征)用稀疏激活的方式,专门负责重建原模型对应层的输出。关键是,这些特征能从早期层接收信息,却能向所有后续层传递信息,实现了真正的“跨层”沟通。
评估显示,这种CLT模型在重现原模型输出方面表现不错,尤其随着模型规模增大,匹配度更高。但问题来了,即便替换模型有时能复现结果,误差仍然存在,而且可能层层累积。为了精准分析某个特定问题(例如一个具体的提示词),研究人员又构建了更精确的“局部替换模型”。
这个局部模型可以看作一个针对单一提示展开的巨型神经网络,其神经元就是该提示下所有活跃的CLT特征。在这个网络上,可以进行经典的“电路分析”,追踪信息从输入到输出的每一条路径。它成为了后续绘制“归因图”的坚实基础。
二、构建归因图
有了局部替换模型,怎么把它变成我们能看懂的图呢?Anthropic以让模型为一个虚构机构“国家数字分析小组”(The National Digital Analytics Group)生成首字母缩写为例,展示了全过程。
向模型输入“The National Digital Analytics Group (N”后,模型输出了“DAG”。归因图清晰地揭示了这个“DAG”是怎么来的:图中有三条主要路径,分别源于“Digital”、“Analytics”、“Group”这三个词。每条路径都从识别该单词的特征开始,进而激活“在正确位置说出该单词首字母”的特征,最终这些特征共同推动模型输出“DAG”。
当然,图也显示了一些有趣的现象。比如,模型需要先“决定”输出一个缩写,并考虑到提示中已经给出了“N”。图中可以看到“在缩写中”和“在缩写开头的N”等特征确实在起作用,而“National”一词本身对输出的直接影响却很微弱。研究人员推测,它的主要作用可能是通过影响模型的“注意力”分配来实现的,而当前的归因图方法暂时还无法解释注意力机制内部的运作。
构建出的原始归因图信息量极大,包含数百万条边。为此,研究团队开发了交互式可视化工具,并采用剪枝算法聚焦关键路径。通常,在将节点数量减少90%后,仍然能保留80%以上的解释力,这让分析变得可行。
特征理解与标注
面对图中成千上万个特征,如何理解它们?团队采用了与之前“规模化单义性”研究类似的方法,对特征进行人工标注。
最容易标注的是两类特征:输入特征(常在浅层,对特定词汇或类别反应强烈)和输出特征(常在深层,直接促进或抑制某些词元的生成)。中间层的特征则更为抽象,需要结合它活跃的上下文、它对哪些词有直接促进/抑制效果,以及它与其他特征的连接关系来综合推断。
即使标注做不到完美,这些特征标签已经能有效揭示归因图中的核心结构。为了简化视图,研究人员还将功能相似的特征组合成“超节点”。例如,所有与“Digital”这个词相关的不同特征,在分析缩写任务时,可以视为一个整体单元。
通过干预措施验证归因图假设
图画出来了,怎么知道它是不是对的?Anthropic采用了“干预实验”来验证:如果我们在原模型中,人为抑制归因图中某个被认为很重要的特征,那么模型对应的输出是否会被削弱?实验证实了这一点。例如,抑制“Digital”或“Analytics”相关的特征,会显著降低模型输出“DAG”的概率。
归因图还能帮助定位关键层。比如,在加法任务“36+59=?”中,分析发现“Analytics”特征主要通过第13层及之后的中间特征间接影响最终输出。干预实验也显示,如果在第13层之前抑制这些特征,效果最明显,这和图的分析吻合。
三、全局权重
归因图展示的是特定提示下的局部互动。那么,特征之间是否存在一种全局的、与上下文无关的固有联系呢?这就引出了“虚拟权重”的概念。
理想情况下,我们希望得到一组全局权重,能刻画特征在所有可能上下文中的平均互动强度。但这里有个大的麻烦:干扰。由于数百万个特征都通过残差流连接,即使两个特征从未在真实数据中同时激活,它们之间也可能计算出一个很大的虚拟权重,但这其实对网络的实际功能毫无影响。
为了解决干扰问题,研究人员引入了特征共激活的统计信息,计算了“目标加权预期残差归因”(TWERA)。这相当于在平均互动强度时,更多地考虑那些在数据中实际经常一起出现的特征对。经过这样处理,许多无意义的干扰连接被过滤掉了,留下更多可解释的关联(例如,与“说出运动名称”相关的特征和“极限飞盘”特征之间的强关联)。
当然,TWERA也不是万能药,它同样存在局限,比如对抑制性关系的处理不够好。但它确实提供了一个比单张归因图更广阔的视角,让我们能看到特征在更广泛背景下的行为模式。
四、面纱尚存
尽管这项研究在打开AI“黑箱”的道路上迈出了一大步,但它远非终点,面前依然存在着重重“面纱”。
首要局限在于注意力回路的缺失。 当前方法固定了注意力模式,这意味着归因图无法解释模型是如何决定“关注”哪些信息的(即QK-circuit的计算过程)。在需要理解注意力动态变化的任务中,这种归因图“基本上毫无用处”。
其次,替换模型的“忠实度”存疑。 即使跨层转码器(CLT)能完美重建原模型的输出,也无法保证它用的是和原模型一模一样的内部机制。它可能学了一套不同的“算法”,只是在训练数据上结果相同,一旦遇到新情况就可能出错。
最后,方法本身存在一个两难困境。 归因图的成功,很大程度上依赖于CLT特征的稀疏性——它让我们能聚焦于少数活跃特征。但这建立在“只有活跃特征才重要”的假设上。然而在某些情况下,那些因为被强烈抑制而“沉默”的非活跃特征,可能才是影响输出的关键。忽略它们,显然与“揭示底层机制”的初衷背道而驰。
Anthropic坦言,未来的研究需要探索如何无监督地识别这些关键的抑制性特征,例如通过特征消融实验,去关注那些距离被激活仅“一步之遥”的沉默特征。只有把这些面纱逐一揭开,我们才能真正理解语言模型庞大而精密的“思考”过程。
相关攻略
当人工智能技术以前所未有的速度重塑全球产业格局时,一个核心议题正引发广泛关注:如何将这些尖端能力有效赋能公益事业,特别是在医疗健康与基础教育等关乎人类长远发展的关键领域?近期,一项具有里程碑意义的合作给出了重要回应——人工智能领军企业Anthropic与比尔及梅琳达·盖茨基金会联合宣布,将共同启动一
马斯克旗下xAI公司推出编程智能体GrokBuild,正式进军开发者市场。该工具处于早期测试阶段,面向付费用户,旨在通过理解复杂指令自动编程。xAI明确对标行业标杆Claude,正通过外部合作与内部优化加速追赶技术差距,近期与Cursor的战略合作有助于能力提升,但核心人员离职也为未来带来不确定性。
Anthropic公司高达90%的代码由其AI系统Claude编写,AI已深入核心业务流程。例如,财务报告生成时间从数小时缩短至约30分钟。AI并未取代人类,反而通过处理重复任务解放人力,使员工角色转向监督与决策。公司因此招聘更多员工,以审核AI产出并制定战略,推动工作性质升级与人机协同。
想象一下这样的场景:你身边有一位天赋卓越、知识储备惊人的智能助手,它能够快速处理海量信息,但在伦理边界与社会常识方面,却如同一张未经描绘的白纸。如果你向它询问某些敏感或具有潜在风险的制作方法,它可能会为了展示自己的信息完整性,不加筛选地将所有细节全盘托出。为了避免它在回应中产生误导或危害,研发人员不
5月中旬,一则消息在科技圈内引起了不小的波澜:英伟达的H200显卡在对华出口方面取得了关键进展。据透露,国内预计将有至少10家厂商采购总计约75万块该型号显卡。这对于英伟达而言,无疑是个积极的信号,意味着其AI生态体系在中国市场重新获得了实质性的支持。 然而,就在美国方面宣布对H200“开绿灯”之后
热门专题
热门推荐
近日,中国汽车流通协会联合精真估发布了《2026年4月纯电动车型一年车龄保值率排行榜》。这份数据对于正在选购新能源车的消费者具有重要参考价值,能帮助大家更清晰地了解当前热门电动车的残值表现。 该榜单统计的是车龄满一年的纯电动车型。位居榜首的是问界M9,其一年保值率高达80 4%。这一夺冠成绩含金量十
科技行业近期迎来一场备受瞩目的创新盛宴。以智能清洁机器人闻名的追觅科技(Dreame),在旧金山隆重举办了“Dreame Next 2026”未来愿景发布会。活动不仅前瞻性地展示了涵盖智能手机、智能穿戴乃至概念电动车的全系列产品,更邀请到苹果联合创始人史蒂夫·沃兹尼亚克亲临助阵。这场为期四天的盛会,
SpaceX最快下周披露招股书,6月初启动全球路演,估值或达1 75万亿美元,募资规模有望创纪录。公司以垂直整合与成本控制为核心优势,布局商业航天、AI基础设施与卫星互联网,其“太空数据中心”构想融合太空太阳能与AI算力,开辟新赛道。此次IPO或引发科技板块资金结构性变动,标志资本正加速拥抱太空与AI融。
NVIDIA在SIGGRAPH上宣布扩展其微服务库,以加速人形机器人开发。其核心是将生成式AI深度集成至OpenUSD语言体系,推出相关模型与NIM微服务,从而提升数字孪生与机器人工作流效率。公司还开放了机器人技术栈,并联合合作伙伴推动OpenUSD的工业应用,为开发者提供从仿真到部署的端到端平台支持。
OKX作为全球领先的数字资产交易平台,其风险主要来源于市场波动、技术安全与合规环境。平台通过多重安全机制、资产储备证明和严格的合规流程来管理风险。用户需理解加密货币的高波动性本质,并采取自主保管资产、启用安全功能等策略,以在参与Web3生态时更好地保护自身权益。





