游乐游手机版
首页/AI热点日报/热点详情

正确答案特征无法解释多选题能力的根本原因

类型:热点整理2026-07-03
先抛出核心结论:本文从理论和实验两个角度证明,大语言模型在做多选题时,不可能是(至少不完全是)靠所谓的“正确答案特征”来运作的。所谓“正确答案特征”,指的是模型在某个选项的最后一个token处,激活一个表示“这个选项正确”的方向向量。听起来干净利落,不少研究者也确实声称找到了这类特征。但现实情况要复

先抛出核心结论:本文从理论和实验两个角度证明,大语言模型在做多选题时,不可能是(至少不完全是)靠所谓的“正确答案特征”来运作的。所谓“正确答案特征”,指的是模型在某个选项的最后一个token处,激活一个表示“这个选项正确”的方向向量。听起来干净利落,不少研究者也确实声称找到了这类特征。但现实情况要复杂得多——既有理论上的硬伤,也有实验数据的反证。下面我们展开说。

为什么“正确答案特征”走不通

先看理论层面。经典的“正确答案特征”解释假设:模型只需看选项本身以及它前面的token,就能判断哪个选项正确。但有些题目偏偏不按这个套路出牌——选项的正确与否完全取决于它后面的上下文。两个典型例子:

  • 非传递选项:比如问“在石头剪刀布中,哪个手赢?”,然后给出两个选项。当模型读到第一个选项的最后一个token时,它根本没法判断这个选项对不对,因为结果完全取决于第二个选项是什么!
  • 后置细节:题目格式可能把关键信息放在选项后面,比如“对了,顺便说一句……”或者干脆连问题本身都放在选项之后。

读到这儿你可能会想:“也许模型在有条件的时候用正确答案特征,碰到上面这种特殊情况再换别的招?” 实验数据告诉我们:没那么简单。

实验证据:惊人的头列表一致性

为了验证猜想,我(此处允许一次第一人称,但后续尽量转化)先筛选了几组Llama模型和问题域的组合,这些组合在“问题在前”和“选项在前”两种提示格式下的准确率都超过了90%(详细筛选标准见附录)。接着,参照Lieberum等人方法的思路,我用直接效应归因找到了对模型预测正确答案贡献最大的注意力头——分别针对两种提示格式,然后对比结果。

如果正确答案特征是主要机制,那么在“选项在前”的情况下,模型就没办法在选项末尾用上这个特征(因为此时模型还没看到问题)。这样一来,模型要么大幅降准,要么换一套完全不同的注意力头。但实验结果让人大跌眼镜:

上图展示了三种不同Llama模型(涵盖不同规模和基础/指令版本)在三个问题域上的top‑p=0.8头(按直接效应排序)。注意看:最高贡献的头不只是相同,连顺序都一模一样!而且几乎没有头只出现在某一种提示格式里。这个结果在问题域、模型规模、基础/指令版本上都很稳健。

这意味着:模型在两种提示格式下使用的电路几乎相同。既然“选项在前”时正确答案特征压根没法用,那这个共享的电路就不可能是(至少不主要是)靠正确答案特征来运作的。模型一定用了某种别的机制。

局限性:别把话说死

当然,理论上的论证只适用于引言中描述的那种特定假设机制,而且它只排除了“百分之百靠这个机制”的可能性。模型完全可能在特定场景下拿正确答案特征当辅助、当强化。

实验部分也有局限:我只测了Llama 3系列,没测其他模型家族。而且我只靠top‑p直接效应注意力头列表来推断机制,这顶多算个快照。说不定正确答案特征的电路依赖的是间接效应,或者跟“选项在前”的电路共享的恰好是同一批头——那我的分析就区分不出来了。

附录:实验细节

提示格式

所有实验都用了两种提示格式:

问题在前

A highly knowledgeable and intelligent AI answers multiple-choice questions.
{Question}
A) {option a}
B) {option b}
C) {option c}
D) {option d}
Answer: (

答案在前

A highly knowledgeable and intelligent AI answers multiple-choice questions.
A) {option a}
B) {option b}
C) {option c}
D) {option d}
{Question}
Answer: (

选取高精度域

目标是找出那些模型在两种格式下都能达到90%以上准确率的(模型,域)组合。实测了四种问题域:ARC‑Easy、简单加法(形如“X+Y=?”)、词汇题(给定义选单词)、和token匹配题(问“哪个选项是单词{word}”)。下面是各Llama模型在这四个域上的准确率(左侧为问题在前,右侧为答案在前,加粗表示两者均>90%)。

模型 ARC‑Easy 加法 词汇 Token匹配
Llama 3.2‑1B 0.352|0.274 1.0|1.0
Llama 3.2‑3B 0.334|0.25 1.0|1.0
Llama 3.2‑3B‑Instruct 0.448|0.25 1.0|0.982
Llama 3.1‑8B 0.916|0.552 0.3|0.25 1.0|1.0
Llama 3.1‑8B‑Instruct 0.418|0.748
Llama 3.1‑70B 0.98|0.856 0.7|0.4
Llama 3.1‑70B‑Instruct 0.986|0.918 0.808|0.444

最终选了三组做后续实验:(70B‑Instruct, ARC‑Easy)、(3B‑Instruct, 词汇)、(3B, Token匹配)。

Token标注方法

每个token被赋予多项标签:每个选项的字母标签、选项内容、选项末尾换行符、倒数三个token、前缀(选项内容除去末尾换行和倒数三个tokens)等;以上标签再区分正确选项和错误选项;前缀提示文本的每个token单独标签;问题token;答案指示“Answer: (”中的每个token。

头部发现方法

对每个配置,找出对最终残差流直接效应贡献80%的top‑p头。然后测量每个头平均给各标签token分配了多少值加权注意力。那些显著关注正确选项换行符的称为“正确换行头”,显著关注正确选项字母标签的叫“正确标签头”。跟Lieberum等人的结果一样,也发现了很多“晚段”注意力头(主要关注最后几个token)、“单答案头”和“常数头”。

详细结果与代码仓库

主仓库在此处,详细结果见此处。(注意:如果原文没有具体链接,我们不应添加。根据原文,只有文字”The main repo can be found here, with detailed results here.“ 没有实际链接,我们应保留原样,但需要检查是否属于推广信息。不是推广,是正常内容。我们改写为文字描述。)

  1. ^ 选项在前时准确率略低,这倒是符合正确答案特征辅助作用的预期,但差距很小(有些情况下甚至为负,参见附录)。
来源:https://www.bestblogs.dev/article/3ef83555?utm_source=rss&utm_medium=feed&utm_campaign=resources&entry=rss_article_item

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。