正确答案特征无法解释多选题能力的根本原因_AI热点日报

正确答案特征无法解释多选题能力的根本原因

类型：热点整理2026-07-03

先抛出核心结论：本文从理论和实验两个角度证明，大语言模型在做多选题时，不可能是（至少不完全是）靠所谓的“正确答案特征”来运作的。所谓“正确答案特征”，指的是模型在某个选项的最后一个token处，激活一个表示“这个选项正确”的方向向量。听起来干净利落，不少研究者也确实声称找到了这类特征。但现实情况要复

先抛出核心结论：本文从理论和实验两个角度证明，大语言模型在做多选题时，不可能是（至少不完全是）靠所谓的“正确答案特征”来运作的。所谓“正确答案特征”，指的是模型在某个选项的最后一个token处，激活一个表示“这个选项正确”的方向向量。听起来干净利落，不少研究者也确实声称找到了这类特征。但现实情况要复杂得多——既有理论上的硬伤，也有实验数据的反证。下面我们展开说。

为什么“正确答案特征”走不通

先看理论层面。经典的“正确答案特征”解释假设：模型只需看选项本身以及它前面的token，就能判断哪个选项正确。但有些题目偏偏不按这个套路出牌——选项的正确与否完全取决于它后面的上下文。两个典型例子：

非传递选项：比如问“在石头剪刀布中，哪个手赢？”，然后给出两个选项。当模型读到第一个选项的最后一个token时，它根本没法判断这个选项对不对，因为结果完全取决于第二个选项是什么！
后置细节：题目格式可能把关键信息放在选项后面，比如“对了，顺便说一句……”或者干脆连问题本身都放在选项之后。

读到这儿你可能会想：“也许模型在有条件的时候用正确答案特征，碰到上面这种特殊情况再换别的招？” 实验数据告诉我们：没那么简单。

实验证据：惊人的头列表一致性

为了验证猜想，我（此处允许一次第一人称，但后续尽量转化）先筛选了几组Llama模型和问题域的组合，这些组合在“问题在前”和“选项在前”两种提示格式下的准确率都超过了90%（详细筛选标准见附录）。接着，参照Lieberum等人方法的思路，我用直接效应归因找到了对模型预测正确答案贡献最大的注意力头——分别针对两种提示格式，然后对比结果。

如果正确答案特征是主要机制，那么在“选项在前”的情况下，模型就没办法在选项末尾用上这个特征（因为此时模型还没看到问题）。这样一来，模型要么大幅降准，要么换一套完全不同的注意力头。但实验结果让人大跌眼镜：

上图展示了三种不同Llama模型（涵盖不同规模和基础/指令版本）在三个问题域上的top‑p=0.8头（按直接效应排序）。注意看：最高贡献的头不只是相同，连顺序都一模一样！而且几乎没有头只出现在某一种提示格式里。这个结果在问题域、模型规模、基础/指令版本上都很稳健。

这意味着：模型在两种提示格式下使用的电路几乎相同。既然“选项在前”时正确答案特征压根没法用，那这个共享的电路就不可能是（至少不主要是）靠正确答案特征来运作的。模型一定用了某种别的机制。

局限性：别把话说死

当然，理论上的论证只适用于引言中描述的那种特定假设机制，而且它只排除了“百分之百靠这个机制”的可能性。模型完全可能在特定场景下拿正确答案特征当辅助、当强化。

实验部分也有局限：我只测了Llama 3系列，没测其他模型家族。而且我只靠top‑p直接效应注意力头列表来推断机制，这顶多算个快照。说不定正确答案特征的电路依赖的是间接效应，或者跟“选项在前”的电路共享的恰好是同一批头——那我的分析就区分不出来了。

附录：实验细节

提示格式

所有实验都用了两种提示格式：

问题在前：

A highly knowledgeable and intelligent AI answers multiple-choice questions.
{Question}
A) {option a}
B) {option b}
C) {option c}
D) {option d}
Answer: (

答案在前：

A highly knowledgeable and intelligent AI answers multiple-choice questions.
A) {option a}
B) {option b}
C) {option c}
D) {option d}
{Question}
Answer: (

选取高精度域

目标是找出那些模型在两种格式下都能达到90%以上准确率的（模型，域）组合。实测了四种问题域：ARC‑Easy、简单加法（形如“X+Y=?”）、词汇题（给定义选单词）、和token匹配题（问“哪个选项是单词{word}”）。下面是各Llama模型在这四个域上的准确率（左侧为问题在前，右侧为答案在前，加粗表示两者均>90%）。

模型	ARC‑Easy	加法	词汇	Token匹配
Llama 3.2‑1B	0.352\|0.274			1.0\|1.0
Llama 3.2‑3B		0.334\|0.25		1.0\|1.0
Llama 3.2‑3B‑Instruct		0.448\|0.25	1.0\|0.982
Llama 3.1‑8B	0.916\|0.552	0.3\|0.25		1.0\|1.0
Llama 3.1‑8B‑Instruct	0.418\|0.748
Llama 3.1‑70B	0.98\|0.856	0.7\|0.4
Llama 3.1‑70B‑Instruct	0.986\|0.918	0.808\|0.444

最终选了三组做后续实验：(70B‑Instruct, ARC‑Easy)、(3B‑Instruct, 词汇)、(3B, Token匹配)。

Token标注方法

每个token被赋予多项标签：每个选项的字母标签、选项内容、选项末尾换行符、倒数三个token、前缀（选项内容除去末尾换行和倒数三个tokens）等；以上标签再区分正确选项和错误选项；前缀提示文本的每个token单独标签；问题token；答案指示“Answer: (”中的每个token。

头部发现方法

对每个配置，找出对最终残差流直接效应贡献80%的top‑p头。然后测量每个头平均给各标签token分配了多少值加权注意力。那些显著关注正确选项换行符的称为“正确换行头”，显著关注正确选项字母标签的叫“正确标签头”。跟Lieberum等人的结果一样，也发现了很多“晚段”注意力头（主要关注最后几个token）、“单答案头”和“常数头”。

详细结果与代码仓库

主仓库在此处，详细结果见此处。（注意：如果原文没有具体链接，我们不应添加。根据原文，只有文字”The main repo can be found here, with detailed results here.“ 没有实际链接，我们应保留原样，但需要检查是否属于推广信息。不是推广，是正常内容。我们改写为文字描述。）

^ 选项在前时准确率略低，这倒是符合正确答案特征辅助作用的预期，但差距很小（有些情况下甚至为负，参见附录）。

来源：https://www.bestblogs.dev/article/3ef83555?utm_source=rss&utm_medium=feed&utm_campaign=resources&entry=rss_article_item

less

延伸阅读

补充最近整理过的热点入口。

模型	ARC‑Easy	加法	词汇	Token匹配
Llama 3.2‑1B	0.352\|0.274			1.0\|1.0
Llama 3.2‑3B		0.334\|0.25		1.0\|1.0
Llama 3.2‑3B‑Instruct		0.448\|0.25	1.0\|0.982
Llama 3.1‑8B	0.916\|0.552	0.3\|0.25		1.0\|1.0
Llama 3.1‑8B‑Instruct	0.418\|0.748
Llama 3.1‑70B	0.98\|0.856	0.7\|0.4
Llama 3.1‑70B‑Instruct	0.986\|0.918	0.808\|0.444