人工智能(AI)模型的参数规模越大,生成的答案就越准确、越可信?
还真不一定。
最近,一项发表在权威期刊《自然》上的研究,给出了一个反直觉的结论:大参数模型其实更不爱承认自己“无知”,反而更容易给出错误答案。更扎心的是,人类用户还很难发现这些错误。

这项研究来自瓦伦西亚理工大学团队及其合作者,他们系统评估了GPT、LLaMA和BLOOM系列大语言模型(LLM)。结果发现——虽然规模更大的模型在复杂任务上确实更准(这得益于RLHF等微调方法),但从整体可靠性来看,却是往下走的。
在所有不准确的回答中,错误答案占比反而上升了。尤其在简单任务上,大模型竟然更容易犯低级错误。比如GPT-4,在处理简单的加法和字谜时,错误率比某些小模型高出15个百分点。为什么?因为大模型不愿意回避问题——它更少说“我不知道”或转移话题,而是硬着头皮“编”一个答案。
这意味着什么?大参数模型在简单任务上可能出现了过度拟合或风险误判,结果反而更不可靠。
01 模型扩展带来“能力反差”
研究人员从人类与LLM交互的角度,拆解了三个核心维度:难度一致性、任务回避和提示稳定性,来考察模型的可靠性。
通讯作者José Hernández Orallo教授直言:“语言模型的可靠性与人类对任务难度的感知之间存在错位。它能解博士级的数学题,却可能在简单加法上翻车。”
团队对比了GPT、LLaMA、BLOOM三大系列在数字计算、文字游戏、地理知识、基础科学问题、高级科学问题以及信息转化等任务上的表现,通过正确率、错误率和回避行为,揭示了一个清晰的现象:模型规模扩展带来了“能力反差”。
难度悖论:“越简单,错得越多?”
一个关键发现是:模型在复杂任务上突飞猛进,但在简单任务上错误率反而上升。这种现象被称为“难度不一致”(Difficulty Inconsistency)。
以加法为例。模型能搞定多位数加法,可简单的两位数加法却频繁出错。所有LLaMA模型在最简单加法任务上的正确率都没超过60%,反而在较难任务中表现更稳。GPT系列也一样,优化后的模型在处理简单加法和字谜时,反而更容易给出错误答案。研究团队指出,这背后的原因可能是:模型扩展时过度聚焦复杂任务,简单任务被忽略了。

图 | GPT、LLaMA和BLOOM模型的关键指标
这一结果碘伏了传统认知——模型越大越全面的假设,在简单任务上被打了脸。也让人对实际应用中的可靠性打了个问号。
错误率与回避行为:“自信过头”
除了难度不一致,研究还发现优化后模型的回避行为与错误率之间,存在着微妙的此消彼长。
回避行为就是模型在不确定答案时,选择不答或给一个模糊回应。在未优化的模型中,回避行为很常见——就像人类遇到难题会说“这个我不太确定”。但经过扩展和优化,模型大幅减少了回避行为,转而给出更多看起来“合理”但实际错误的结果。
换句话说,优化让模型更“自信”了,但自信不代表正确。GPT-4和GPT-3.5-turbo尤其明显:规模扩展并没有带来预期的稳定性。LLaMA和BLOOM虽然趋势弱一些,但同样存在。

图 | GPT和LLaMA模型的性能随难度增加而提高
研究团队称,这种现象会诱发用户的过度信任——尤其是面对看似简单的任务时,用户更容易放松警惕。
论文第一作者Lexin Zhou表示:“这会导致最初依赖模型的用户感到失望。而且,模型不像人类,回避行为并不会随任务难度增加而增加。人类碰到超出能力范围的问题时,会选择不回答。但模型不会。这等于把发现错误的压力转嫁给了用户。”
提示词带来的是稳定性,还是陷阱?
研究还分析了模型对提示词的敏感性——是不是存在某种“安全区”,只要问法合适,模型就不会出错?
结果表明,随着模型规模增加,模型对不同自然语言表述的敏感度确实提高了,能更好地应对措辞变化。但是,即使经过扩展和优化,模型在不同难度任务上的表现仍然不一致。而且,不同表述下准确率依然有波动。
论文作者之一Yael Moros Da val指出:“模型是在我们预期的地方失败的吗?我们发现,模型在人类认为困难的任务上往往更不准,但即便在简单任务上,它们也做不到100%准确。这意味着不存在可以完全信任的‘安全区’。”
具体来说,未经优化的GPT和LLaMA对提示词的选择极度敏感——尤其是简单任务。提示词选得好,表现就提升;优化后的模型敏感度降低,表现更稳定,但仍然存在变异。
经过优化的模型相比原始模型,对提示变化更稳定,正确率更高,但在与人类判断难度的一致性和谨慎度方面,表现更差。

图 | LLaMA、BLOOM系列以及非结构GPT模型的尺度分析
研究发现,当用户对难度的预期和模型输出不一致时——尤其是简单任务——模型和用户双方都容易犯错,而且人类监督根本补不了这个窟窿。
尽管人类对任务难度的预期可以作为模型正确性的预测指标,但模型在简单任务上仍然出错;扩展和优化不仅减少了回避行为,还导致错误率上升,且回避行为与任务难度无关;即便扩展和优化后,提示工程仍然必不可少,而且提示带来的性能提升并不随难度单调增加。
这项研究不仅揭示了大模型扩展的关键盲区,也为AI未来发展划出了方向:在模型规模与任务难度之间找到最佳平衡,或许才是智能进化的真正关键。
论文作者之一Wout Schellaert总结道:“从人类的角度看,LLM正变得越来越不可靠。指望用户监督来纠正错误行不通,因为我们太依赖模型了,根本识别不出不同难度下的错误。所以,通用人工智能(AGI)的设计和开发需要根本性改变——尤其是在高风险场景中,预测语言模型的性能并检测其错误,至关重要。”
02 不足与展望
尽管这项研究在揭示LLM的提示敏感性、扩展与优化对性能的影响上成果显著,但也有一些局限性。
首先,参与者大多是非专家,解读校准难度值时要谨慎。某些基准数据集非专家可能答不上来,但研究目的是捕捉普通人的预期难度,以便跨数据集可比分析。
其次,研究使用的“自然”提示虽然来自多样化的来源,但并没有获取这些提示在真实场景中间出现的频率数据。
另外,研究只覆盖了部分模型,那些依赖外部工具或复杂推理技术的模型没有被纳入,这限制了对LLM在更复杂场景下动态表现的理解,无法全面评估不同模型的潜力与问题。
研究人员表示,下一步会扩大关于人类难度预期和输出监督的数据集,把更高质量的数据引入模型训练,并通过AI来训练监督者,从而改进优化过程。
在医疗等关键领域,模型可以通过设计拒答选项,或与外部AI监督者结合,来提高其回避能力。最终目标是让LLM展现出更符合人类预期的可靠性和一致性。
