大模型越大越不可靠 Nature最新研究颠覆认知

时间：2026-07-03 15:38

人工智能（AI）模型的参数规模越大，生成的答案就越准确、越可信？还真不一定。最近，一项发表在权威期刊《自然》上的研究，给出了一个反直觉的结论：大参数模型其实更不爱承认自己“无知”，反而更容易给出错误答案。更扎心的是，人类用户还很难发现这些错误。这项研究来自瓦伦西亚理工大学团队及其合作者，他们系统评估

人工智能（AI）模型的参数规模越大，生成的答案就越准确、越可信？

还真不一定。

最近，一项发表在权威期刊《自然》上的研究，给出了一个反直觉的结论：大参数模型其实更不爱承认自己“无知”，反而更容易给出错误答案。更扎心的是，人类用户还很难发现这些错误。

这项研究来自瓦伦西亚理工大学团队及其合作者，他们系统评估了GPT、LLaMA和BLOOM系列大语言模型（LLM）。结果发现——虽然规模更大的模型在复杂任务上确实更准（这得益于RLHF等微调方法），但从整体可靠性来看，却是往下走的。

在所有不准确的回答中，错误答案占比反而上升了。尤其在简单任务上，大模型竟然更容易犯低级错误。比如GPT-4，在处理简单的加法和字谜时，错误率比某些小模型高出15个百分点。为什么？因为大模型不愿意回避问题——它更少说“我不知道”或转移话题，而是硬着头皮“编”一个答案。

这意味着什么？大参数模型在简单任务上可能出现了过度拟合或风险误判，结果反而更不可靠。

01 模型扩展带来“能力反差”

研究人员从人类与LLM交互的角度，拆解了三个核心维度：难度一致性、任务回避和提示稳定性，来考察模型的可靠性。

通讯作者José Hernández Orallo教授直言：“语言模型的可靠性与人类对任务难度的感知之间存在错位。它能解博士级的数学题，却可能在简单加法上翻车。”

团队对比了GPT、LLaMA、BLOOM三大系列在数字计算、文字游戏、地理知识、基础科学问题、高级科学问题以及信息转化等任务上的表现，通过正确率、错误率和回避行为，揭示了一个清晰的现象：模型规模扩展带来了“能力反差”。

难度悖论：“越简单，错得越多？”

一个关键发现是：模型在复杂任务上突飞猛进，但在简单任务上错误率反而上升。这种现象被称为“难度不一致”（Difficulty Inconsistency）。

以加法为例。模型能搞定多位数加法，可简单的两位数加法却频繁出错。所有LLaMA模型在最简单加法任务上的正确率都没超过60%，反而在较难任务中表现更稳。GPT系列也一样，优化后的模型在处理简单加法和字谜时，反而更容易给出错误答案。研究团队指出，这背后的原因可能是：模型扩展时过度聚焦复杂任务，简单任务被忽略了。

图 | GPT、LLaMA和BLOOM模型的关键指标

这一结果碘伏了传统认知——模型越大越全面的假设，在简单任务上被打了脸。也让人对实际应用中的可靠性打了个问号。

错误率与回避行为：“自信过头”

除了难度不一致，研究还发现优化后模型的回避行为与错误率之间，存在着微妙的此消彼长。

回避行为就是模型在不确定答案时，选择不答或给一个模糊回应。在未优化的模型中，回避行为很常见——就像人类遇到难题会说“这个我不太确定”。但经过扩展和优化，模型大幅减少了回避行为，转而给出更多看起来“合理”但实际错误的结果。

换句话说，优化让模型更“自信”了，但自信不代表正确。GPT-4和GPT-3.5-turbo尤其明显：规模扩展并没有带来预期的稳定性。LLaMA和BLOOM虽然趋势弱一些，但同样存在。

图 | GPT和LLaMA模型的性能随难度增加而提高

研究团队称，这种现象会诱发用户的过度信任——尤其是面对看似简单的任务时，用户更容易放松警惕。

论文第一作者Lexin Zhou表示：“这会导致最初依赖模型的用户感到失望。而且，模型不像人类，回避行为并不会随任务难度增加而增加。人类碰到超出能力范围的问题时，会选择不回答。但模型不会。这等于把发现错误的压力转嫁给了用户。”

提示词带来的是稳定性，还是陷阱？

研究还分析了模型对提示词的敏感性——是不是存在某种“安全区”，只要问法合适，模型就不会出错？

结果表明，随着模型规模增加，模型对不同自然语言表述的敏感度确实提高了，能更好地应对措辞变化。但是，即使经过扩展和优化，模型在不同难度任务上的表现仍然不一致。而且，不同表述下准确率依然有波动。

论文作者之一Yael Moros Da val指出：“模型是在我们预期的地方失败的吗？我们发现，模型在人类认为困难的任务上往往更不准，但即便在简单任务上，它们也做不到100%准确。这意味着不存在可以完全信任的‘安全区’。”

具体来说，未经优化的GPT和LLaMA对提示词的选择极度敏感——尤其是简单任务。提示词选得好，表现就提升；优化后的模型敏感度降低，表现更稳定，但仍然存在变异。

经过优化的模型相比原始模型，对提示变化更稳定，正确率更高，但在与人类判断难度的一致性和谨慎度方面，表现更差。

图 | LLaMA、BLOOM系列以及非结构GPT模型的尺度分析

研究发现，当用户对难度的预期和模型输出不一致时——尤其是简单任务——模型和用户双方都容易犯错，而且人类监督根本补不了这个窟窿。

尽管人类对任务难度的预期可以作为模型正确性的预测指标，但模型在简单任务上仍然出错；扩展和优化不仅减少了回避行为，还导致错误率上升，且回避行为与任务难度无关；即便扩展和优化后，提示工程仍然必不可少，而且提示带来的性能提升并不随难度单调增加。

这项研究不仅揭示了大模型扩展的关键盲区，也为AI未来发展划出了方向：在模型规模与任务难度之间找到最佳平衡，或许才是智能进化的真正关键。

论文作者之一Wout Schellaert总结道：“从人类的角度看，LLM正变得越来越不可靠。指望用户监督来纠正错误行不通，因为我们太依赖模型了，根本识别不出不同难度下的错误。所以，通用人工智能（AGI）的设计和开发需要根本性改变——尤其是在高风险场景中，预测语言模型的性能并检测其错误，至关重要。”

02 不足与展望

尽管这项研究在揭示LLM的提示敏感性、扩展与优化对性能的影响上成果显著，但也有一些局限性。

首先，参与者大多是非专家，解读校准难度值时要谨慎。某些基准数据集非专家可能答不上来，但研究目的是捕捉普通人的预期难度，以便跨数据集可比分析。

其次，研究使用的“自然”提示虽然来自多样化的来源，但并没有获取这些提示在真实场景中间出现的频率数据。

另外，研究只覆盖了部分模型，那些依赖外部工具或复杂推理技术的模型没有被纳入，这限制了对LLM在更复杂场景下动态表现的理解，无法全面评估不同模型的潜力与问题。

研究人员表示，下一步会扩大关于人类难度预期和输出监督的数据集，把更高质量的数据引入模型训练，并通过AI来训练监督者，从而改进优化过程。

在医疗等关键领域，模型可以通过设计拒答选项，或与外部AI监督者结合，来提高其回避能力。最终目标是让LLM展现出更符合人类预期的可靠性和一致性。

来源：https://www.aiagiai.com/4164.html

上一篇GPT-4o mini登顶竞技场揭秘OpenAI刷分秘诀奥特曼早有暗示 下一篇教你更高效使用Gemini的7个技巧玩转聊天机器人

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。