游乐游手机版
首页/AI教程/文章详情

大模型越大越不可靠 Nature最新研究颠覆认知

时间:2026-07-03 15:38
人工智能(AI)模型的参数规模越大,生成的答案就越准确、越可信?还真不一定。最近,一项发表在权威期刊《自然》上的研究,给出了一个反直觉的结论:大参数模型其实更不爱承认自己“无知”,反而更容易给出错误答案。更扎心的是,人类用户还很难发现这些错误。这项研究来自瓦伦西亚理工大学团队及其合作者,他们系统评估

人工智能(AI)模型的参数规模越大,生成的答案就越准确、越可信?

还真不一定。

最近,一项发表在权威期刊《自然》上的研究,给出了一个反直觉的结论:大参数模型其实更不爱承认自己“无知”,反而更容易给出错误答案。更扎心的是,人类用户还很难发现这些错误。

这项研究来自瓦伦西亚理工大学团队及其合作者,他们系统评估了GPT、LLaMA和BLOOM系列大语言模型(LLM)。结果发现——虽然规模更大的模型在复杂任务上确实更准(这得益于RLHF等微调方法),但从整体可靠性来看,却是往下走的。

在所有不准确的回答中,错误答案占比反而上升了。尤其在简单任务上,大模型竟然更容易犯低级错误。比如GPT-4,在处理简单的加法和字谜时,错误率比某些小模型高出15个百分点。为什么?因为大模型不愿意回避问题——它更少说“我不知道”或转移话题,而是硬着头皮“编”一个答案。

这意味着什么?大参数模型在简单任务上可能出现了过度拟合或风险误判,结果反而更不可靠。

01 模型扩展带来“能力反差”

研究人员从人类与LLM交互的角度,拆解了三个核心维度:难度一致性、任务回避和提示稳定性,来考察模型的可靠性。

通讯作者José Hernández Orallo教授直言:“语言模型的可靠性与人类对任务难度的感知之间存在错位。它能解博士级的数学题,却可能在简单加法上翻车。”

团队对比了GPT、LLaMA、BLOOM三大系列在数字计算、文字游戏、地理知识、基础科学问题、高级科学问题以及信息转化等任务上的表现,通过正确率、错误率和回避行为,揭示了一个清晰的现象:模型规模扩展带来了“能力反差”。

难度悖论:“越简单,错得越多?”

一个关键发现是:模型在复杂任务上突飞猛进,但在简单任务上错误率反而上升。这种现象被称为“难度不一致”(Difficulty Inconsistency)。

以加法为例。模型能搞定多位数加法,可简单的两位数加法却频繁出错。所有LLaMA模型在最简单加法任务上的正确率都没超过60%,反而在较难任务中表现更稳。GPT系列也一样,优化后的模型在处理简单加法和字谜时,反而更容易给出错误答案。研究团队指出,这背后的原因可能是:模型扩展时过度聚焦复杂任务,简单任务被忽略了。

图 | GPT、LLaMA和BLOOM模型的关键指标

这一结果碘伏了传统认知——模型越大越全面的假设,在简单任务上被打了脸。也让人对实际应用中的可靠性打了个问号。

错误率与回避行为:“自信过头”

除了难度不一致,研究还发现优化后模型的回避行为与错误率之间,存在着微妙的此消彼长。

回避行为就是模型在不确定答案时,选择不答或给一个模糊回应。在未优化的模型中,回避行为很常见——就像人类遇到难题会说“这个我不太确定”。但经过扩展和优化,模型大幅减少了回避行为,转而给出更多看起来“合理”但实际错误的结果。

换句话说,优化让模型更“自信”了,但自信不代表正确。GPT-4和GPT-3.5-turbo尤其明显:规模扩展并没有带来预期的稳定性。LLaMA和BLOOM虽然趋势弱一些,但同样存在。

图 | GPT和LLaMA模型的性能随难度增加而提高

研究团队称,这种现象会诱发用户的过度信任——尤其是面对看似简单的任务时,用户更容易放松警惕。

论文第一作者Lexin Zhou表示:“这会导致最初依赖模型的用户感到失望。而且,模型不像人类,回避行为并不会随任务难度增加而增加。人类碰到超出能力范围的问题时,会选择不回答。但模型不会。这等于把发现错误的压力转嫁给了用户。”

提示词带来的是稳定性,还是陷阱?

研究还分析了模型对提示词的敏感性——是不是存在某种“安全区”,只要问法合适,模型就不会出错?

结果表明,随着模型规模增加,模型对不同自然语言表述的敏感度确实提高了,能更好地应对措辞变化。但是,即使经过扩展和优化,模型在不同难度任务上的表现仍然不一致。而且,不同表述下准确率依然有波动。

论文作者之一Yael Moros Da val指出:“模型是在我们预期的地方失败的吗?我们发现,模型在人类认为困难的任务上往往更不准,但即便在简单任务上,它们也做不到100%准确。这意味着不存在可以完全信任的‘安全区’。”

具体来说,未经优化的GPT和LLaMA对提示词的选择极度敏感——尤其是简单任务。提示词选得好,表现就提升;优化后的模型敏感度降低,表现更稳定,但仍然存在变异。

经过优化的模型相比原始模型,对提示变化更稳定,正确率更高,但在与人类判断难度的一致性和谨慎度方面,表现更差。

图 | LLaMA、BLOOM系列以及非结构GPT模型的尺度分析

研究发现,当用户对难度的预期和模型输出不一致时——尤其是简单任务——模型和用户双方都容易犯错,而且人类监督根本补不了这个窟窿。

尽管人类对任务难度的预期可以作为模型正确性的预测指标,但模型在简单任务上仍然出错;扩展和优化不仅减少了回避行为,还导致错误率上升,且回避行为与任务难度无关;即便扩展和优化后,提示工程仍然必不可少,而且提示带来的性能提升并不随难度单调增加。

这项研究不仅揭示了大模型扩展的关键盲区,也为AI未来发展划出了方向:在模型规模与任务难度之间找到最佳平衡,或许才是智能进化的真正关键。

论文作者之一Wout Schellaert总结道:“从人类的角度看,LLM正变得越来越不可靠。指望用户监督来纠正错误行不通,因为我们太依赖模型了,根本识别不出不同难度下的错误。所以,通用人工智能(AGI)的设计和开发需要根本性改变——尤其是在高风险场景中,预测语言模型的性能并检测其错误,至关重要。”

02 不足与展望

尽管这项研究在揭示LLM的提示敏感性、扩展与优化对性能的影响上成果显著,但也有一些局限性。

首先,参与者大多是非专家,解读校准难度值时要谨慎。某些基准数据集非专家可能答不上来,但研究目的是捕捉普通人的预期难度,以便跨数据集可比分析。

其次,研究使用的“自然”提示虽然来自多样化的来源,但并没有获取这些提示在真实场景中间出现的频率数据。

另外,研究只覆盖了部分模型,那些依赖外部工具或复杂推理技术的模型没有被纳入,这限制了对LLM在更复杂场景下动态表现的理解,无法全面评估不同模型的潜力与问题。

研究人员表示,下一步会扩大关于人类难度预期和输出监督的数据集,把更高质量的数据引入模型训练,并通过AI来训练监督者,从而改进优化过程。

在医疗等关键领域,模型可以通过设计拒答选项,或与外部AI监督者结合,来提高其回避能力。最终目标是让LLM展现出更符合人类预期的可靠性和一致性。

来源:https://www.aiagiai.com/4164.html
上一篇GPT-4o mini登顶竞技场 揭秘OpenAI刷分秘诀 奥特曼早有暗示 下一篇教你更高效使用Gemini的7个技巧玩转聊天机器人
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
批处理BAT入门教程第一篇
AI教程 · 2026-07-03

批处理BAT入门教程第一篇

提供13个批处理实战技巧,覆盖全盘查找并删除文件夹或文件、拷贝移动文件、创建畸形文件夹及设置隐藏属性等场景,可一键完成系统维护与文件管理工作,极大提升自动化操作效率和便捷性。

从零开始批处理命令For循环详解与实战案例
AI教程 · 2026-07-03

从零开始批处理命令For循环详解与实战案例

批处理For命令支持 d、 l、 r、 f四个参数。 d仅列出当前目录下的目录名; r递归搜索指定路径及其子目录中的文件; l生成数值序列; f可解析文件、字符串或命令输出,通过delims、tokens、skip、eol等选项灵活处理内容。

批评你的人是你生命中的贵人
AI教程 · 2026-07-03

批评你的人是你生命中的贵人

批评你的人往往最值得珍惜,因为他们关注你、助你成长。面对批评应包容反思,用行动改进而非辩解。接受批评是自我完善的过程,能让人少走弯路,避免重复犯错。这样的人正是生命中的贵人,值得感恩与珍惜。

测试人员角色定位与职责详解
AI教程 · 2026-07-03

测试人员角色定位与职责详解

测试人员角色经历了从找问题、保证质量到分析风险的转变,最终核心职责是提供关键信息,协助团队创造优秀产品。这包括识别问题、评估风险及帮助团队了解项目状态,而非单纯把关或追求完美。

经营成功测试生涯的实用方法与策略
AI教程 · 2026-07-03

经营成功测试生涯的实用方法与策略

一、测试生涯的起点 1989年,我在田纳西大学攻读研究生时,意外地从软件开发人员转行成为一名软件测试工程师。这并非我主动选择,说起来还有些戏剧性——某个早晨,教授质问我为何缺席那么多开发会议,我解释说这些会议总是安排在周末早上,对我这个第一次离家、刚入学的学生来说实在不便。结果呢?等待我的不是解聘通