AI大模型数学推理稳定性存疑上海实验室揭示关键发现
你有没有过这样的体验:同一个数学问题,问ChatGPT这类AI助手,有时候它能给出完美解答,有时候却会出错?如果以为这只是偶然现象,那就错了。上海人工智能实验室的最新研究揭示了一个令人惊讶的事实:当前最先进的大语言模型在数学推理任务上其实“相当不稳定”,表现波动之大,就像一个发挥时好时坏的学生。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这项于2024年12月发表在arXiv平台(论文编号2412.13147v5)的研究,为我们评估AI推理能力打开了新视角。团队深入剖析了现有评估方法的根本缺陷,并提出了一套全新的评估标准。
传统评估方式,好比只看一个学生某次考试的最高分,却完全忽略了他多次考试的成绩起伏。目前主流的“贪婪准确率”或“Pass@k”等指标,只关心模型能否在某一次尝试中答对,却忽视了一个核心问题:它能否稳定地给出正确答案。
这就如同评价篮球运动员,如果只盯着他手感最热时连投连中的片段,而不看整场比赛的命中率稳定性,结论显然有失偏颇。实际应用中,用户需要的是可靠的问题解决者,而非一个靠运气时对时错的助手。
为此,研究团队构建了一套全新的评估体系,其核心是一个名为“G-Pass@k”的指标。这个指标不仅衡量最佳表现,更评估稳定性。简而言之,传统评估问的是“你能答对这道题吗?”,而新方法问的是“你能在多次尝试中都答对这道题吗?”。
G-Pass@k的工作原理,类似于体检中的多项检查。医生不会仅凭单次血压读数就断定健康状况,而是需要多次测量、综合判断。同样,G-Pass@k要求模型在多次尝试中都能给出正确答案,或至少在绝大多数尝试中保持正确。
该指标还引入了“容忍阈值”的概念,用希腊字母τ表示。当τ接近0时,评估相对宽松,类似于传统Pass@k;当τ等于1时,评估则极为严格,要求模型在所有尝试中必须全对。通过调节τ,可以从不同维度审视模型的性能。
团队还进一步提出了综合指标“mG-Pass@k”,它如同一个综合评分,兼顾了模型的潜力上限与稳定表现。通过数学积分综合不同严格度下的表现,为模型能力勾勒出更全面的画像。
为了验证新方法的有效性,团队构建了一个全新的数学测试集“LiveMathBench”。它就像为AI准备的“高考数学卷”,题目来源涵盖中国高考、美国数学竞赛、普特南数学竞赛等,共计四个类别238道题,难度梯度分明。
LiveMathBench的设计关键,在于确保“考题”不会被AI提前“背熟”。鉴于当前大模型都基于海量网络数据训练,很可能已见过许多经典题目。因此,团队特意选取了最新、尚未广泛流传的竞赛题,以保证测试的公平与有效。
一、令人震惊的发现:AI推理能力远比想象中不稳定
当用新评估方法测试当前顶尖的AI模型时,结果颇具冲击性。仿佛揭开了华丽的面纱,露出了模型真实的“内里”。
在传统评估中表现优异的模型,在稳定性测试中却黯然失色。以目前公认强劲的DeepSeek R1为例,在LiveMathBench上,其传统准确率高达81.1%,这个分数本身相当亮眼。然而,当要求它在16次尝试中都必须答对时(即G-Pass@16,τ=1.0),准确率骤降至69.5%,跌幅达14.3%。
这种现象具有普遍性。即便是广受认可的GPT-4o,在稳定性测试中表现也大打折扣。更值得注意的是,部分模型的稳定性跌幅甚至超过50%,在最极端的情况下可能下滑90%。
这就像一个学生,偶尔能考95分,但多数时候只在60-70分徘徊。若只看其最好成绩,会误判为优等生;但观察其平均表现,就会发现实际水平并非如此。
研究还发现,这种不稳定性在面对高难度问题时尤为突出。在WLPMC(威廉·洛厄尔·普特南数学竞赛)这类极具挑战性的测试中,即便是表现最好的QwQ-32B-Preview模型,其传统准确率与稳定性表现之间的差距也高达69.1%。
这揭示了一个关键问题:当前的AI模型可能更擅长“模式匹配”或“套路解题”,而非真正掌握了稳定、可靠的数学推理能力。
二、更大的模型未必更稳定:规模与能力的复杂关系
“模型越大,能力越强”是一种常见直觉。但这项研究的发现,挑战了这一简单认知。
对比同系列不同规模的模型,出现了令人意外的现象。以Qwen2.5系列为例,参数为32B的模型与72B的模型,在各项指标上的表现几乎没有统计学上的显著差异,尽管后者的参数量是前者的两倍多。在LiveMathBench及其他公开数据集上,两者在传统准确率和稳定性指标上的差异普遍在2个百分点以内。
更反直觉的是,某些参数量更大的模型,如拥有1230亿参数的Mistral-Large-Instruct-2411,其性能和稳定性反而低于参数量更少的Qwen2.5-72B-Instruct。这好比一台排量更大的发动机,实际跑起来却不如小排量引擎快。
这表明,对于数学推理这类需要深度理解与逻辑思维的任务,单纯堆叠参数未必能带来预期的能力提升。就像学好数学不在于背诵更多公式,而在于理解其内在逻辑。
研究团队认为,当前AI模型仍有巨大潜力未被挖掘。与其盲目扩大规模,不如聚焦于改进训练方法与推理技术。这就像优化机器的运行效率,而非简单地把它造得更大。
这一发现对AI发展路径具有启示意义:无限追求模型规模的扩张可能并非最优解,更应关注训练质量、数据质量与算法创新。
三、理论潜力与实际表现的巨大落差
研究还揭示了一个值得深思的现象:AI模型的理论潜力上限与其实际稳定表现之间存在巨大鸿沟。就像一个天赋极高的学生,偶尔能灵光乍现,却无法稳定输出。
在测试中,研究人员用G-Pass@16 τ→0来衡量模型的性能上限(最理想情况),用G-Pass@16 τ=1.0来衡量其实际稳定表现。两者间的差距说明,当前模型虽具备解决复杂问题的潜力,但这种能力极不可靠。
几个典型模型的落差非常明显。GPT-4o的理论最佳表现可达70.8%,但稳定表现仅22.2%,差距超48个百分点。Claude-3.5-Sonnet的差距更大,理论表现71.2%与稳定表现26.6%之间相差44.6个百分点。
这类似于一个篮球运动员,训练时无人防守可百发百中,但正式比赛时命中率却大幅下滑。AI模型似乎在“理想条件”下能展现强大推理能力,但在需要持续稳定输出的“实战”中则表现不佳。
这种落差反映了当前AI训练方法的局限。现有方法可能让模型学会了某些解题技巧与模式,但未能培养出真正扎实、可迁移的推理能力。好比让学生大量刷题,或许能应对特定题型,却缺乏深层次的理解与举一反三的能力。
四、新评估方法的稳健性验证
为确保提出的G-Pass@k评估方法可靠有效,研究团队进行了大量稳健性测试。就像检验一把新尺子,需要在各种条件下反复测量,确保结果一致可信。
首先,测试了不同尝试次数k对结果的影响。无论是G-Pass@4、G-Pass@8还是G-Pass@16,评估结论都保持一致。这表明新方法不会因测试规模变化而产生偏差。
特别地,对于性能较强的推理模型,使用更大的k值能提供更好的区分度。如同使用更精密的仪器,能探测到更细微的差别。
其次,团队测试了样本数量n对评估准确性的影响。结果显示,当n较小时,G-Pass@k的估计值波动较大;随着n增大,估计值趋于稳定。基于此,团队建议在实际评估中,至少进行3k次生成以确保结果准确性。
这类似于民意调查,样本量不足则结果可能失真,样本量足够大时方能得到可靠结论。
更重要的是,团队验证了G-Pass@k在不同采样参数(如温度参数、top-p、top-k)下的表现稳定性。发现该方法在各种参数设置下均能给出一致的评估结果,证明了其良好的稳健性。
五、采样参数对模型稳定性的意外发现
测试过程中,团队还发现了一些关于模型稳定性的有趣规律。不同模型对采样参数的敏感性存在显著差异。
部分模型展现了良好的参数稳健性。例如Llama-3.3-70B-Instruct、Mistral-Large-Instruct-2411和Qwen2.5-72B-Instruct等,在不同采样参数下性能保持相对稳定。这类模型如同“全天候”选手,适应性强。
研究推测,这种稳健性可能与模型的参数量及训练充分度有关。参数更多、训练更扎实的模型,往往抗干扰能力更强。
然而,另一些模型对参数变化异常敏感。特别是一些专门针对数学推理优化的模型,如Qwen2.5-Math系列,在非常规采样参数下会出现明显的性能滑坡。这可能反映了这些模型在训练中过度适应了特定参数设置,导致泛化能力不足。
最引人注目的发现是关于O1类推理模型的表现。这类模型采用长链思维推理方式,在各种采样参数下都表现出异常稳定的性能。例如QwQ-32B-Preview模型,无论参数如何调整,其性能都维持在相对稳定的高位。
这种稳定性可能源于其独特的推理机制。它们并非直接输出答案,而是会进行长时间的“思考”,包含自我纠错与反思环节。就像一个解题极其细致的学生,会反复验算,因此不易受外界因素干扰。
六、问题难度对AI稳定性的巨大影响
团队进一步分析了问题难度对模型稳定性的影响,结果发现了一个严峻趋势:问题越难,AI模型的稳定性下降越剧烈。
为验证这一点,团队选取了两个难度迥异的测试集对比:代表高中水平的中国高考数学,以及代表大学顶尖难度的威廉·洛厄尔·普特南数学竞赛。
结果显示,几乎所有模型在面对高难度问题时,其传统准确率与稳定性之间的差距都急剧扩大。以QwQ-32B-Preview为例,在相对简单的高考题上,两者差距仅为6.3%;但在极具挑战性的普特南竞赛题上,这一差距飙升至69.1%。
这就像一个学生,做基础题时很稳,一遇到难题就开始“发挥失常”。这表明当前AI模型可能更依赖于表面模式识别,而非真正的深度推理。
更深层的分析指向一个关键问题:AI模型可能倾向于学习训练数据中的表面模式,而非掌握数学推理的本质。这也解释了为何传统Pass@k指标显示的性能提升,与实际推理能力的提升并不匹配。
这一发现对AI的实际应用具有警示意义。在处理复杂问题的场景中,仅依据传统评估指标来判断AI能力,可能导致严重的误判。
七、寻找提升AI推理稳定性的方法
发现问题后,团队自然探索解决路径。主要从两个方向入手:一是尝试通过监督微调提升稳定性,二是分析高稳定性模型的内在原因。
监督微调的实验结果出人意料。团队使用Qwen2.5-7B模型进行对比实验,故意让模型在训练中多次“见到”某些测试题(相当于反复练习)。理论上,这应能提升模型在这些题目上的稳定性。
然而,结果却显示,尽管模型的传统准确率有所提升,但稳定性改善非常有限。更甚者,随着“重复训练”次数增加,模型的稳定性下降趋势反而更明显。这好比学生通过刷题提高了卷面分数,但真实理解能力并未同步增长。
这表明,简单的监督微调无法从根本上解决推理稳定性问题。模型可能只是“记住了答案”,而非“学会了方法”。
相比之下,对O1类推理模型的分析提供了更有希望的线索。这些模型具备反思与自我纠错能力。分析其推理过程发现,它们会经历多次“决策变化”,表现为频繁的自我质疑与修正。
这种模式类似于谨慎学生的解题过程:不断检查计算,质疑假设,发现错误立即纠正。而传统模型则更像急于给出答案的学生,缺乏这种反思环节。
为验证这一推测,团队尝试在传统模型中引入“反思机制”,如在推理过程中插入“让我重新评估这一步”等提示。结果显示,该方法能在一定程度上提升稳定性,但效果仍有限。
八、深入模型内部:推理过程的机制分析
为更深入理解不同模型在稳定性上的差异,团队采用了一种创新分析方法,深入到AI模型的“思维过程”中进行观察。
他们使用了一种名为CoE-Score的技术指标,用于量化模型在推理过程中的“决策变化程度”。通过分析模型内部隐藏状态的变化趋势,可以了解其是否经历了多次“思考”与“重新考虑”。
实验结果很有趣。传统模型的CoE-Score曲线通常较为平坦,表明其推理过程几乎是“一条直线走到底”,很少改变初始思路。就像一个固执的学生,选定方法后就不再考虑其他可能。
相比之下,O1类推理模型的CoE-Score曲线则呈现明显波动,有频繁的峰谷。这表明它们在推理中经历了多次“决策变化”,会反复调整推理路径。这种行为模式更接近人类专家解决复杂问题时的思维过程。
进一步分析显示,这些“决策变化”往往发生在推理的关键节点,如选择解题方法、进行关键计算或验证答案时。这表明O1类模型具备一定的“元认知”能力,能在推理过程中监控和调节自己的思维。
这一发现为改进AI推理能力指明了方向。与其一味增加参数或数据,不如专注于培养模型的自我反思与纠错能力。这类似于教育中,与其让学生背更多公式,不如教会他们如何思考与检查。
团队认为,未来AI推理能力的突破,关键可能不在于模型规模的扩大,而在于推理机制的根本性改进。这需要从“知识灌输”转向“思维训练”。
九、对未来AI发展的深远影响
这项研究不仅是对当前AI能力的一次深度“体检”,更为其未来发展提供了重要启示。
首先,它改变了我们对AI评估的认知。传统方法如同只看学生最好成绩,忽视了稳定性。新的G-Pass@k评估体系要求以更全面、更严格的标准衡量AI的真实能力。这将对整个行业的评估标准产生深远影响。
对AI产品开发者而言,这意味着必须重新审视产品的可靠性。用户需要的是能持续稳定工作的助手,而非偶尔惊艳却时常出错的系统。这就要求开发者在追求性能峰值的同时,必须关注性能的稳定性。
从技术发展角度看,这项研究为AI推理能力的改进指明了新方向。与其盲目扩大规模,不如聚焦于改进推理机制,尤其是培养模型的自我反思与纠错能力。这种转向可能催生全新的AI架构与训练方法。
对于教育与人才培养,这项研究同样具有启发意义。它提醒我们,无论是培养AI还是培养人,都不应只追求“刷题式”的性能提升,而应注重培养真正的理解力与稳定的思维能力。
从更广泛的社会影响看,这项研究有助于公众形成对AI能力的客观认知。当前一些对AI的期望可能过于乐观,这项研究提醒我们,AI虽然在特定任务上表现出色,但在稳定性和可靠性上仍有长路要走。
这种认知转变对AI技术的健康发展至关重要。只有准确认识其能力与局限,才能更好地规划应用方向,避免过度依赖或不切实际的期望。
研究团队表示,将继续深入这一领域,特别是探索如何通过改进训练方法来提升AI的推理稳定性。他们也呼吁更多研究者关注AI的稳定性问题,共同推动这一重要课题的发展。
归根结底,这项研究揭示了一个朴素道理:真正的智能不仅在于偶尔的闪光,更在于持续稳定的优秀表现。如同评价一个人需看其长期表现而非单次巅峰,评价AI也需要更全面、更严格的标准。这项研究提供了这样的工具与视角,让我们能更准确地认识AI的真实水平,从而更好地指导其未来发展。
对普通用户而言,这项研究的启示是:使用AI助手时,不要因其偶尔的出色表现而完全信任其能力,尤其在处理重要问题时,最好多次尝试或寻求人工确认。对AI开发者而言,这项研究提醒他们,在追求性能突破的同时,必须将产品的稳定性和可靠性置于同等重要的位置。
这场关于AI推理稳定性的研究,如同为快速发展的AI技术踩下了一脚“理性的刹车”。它让我们在为其进步兴奋的同时,也保持必要的清醒与谨慎,这对AI技术的长远健康发展无疑大有裨益。
Q&A
Q1:G-Pass@k评估方法与传统Pass@k方法有什么区别?
A:传统Pass@k方法只关注模型在多次尝试中能否至少答对一次,如同只看学生的最高分。而G-Pass@k方法要求模型在多次尝试中都能给出正确答案,更关注稳定性和一致性,好比要求学生多次考试都保持高分。G-Pass@k还引入了容忍阈值τ,可灵活调节评估的严格程度。
Q2:为什么AI模型在数学推理中表现不稳定?
A:研究发现,AI模型可能更多依赖模式识别和表面特征匹配,缺乏真正的深度推理能力。它们像学会了解题套路但未真正理解概念的学生。面对复杂问题时,这种“投机取巧”的方式就会暴露出不稳定性。尤其在难题上,稳定性下降尤为剧烈。
Q3:什么样的AI模型推理稳定性更好?
A:研究表明,采用长链思维推理方式的O1类模型表现出更好的稳定性。这类模型具备自我反思和纠错能力,在推理过程中会经历多次“决策变化”,如同一个谨慎的学生会反复验算和质疑假设。相比之下,传统模型更像急于给出答案的学生,缺乏这种自我反思环节。
相关攻略
你有没有过这样的体验:同一个数学问题,问ChatGPT这类AI助手,有时候它能给出完美解答,有时候却会出错?如果以为这只是偶然现象,那就错了。上海人工智能实验室的最新研究揭示了一个令人惊讶的事实:当前最先进的大语言模型在数学推理任务上其实“相当不稳定”,表现波动之大,就像一个发挥时好时坏的学生。 这
人工智能在带来巨大便利的同时,其可能产生的“虚假信息”风险正受到法律日益明确的规范。近期,备受关注的“中国AI大模型名誉侵权第一案”在江苏南京审结,终审判决已正式生效。 事件的起因,源于江苏执业律师李小亮的一次亲身经历。他在使用百度公司推出的“AI智能回答”服务查询自己姓名时,意外发现AI自动生成的
在我们的日常生活中,看到一颗球滚下斜坡或者积木倒塌,我们能立刻预测接下来会发生什么。这种对物理世界的直觉理解似乎是理所当然的,但当科学家们试图让人工智能也具备这种能力时,却发现了一个令人惊讶的问题。 2026年2月,一项由滑铁卢大学、Autodesk AI实验室及独立研究者共同完成的研究,在学术界投
智元机器人,这家由前华&为“天才少年”彭志辉(稚晖君)联合创立的具身智能头部企业,刚刚官宣了一个重磅消息:他们将于2026年4月17日在上海,举办公司成立以来规模最大的一场合作伙伴大会。 这可不是一场普通的品牌秀。根据官方信息,大会将集中发布基于其“一体三智”全栈架构的8项重磅成果,包括4款全新本体
这项由英国南安普顿大学、阿拉伯科技大学KAUST、美国西北大学、英国利物浦大学以及Cohere公司联合完成的研究,于2026年2月以预印本论文(arXiv:2602 05494v1)的形式发布。研究瞄准了当前大语言模型训练中的一个核心痛点,并提出了一种名为ATR-GRPO(基于近似信任区域的GRPO
热门专题
热门推荐
5月12日,马来西亚吉隆坡成功举办了一场具有前瞻性的行业盛会——中国-马来西亚电动汽车、电池技术与新能源人才创新发展论坛。来自两国政府部门、领军企业、顶尖高校及国际组织的代表共聚一堂,深入交流了在未来产业协同、清洁能源技术创新及高端人才培养等核心领域的合作路径与机遇。 马来西亚第一副总理兼乡村及区域
具身智能要迈过的第一道硬门槛,从来都是量产。 过去几年,全球人形机器人行业反复印证了这一点:舞台演示可以很快,工程验证可以很快,视频传播也可以很快。但当一台机器人要从实验室走向产线,再走向客户现场,问题的复杂度会呈指数级上升。 特斯拉的Optimus就是一个典型的参照系。马斯克多次表达过对Optim
向朋友问路时,如果对方清楚路线,通常会立刻回答“直走然后左转”。但如果对方并不确定,往往会先停顿一下,犹豫地说“呃……好像是……往那边?”。这个开口前的短暂迟疑,往往比最终给出的答案更能说明问题——对方是否真的知道答案。 近期,美国天普大学计算机与信息科学系的一项研究,正是捕捉到了AI回答问题时类似
这项由浙江大学、华南理工大学、南京大学和北京大学联合开展的前沿研究,于2026年4月正式发布,其论文预印本编号为arXiv:2604 24575。 图像分割技术听起来或许有些专业,但它早已深度融入我们的日常生活。无论是智能手机拍摄的背景虚化人像、AI系统在CT影像中精准勾勒病灶轮廓,还是自动驾驶汽车
“大唐”预售热潮尚未平息,“大汉”已蓄势待发,比亚迪王朝系列正以前所未有的攻势,叩响高端市场的大门。 在北京车展引发轰动的比亚迪大唐,预售订单已迅速突破10万台大关,彰显了市场对比亚迪高端产品的强烈期待。而最新信息显示,汉家族即将迎来一位重磅新成员——“大汉”,这款定位D级旗舰的轿车,目标直指20-





