AI大模型数学推理稳定性存疑上海实验室揭示关键发现

首页

热心网友

转载

2026-05-14

你有没有过这样的体验：同一个数学问题，问ChatGPT这类AI助手，有时候它能给出完美解答，有时候却会出错？如果以为这只是偶然现象，那就错了。上海人工智能实验室的最新研究揭示了一个令人惊讶的事实：当前最先进的大语言模型在数学推理任务上其实“相当不稳定”，表现波动之大，就像一个发挥时好时坏的学生。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

上海人工智能实验室团队发现：AI大模型在数学推理中其实

这项于2024年12月发表在arXiv平台（论文编号2412.13147v5）的研究，为我们评估AI推理能力打开了新视角。团队深入剖析了现有评估方法的根本缺陷，并提出了一套全新的评估标准。

传统评估方式，好比只看一个学生某次考试的最高分，却完全忽略了他多次考试的成绩起伏。目前主流的“贪婪准确率”或“Pass@k”等指标，只关心模型能否在某一次尝试中答对，却忽视了一个核心问题：它能否稳定地给出正确答案。

这就如同评价篮球运动员，如果只盯着他手感最热时连投连中的片段，而不看整场比赛的命中率稳定性，结论显然有失偏颇。实际应用中，用户需要的是可靠的问题解决者，而非一个靠运气时对时错的助手。

为此，研究团队构建了一套全新的评估体系，其核心是一个名为“G-Pass@k”的指标。这个指标不仅衡量最佳表现，更评估稳定性。简而言之，传统评估问的是“你能答对这道题吗？”，而新方法问的是“你能在多次尝试中都答对这道题吗？”。

G-Pass@k的工作原理，类似于体检中的多项检查。医生不会仅凭单次血压读数就断定健康状况，而是需要多次测量、综合判断。同样，G-Pass@k要求模型在多次尝试中都能给出正确答案，或至少在绝大多数尝试中保持正确。

该指标还引入了“容忍阈值”的概念，用希腊字母τ表示。当τ接近0时，评估相对宽松，类似于传统Pass@k；当τ等于1时，评估则极为严格，要求模型在所有尝试中必须全对。通过调节τ，可以从不同维度审视模型的性能。

团队还进一步提出了综合指标“mG-Pass@k”，它如同一个综合评分，兼顾了模型的潜力上限与稳定表现。通过数学积分综合不同严格度下的表现，为模型能力勾勒出更全面的画像。

为了验证新方法的有效性，团队构建了一个全新的数学测试集“LiveMathBench”。它就像为AI准备的“高考数学卷”，题目来源涵盖中国高考、美国数学竞赛、普特南数学竞赛等，共计四个类别238道题，难度梯度分明。

LiveMathBench的设计关键，在于确保“考题”不会被AI提前“背熟”。鉴于当前大模型都基于海量网络数据训练，很可能已见过许多经典题目。因此，团队特意选取了最新、尚未广泛流传的竞赛题，以保证测试的公平与有效。

一、令人震惊的发现：AI推理能力远比想象中不稳定

当用新评估方法测试当前顶尖的AI模型时，结果颇具冲击性。仿佛揭开了华丽的面纱，露出了模型真实的“内里”。

在传统评估中表现优异的模型，在稳定性测试中却黯然失色。以目前公认强劲的DeepSeek R1为例，在LiveMathBench上，其传统准确率高达81.1%，这个分数本身相当亮眼。然而，当要求它在16次尝试中都必须答对时（即G-Pass@16，τ=1.0），准确率骤降至69.5%，跌幅达14.3%。

这种现象具有普遍性。即便是广受认可的GPT-4o，在稳定性测试中表现也大打折扣。更值得注意的是，部分模型的稳定性跌幅甚至超过50%，在最极端的情况下可能下滑90%。

这就像一个学生，偶尔能考95分，但多数时候只在60-70分徘徊。若只看其最好成绩，会误判为优等生；但观察其平均表现，就会发现实际水平并非如此。

研究还发现，这种不稳定性在面对高难度问题时尤为突出。在WLPMC（威廉·洛厄尔·普特南数学竞赛）这类极具挑战性的测试中，即便是表现最好的QwQ-32B-Preview模型，其传统准确率与稳定性表现之间的差距也高达69.1%。

这揭示了一个关键问题：当前的AI模型可能更擅长“模式匹配”或“套路解题”，而非真正掌握了稳定、可靠的数学推理能力。

二、更大的模型未必更稳定：规模与能力的复杂关系

“模型越大，能力越强”是一种常见直觉。但这项研究的发现，挑战了这一简单认知。

对比同系列不同规模的模型，出现了令人意外的现象。以Qwen2.5系列为例，参数为32B的模型与72B的模型，在各项指标上的表现几乎没有统计学上的显著差异，尽管后者的参数量是前者的两倍多。在LiveMathBench及其他公开数据集上，两者在传统准确率和稳定性指标上的差异普遍在2个百分点以内。

更反直觉的是，某些参数量更大的模型，如拥有1230亿参数的Mistral-Large-Instruct-2411，其性能和稳定性反而低于参数量更少的Qwen2.5-72B-Instruct。这好比一台排量更大的发动机，实际跑起来却不如小排量引擎快。

这表明，对于数学推理这类需要深度理解与逻辑思维的任务，单纯堆叠参数未必能带来预期的能力提升。就像学好数学不在于背诵更多公式，而在于理解其内在逻辑。

研究团队认为，当前AI模型仍有巨大潜力未被挖掘。与其盲目扩大规模，不如聚焦于改进训练方法与推理技术。这就像优化机器的运行效率，而非简单地把它造得更大。

这一发现对AI发展路径具有启示意义：无限追求模型规模的扩张可能并非最优解，更应关注训练质量、数据质量与算法创新。

三、理论潜力与实际表现的巨大落差

研究还揭示了一个值得深思的现象：AI模型的理论潜力上限与其实际稳定表现之间存在巨大鸿沟。就像一个天赋极高的学生，偶尔能灵光乍现，却无法稳定输出。

在测试中，研究人员用G-Pass@16 τ→0来衡量模型的性能上限（最理想情况），用G-Pass@16 τ=1.0来衡量其实际稳定表现。两者间的差距说明，当前模型虽具备解决复杂问题的潜力，但这种能力极不可靠。

几个典型模型的落差非常明显。GPT-4o的理论最佳表现可达70.8%，但稳定表现仅22.2%，差距超48个百分点。Claude-3.5-Sonnet的差距更大，理论表现71.2%与稳定表现26.6%之间相差44.6个百分点。

这类似于一个篮球运动员，训练时无人防守可百发百中，但正式比赛时命中率却大幅下滑。AI模型似乎在“理想条件”下能展现强大推理能力，但在需要持续稳定输出的“实战”中则表现不佳。

这种落差反映了当前AI训练方法的局限。现有方法可能让模型学会了某些解题技巧与模式，但未能培养出真正扎实、可迁移的推理能力。好比让学生大量刷题，或许能应对特定题型，却缺乏深层次的理解与举一反三的能力。

四、新评估方法的稳健性验证

为确保提出的G-Pass@k评估方法可靠有效，研究团队进行了大量稳健性测试。就像检验一把新尺子，需要在各种条件下反复测量，确保结果一致可信。

首先，测试了不同尝试次数k对结果的影响。无论是G-Pass@4、G-Pass@8还是G-Pass@16，评估结论都保持一致。这表明新方法不会因测试规模变化而产生偏差。

特别地，对于性能较强的推理模型，使用更大的k值能提供更好的区分度。如同使用更精密的仪器，能探测到更细微的差别。

其次，团队测试了样本数量n对评估准确性的影响。结果显示，当n较小时，G-Pass@k的估计值波动较大；随着n增大，估计值趋于稳定。基于此，团队建议在实际评估中，至少进行3k次生成以确保结果准确性。

这类似于民意调查，样本量不足则结果可能失真，样本量足够大时方能得到可靠结论。

更重要的是，团队验证了G-Pass@k在不同采样参数（如温度参数、top-p、top-k）下的表现稳定性。发现该方法在各种参数设置下均能给出一致的评估结果，证明了其良好的稳健性。

五、采样参数对模型稳定性的意外发现

测试过程中，团队还发现了一些关于模型稳定性的有趣规律。不同模型对采样参数的敏感性存在显著差异。

部分模型展现了良好的参数稳健性。例如Llama-3.3-70B-Instruct、Mistral-Large-Instruct-2411和Qwen2.5-72B-Instruct等，在不同采样参数下性能保持相对稳定。这类模型如同“全天候”选手，适应性强。

研究推测，这种稳健性可能与模型的参数量及训练充分度有关。参数更多、训练更扎实的模型，往往抗干扰能力更强。

然而，另一些模型对参数变化异常敏感。特别是一些专门针对数学推理优化的模型，如Qwen2.5-Math系列，在非常规采样参数下会出现明显的性能滑坡。这可能反映了这些模型在训练中过度适应了特定参数设置，导致泛化能力不足。

最引人注目的发现是关于O1类推理模型的表现。这类模型采用长链思维推理方式，在各种采样参数下都表现出异常稳定的性能。例如QwQ-32B-Preview模型，无论参数如何调整，其性能都维持在相对稳定的高位。

这种稳定性可能源于其独特的推理机制。它们并非直接输出答案，而是会进行长时间的“思考”，包含自我纠错与反思环节。就像一个解题极其细致的学生，会反复验算，因此不易受外界因素干扰。

六、问题难度对AI稳定性的巨大影响

团队进一步分析了问题难度对模型稳定性的影响，结果发现了一个严峻趋势：问题越难，AI模型的稳定性下降越剧烈。

为验证这一点，团队选取了两个难度迥异的测试集对比：代表高中水平的中国高考数学，以及代表大学顶尖难度的威廉·洛厄尔·普特南数学竞赛。

结果显示，几乎所有模型在面对高难度问题时，其传统准确率与稳定性之间的差距都急剧扩大。以QwQ-32B-Preview为例，在相对简单的高考题上，两者差距仅为6.3%；但在极具挑战性的普特南竞赛题上，这一差距飙升至69.1%。

这就像一个学生，做基础题时很稳，一遇到难题就开始“发挥失常”。这表明当前AI模型可能更依赖于表面模式识别，而非真正的深度推理。

更深层的分析指向一个关键问题：AI模型可能倾向于学习训练数据中的表面模式，而非掌握数学推理的本质。这也解释了为何传统Pass@k指标显示的性能提升，与实际推理能力的提升并不匹配。

这一发现对AI的实际应用具有警示意义。在处理复杂问题的场景中，仅依据传统评估指标来判断AI能力，可能导致严重的误判。

七、寻找提升AI推理稳定性的方法

发现问题后，团队自然探索解决路径。主要从两个方向入手：一是尝试通过监督微调提升稳定性，二是分析高稳定性模型的内在原因。

监督微调的实验结果出人意料。团队使用Qwen2.5-7B模型进行对比实验，故意让模型在训练中多次“见到”某些测试题（相当于反复练习）。理论上，这应能提升模型在这些题目上的稳定性。

然而，结果却显示，尽管模型的传统准确率有所提升，但稳定性改善非常有限。更甚者，随着“重复训练”次数增加，模型的稳定性下降趋势反而更明显。这好比学生通过刷题提高了卷面分数，但真实理解能力并未同步增长。

这表明，简单的监督微调无法从根本上解决推理稳定性问题。模型可能只是“记住了答案”，而非“学会了方法”。

相比之下，对O1类推理模型的分析提供了更有希望的线索。这些模型具备反思与自我纠错能力。分析其推理过程发现，它们会经历多次“决策变化”，表现为频繁的自我质疑与修正。

这种模式类似于谨慎学生的解题过程：不断检查计算，质疑假设，发现错误立即纠正。而传统模型则更像急于给出答案的学生，缺乏这种反思环节。

为验证这一推测，团队尝试在传统模型中引入“反思机制”，如在推理过程中插入“让我重新评估这一步”等提示。结果显示，该方法能在一定程度上提升稳定性，但效果仍有限。

八、深入模型内部：推理过程的机制分析

为更深入理解不同模型在稳定性上的差异，团队采用了一种创新分析方法，深入到AI模型的“思维过程”中进行观察。

他们使用了一种名为CoE-Score的技术指标，用于量化模型在推理过程中的“决策变化程度”。通过分析模型内部隐藏状态的变化趋势，可以了解其是否经历了多次“思考”与“重新考虑”。

实验结果很有趣。传统模型的CoE-Score曲线通常较为平坦，表明其推理过程几乎是“一条直线走到底”，很少改变初始思路。就像一个固执的学生，选定方法后就不再考虑其他可能。

相比之下，O1类推理模型的CoE-Score曲线则呈现明显波动，有频繁的峰谷。这表明它们在推理中经历了多次“决策变化”，会反复调整推理路径。这种行为模式更接近人类专家解决复杂问题时的思维过程。

进一步分析显示，这些“决策变化”往往发生在推理的关键节点，如选择解题方法、进行关键计算或验证答案时。这表明O1类模型具备一定的“元认知”能力，能在推理过程中监控和调节自己的思维。

这一发现为改进AI推理能力指明了方向。与其一味增加参数或数据，不如专注于培养模型的自我反思与纠错能力。这类似于教育中，与其让学生背更多公式，不如教会他们如何思考与检查。

团队认为，未来AI推理能力的突破，关键可能不在于模型规模的扩大，而在于推理机制的根本性改进。这需要从“知识灌输”转向“思维训练”。

九、对未来AI发展的深远影响

这项研究不仅是对当前AI能力的一次深度“体检”，更为其未来发展提供了重要启示。

首先，它改变了我们对AI评估的认知。传统方法如同只看学生最好成绩，忽视了稳定性。新的G-Pass@k评估体系要求以更全面、更严格的标准衡量AI的真实能力。这将对整个行业的评估标准产生深远影响。

对AI产品开发者而言，这意味着必须重新审视产品的可靠性。用户需要的是能持续稳定工作的助手，而非偶尔惊艳却时常出错的系统。这就要求开发者在追求性能峰值的同时，必须关注性能的稳定性。

从技术发展角度看，这项研究为AI推理能力的改进指明了新方向。与其盲目扩大规模，不如聚焦于改进推理机制，尤其是培养模型的自我反思与纠错能力。这种转向可能催生全新的AI架构与训练方法。

对于教育与人才培养，这项研究同样具有启发意义。它提醒我们，无论是培养AI还是培养人，都不应只追求“刷题式”的性能提升，而应注重培养真正的理解力与稳定的思维能力。

从更广泛的社会影响看，这项研究有助于公众形成对AI能力的客观认知。当前一些对AI的期望可能过于乐观，这项研究提醒我们，AI虽然在特定任务上表现出色，但在稳定性和可靠性上仍有长路要走。

这种认知转变对AI技术的健康发展至关重要。只有准确认识其能力与局限，才能更好地规划应用方向，避免过度依赖或不切实际的期望。

研究团队表示，将继续深入这一领域，特别是探索如何通过改进训练方法来提升AI的推理稳定性。他们也呼吁更多研究者关注AI的稳定性问题，共同推动这一重要课题的发展。

归根结底，这项研究揭示了一个朴素道理：真正的智能不仅在于偶尔的闪光，更在于持续稳定的优秀表现。如同评价一个人需看其长期表现而非单次巅峰，评价AI也需要更全面、更严格的标准。这项研究提供了这样的工具与视角，让我们能更准确地认识AI的真实水平，从而更好地指导其未来发展。

对普通用户而言，这项研究的启示是：使用AI助手时，不要因其偶尔的出色表现而完全信任其能力，尤其在处理重要问题时，最好多次尝试或寻求人工确认。对AI开发者而言，这项研究提醒他们，在追求性能突破的同时，必须将产品的稳定性和可靠性置于同等重要的位置。

这场关于AI推理稳定性的研究，如同为快速发展的AI技术踩下了一脚“理性的刹车”。它让我们在为其进步兴奋的同时，也保持必要的清醒与谨慎，这对AI技术的长远健康发展无疑大有裨益。

Q&A

Q1：G-Pass@k评估方法与传统Pass@k方法有什么区别？

A：传统Pass@k方法只关注模型在多次尝试中能否至少答对一次，如同只看学生的最高分。而G-Pass@k方法要求模型在多次尝试中都能给出正确答案，更关注稳定性和一致性，好比要求学生多次考试都保持高分。G-Pass@k还引入了容忍阈值τ，可灵活调节评估的严格程度。

Q2：为什么AI模型在数学推理中表现不稳定？

A：研究发现，AI模型可能更多依赖模式识别和表面特征匹配，缺乏真正的深度推理能力。它们像学会了解题套路但未真正理解概念的学生。面对复杂问题时，这种“投机取巧”的方式就会暴露出不稳定性。尤其在难题上，稳定性下降尤为剧烈。

Q3：什么样的AI模型推理稳定性更好？

A：研究表明，采用长链思维推理方式的O1类模型表现出更好的稳定性。这类模型具备自我反思和纠错能力，在推理过程中会经历多次“决策变化”，如同一个谨慎的学生会反复验算和质疑假设。相比之下，传统模型更像急于给出答案的学生，缺乏这种自我反思环节。

来源:https://www.techwalker.com/2026/0311/3180764.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：Meta AI新突破：大模型连续思维空间推理效率大幅提升下一篇：北大团队攻克AI训练噪声难题，语言模型在低质数据中高效学习