AI自我教学为何导致数学解题能力下降微软研究院深度解析
这项由微软研究院联合韩国科学技术院和首尔国立大学开展的研究,发表于2026年3月,揭示了一个颠覆性的发现:在某些特定场景下,让AI进行“自我教学”,反而可能导致其性能退化,变得更“笨”。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

在人工智能训练领域,一种名为“自我蒸馏”的技术备受关注。其核心逻辑是让同一个模型身兼“教师”与“学生”双重角色。教师模型能够访问标准答案,从而生成“完美”的推理示范;学生模型则通过模仿这一过程来学习。理论上,这应能提升模型的综合能力,类似于人类通过复盘自己的表现来精进技能。实践也证明,在化学、物理、编程等众多任务上,该方法确实有效,能使AI的回答更精炼、更高效。
然而,当研究团队将这一前沿方法应用于数学推理任务时,却得到了令人意外的结果:AI的表现不升反降,在某些测试中性能跌幅甚至高达40%。这好比一个原本擅长解题的学生,经过一番“特训”后,反而在基础题目上频频出错。为何在其他领域表现优异的训练策略,在数学推理上却遭遇“滑铁卢”?研究团队展开了深入探究。
一、神秘的“自我蒸馏”:当AI成为自己的老师
要理解这一矛盾现象,首先需要厘清“自我蒸馏”的具体运作机制。
想象你正在准备一场重要演讲,但缺乏导师指导。于是你采取了一种策略:录下自己的演讲过程,然后以观众或评审的视角去审视、批评它,从中找出改进点。“自我蒸馏”的核心思想与此异曲同工。在训练中,同一个AI模型被赋予双重身份:一个是知晓标准答案、能输出最优推理路径的“教师”;另一个是仅能看到问题、需要尝试求解的“学生”。学生通过模仿教师的“完美”解题步骤进行学习。
这一思路直观且富有吸引力:如果模型在知晓答案时能展示出最佳推理链,那么让它学习这条路径,理应提升其在未知问题上的表现。此前,该方法在科学问答、代码生成等任务上的成功也初步验证了其价值。
因此,研究团队满怀信心地将其应用于数学推理领域。他们选取了包括Qwen3-8B在内的多个主流模型,在一个包含17000个数学问题的庞大数据集上进行训练。结果却出人意料:模型的回答确实变得更加简洁,但在标准数学能力测试上的成绩却显著下滑。更值得深思的是,模型在训练见过的题目上表现尚可,可一旦遇到全新的、未见过的题型,其表现便大幅倒退。
这种现象类似于学生的“过度拟合”:通过大量练习掌握了特定题型的固定解法,但缺乏举一反三的灵活思维。然而,在AI的自我蒸馏训练中观察到如此显著的负面效果尚属首次。研究团队敏锐地意识到,问题的根源可能在于数学推理本身的特殊性——它高度依赖灵活性、创造性和审慎的逐步推导,而过度的“自信”输出和“简洁”风格可能会扼杀这些关键特质。
二、揭开谜底:信息越多,AI反而越“自信”
为了追溯问题根源,研究人员设计了一系列精巧的实验。他们的核心假设是:既然“教师”的优势在于拥有更多信息(即答案),那么通过控制信息量的多寡,或许能揭示AI行为变化的规律。
他们设置了四种不同的实验条件:让AI在完全无引导、看到完整解题过程(含中间思考步骤)、仅看到解题关键步骤(不含思考过程)、以及参考有答案指导生成的示范结果等不同信息量下进行问题回答。
实验结果呈现出清晰的规律:AI获得的信息越多,其生成的回答就越简短、语气也越自信。在没有任何额外信息提示时,AI生成的回答平均超过13000个字符,并且频繁使用“等等”、“或许”、“让我想想”这类表达不确定性和反思的词汇。这非常类似于人类在思考复杂难题时的自言自语和反复推敲过程。
然而,当AI能够直接看到完整答案时,情况发生了逆转。回答长度锐减至不足2000个字符,那些表示犹豫、自我质疑的词汇几乎完全消失。整个推理过程变得直截了当,仿佛在执行预设的程序,失去了原有的审慎探索和弹性调整空间。
关键在于,这些不确定性词汇并非冗余的“废话”。研究发现,它们实际上是AI进行内部自我监督和错误检测的重要“认知开关”。当AI说出“等等,这里好像有问题”时,它正在激活内部机制,准备重新评估当前的推理路线。这是一种初级的“元认知”能力,即对自身思维过程的监控与调节。
但在自我蒸馏训练中,“教师”因为知晓答案,其示范必然趋向于简洁而肯定。“学生”模仿这种风格,无形中丢弃了宝贵的自我质疑与检查能力,在面对新颖或复杂问题时变得武断,缺乏必要的应变与调整能力。
三、实验验证:简洁未必是美德
为了证实上述猜想,研究团队进行了一项关键的对比实验。
他们准备了两组训练数据,每组都包含800个数学题的正确解答。核心区别在于语言风格:第一组是AI自然生成的、冗长且充满不确定性表达的回答;第二组则是在答案直接指导下生成的、简洁而自信的回答。
如果输出简洁性真的对数学推理能力有益,那么使用第二组数据训练的模型理应表现更优。但实验结果恰恰相反。
使用简洁自信风格回答训练的模型,在各项数学基准测试中成绩均出现大幅下滑。例如,在难度较高的AIME24测试中,准确率从基线水平的54.79%暴跌至20.21%;在AMC23测试中,则从89.06%降至57.03%。相反,使用包含丰富不确定性表达的冗长回答训练的模型,性能保持稳定甚至略有提升。
这强有力地证明,在数学推理这类复杂任务中,那些看似“啰嗦”的不确定性表达,恰恰是维持AI思维灵活性和稳健性的关键。它就像一位习惯在每一步都反问“这步推理正确吗?”的审慎思考者,虽然解题速度可能稍慢,但思路清晰、稳健,善于应对未知变化。而那个追求快速、遵循固定套路解题的思考者,一旦遇到陌生题型或陷阱就容易失败。
四、动态训练中的意外发现:固定老师 vs 移动目标
研究进一步深入到更贴近实际应用场景的“在线训练”模式。在此模式下,AI边生成回答边根据“教师”的反馈进行实时调整。此时面临一个关键选择:是让“教师”的标准保持固定不变,还是让“教师”也随着训练进程一同更新迭代(即“移动目标”)?
直觉上,一个持续进步的“教师”理应能教导出更优秀的“学生”。但实验结果再次出人意料:固定教师的训练方式普遍优于移动目标的方式。
以擅长生成详细推理链的DeepSeek-R1模型为例,当使用固定教师进行训练时,其性能稳步提升,并且保持了原有的长回答和审慎风格。而当采用移动目标教师训练时,初期模型的回答长度和不确定性表达就急剧减少,性能随之显著恶化,在部分测试中跌幅接近40%。
这背后形成了一个危险的负向循环:AI被训练得越来越倾向于输出自信简洁的答案,而这种风格的输出又作为新的“教学样本”,进一步强化模型朝更自信、更简洁的方向演化。最终,AI可能变得盲目自信,彻底丧失审慎思考和自我纠错的能力。固定教师则像一个稳定的参照锚点,避免了这种风格上的极端化漂移。
研究还发现,不同基础风格的模型受此影响的程度各异。例如,本身就会生成超长思考链的Qwen3-8B模型,在自我蒸馏后回答长度被大幅压缩,性能受损严重;而原本回答风格就较为简洁的模型,所受影响则相对较小。
五、任务覆盖度的关键作用:为什么有些领域成功,有些失败?
这就引出一个核心问题:为何自我蒸馏在科学问答、编程等领域有效,偏偏在数学推理上失灵?
研究团队提出了“任务覆盖度”的概念来阐释这一差异。所谓任务覆盖度,可以理解为训练数据所涵盖问题类型的广泛性、多样性和代表性。
分析发现,在表现良好的化学问答数据集中,问题主要集中于有限的几大类,解题模式相对固定。编程任务的数据集规模通常更小,且训练和评估的问题在本质上相似。这意味着AI需要学习的“问题解决模式”是有限且可枚举的,简洁高效的风格利于快速匹配和执行固定模式。
但数学推理数据集则呈现出完全不同的特征。它包含上万个问题,横跨算术、代数、几何、概率、应用题等多个子领域,且评估时往往使用全新的、更具挑战性的竞赛题目。AI面临的是高度多样化、需要创造性思维和灵活策略的复杂挑战。
为了验证覆盖度的作用,研究人员调整了训练数据的规模。结果一目了然:当仅使用少量(几个到几十个)问题训练时,自我蒸馏效果很好,AI能快速掌握特定题型的“套路”。 然而,随着训练问题数量增加到几百个,覆盖的题型越来越广泛,自我蒸馏的优势便迅速消失,甚至开始产生负面效果。相比之下,传统的强化学习方法则随着数据量的增加而表现持续向好。
这揭示了一个深刻的原理:AI的推理风格必须与任务的内在复杂度相匹配。 对于模式固定、变化较少的简单任务,“简洁”与“自信”是效率的体现;对于复杂多变、需要探索的任务,一定的“推理冗余”和不确定性表达则是维持模型适应性和泛化能力的必需品。
六、深入机制:不确定性表达的神经基础
那么,这些不确定性表达在AI模型的内部计算中究竟扮演什么角色?研究团队聚焦于“等等”、“嗯”、“或许”、“检查”等十个常见词汇进行了深入的量化分析。
统计发现,这些词汇是AI思维过程的“调节阀”和“路标”。当AI生成“等等”时,往往意味着其内部计算即将暂停,并准备重新审视当前推理路径;“或许”表明它正在多个可能的选项或解释之间进行概率权衡;“检查”则直接触发了内部的错误检测与验证子程序。
这证实了真正的复杂推理并非一个线性的、单向的过程,而是一个动态的、包含自我调节与循环验证的认知循环。自我蒸馏训练通过提供看似“完美”的答案范例,无形中关闭或削弱了这个内部调节阀,使得推理过程变得机械而脆弱,缺乏应对意外情况的韧性。
值得注意的是,这种负面效应在面对越困难的问题时越明显。在相对简单的AMC测试中,性能下降尚在可接受范围;但在更复杂、更需要探索的AIME测试中,下降幅度就急剧扩大。这说明不确定性表达和审慎思维对于解决高难度、非标准问题尤为重要。
结论与启示
这项研究为我们理解人工智能的学习机制打开了一个崭新的视角。它挑战了一个广泛存在的观念:并非所有能让AI在训练集上表现更好、输出更简洁的方法都意味着真正的进步。有时,这种表面上的优化恰恰是以牺牲其处理新问题的“泛化能力”和“思维健壮性”为代价的。
那些在AI推理过程中看似“多余”的犹豫、自我提问和自言自语,实际上是其保持思维开放性、灵活性和自我监控能力的关键内在机制。这项发现提醒AI开发者和研究者,在评估和优化AI系统时,不能只关注最终的准确率、速度或输出简洁度等表面指标,更要深入审视其推理过程的可靠性、适应性和可解释性。
从更广义的视角看,这项研究也在启发我们重新思考何为“智能”。一个真正智能的系统,不仅要在熟悉的情境中高效准确,更要在面对未知挑战、模糊信息或复杂问题时,具备审慎探索、假设检验和动态适应变化的能力。这种高阶能力,往往始于承认“我可能还不知道正确答案”,并保留一份“让我再仔细推敲一下”的谨慎与谦逊。
对技术细节感兴趣的读者,可通过论文预印本编号 arXiv:2603.24472v1 查阅完整研究报告。
Q&A
Q1:什么是AI自我蒸馏技术?
A:这是一种前沿的AI训练方法,让同一个模型在训练中同时扮演“教师”和“学生”两个角色。“教师”能够访问标准答案,从而生成理想的推理过程作为示范;“学生”则通过模仿和学习这个示范过程来提升自身能力。其理念类似于通过反复复盘和自我批评来实现技能的精进。
Q2:为什么AI自我蒸馏在数学推理中表现不好?
A:核心原因在于,这种训练方式会抑制AI在复杂推理中自然产生的不确定性表达倾向。数学推理本质上需要灵活性、试错和路径探索,而不确定性词汇(如“等等”、“可能”、“检查一下”)是AI进行内部自我监督、路径调整和错误检测的重要认知信号。自我蒸馏提供的“完美”范例往往过于简洁和自信,导致AI在模仿过程中逐渐丧失了这种宝贵的审慎思维机制,从而在面对新颖或复杂问题时泛化能力和适应性下降。
Q3:这项研究对AI发展有什么实际意义?
A:它指出了当前AI训练范式中的一个潜在陷阱:在盲目追求输出简洁性和训练效率的同时,必须审慎评估其对模型“泛化能力”和“思维健壮性”可能造成的损害。特别是在需要深度逻辑推理、创造性问题解决的领域(如数学、科学发现、复杂决策),设计训练方法时应考虑如何保留甚至鼓励AI的审慎思维与自我质疑机制,而不是一味鼓励其输出“自信”但可能脆弱的答案。这为未来构建更可靠、更通用、更具适应性的AI系统提供了至关重要的设计指导原则。
相关攻略
2026年作为“十五五”的开局之年,两会政府工作报告中关于科技的部分尤其引人注目。其中,“深化人工智能+”的部署被明确提出,核心在于推动人工智能走向商业化与规模化,让这项技术真正走出实验室,融入千行百业,服务千家万户。这一政策风向,无疑为AI知识普惠领域划定了清晰的航道。 在这一背景下,专注于AI知
不知道你有没有同感,最近同时用着ChatGPT和Claude,会发现一个有趣的现象:这两款产品表面上看越来越像,可一旦真刀真枪地派活,它们完全是两码事。 根源在于,它们对“助手”二字的理解,从根儿上就不一样。 两条旧路:工具超市与全能管家 ChatGPT走的是“工具超市”路线。 它搭建了GPTs商店
要将豆包AI打造成您的专属知识中枢,实现长期记忆与精准调用特定领域信息,关键在于掌握其知识库功能的深度配置与进阶应用。这不仅是上传文件,更是构建一个结构化、可推理的智能知识体系。以下为您详解实现这一目标的完整操作框架。 一、创建并配置专属知识库 知识库是豆包AI调用外部资料的核心容器,是构建专属知识
腾讯AI产品WorkBuddy因访问超预期出现卡顿,团队紧急扩容。面对AI幻觉等行业挑战,腾讯积极布局类Claw产品并接入微信生态,反映出其AI焦虑与追赶决心。行业认为大厂意在抢占Agent时代先机,但产品长期成功仍需依靠技术与体验提升。
梳理一下各地的政策文件,会发现一个颇有意思的现象。 2025年7月,深圳发布了第二批“训力券”兑现申请指南,补贴比例最高可达60%,年度总预算高达5亿元。杭州方面同样积极,同年10月刚公示完第三批算力券的拟兑付结果,每年2 5亿元的额度,在已公开的数据中堪称最大手笔。 然而,仔细探究便会发现一个明显
热门专题
热门推荐
进入2026年,加密货币市场的格局与安全标准已悄然进化。对于投资者而言,选择一个安全可靠的交易平台,其重要性丝毫不亚于挑选资产本身。毕竟,资产增值的前提,是它们得安然无恙地躺在你的账户里。今天,我们就来盘一盘当前市场上主流的虚拟资产交易所,从风控能力、资产储备与市场口碑等多个维度,做一次深入的“避雷
本文梳理了2026年备受关注的数字资产交易平台,从安全性、功能特色与用户体验等维度进行分析。重点探讨了主流合规平台在资产托管、交易深度上的优势,以及新兴聚合器在提升交易效率方面的创新。同时,也指出了选择平台时需关注的风险控制与合规性,为不同需求的用户提供参考方向。
本文汇总了2026年主流的数字资产交易平台,从安全性、功能特色、用户体验及合规性等维度进行分析。内容涵盖适合新手的综合性应用、面向专业交易者的工具型软件,以及注重资产安全的托管方案,旨在为用户选择合适平台提供客观参考,并提醒注意市场风险与自我资产保护。
本文梳理了2026年主流的数字资产交易平台,从安全性、交易体验、功能特色等维度进行分析。重点介绍了综合型头部平台、专注创新的新兴应用以及面向特定需求的专业工具,旨在为用户提供客观参考,帮助其根据自身情况选择合适的软件进行下载与使用。
本文探讨了2026年数字货币交易软件的选择标准,并列举了十款主流应用。内容涵盖安全性、交易对、用户体验及费用等核心考量维度,分析了不同平台在现货、合约及DeFi集成等方面的特色,旨在为不同层级的用户提供实用参考,帮助其根据自身需求做出合适选择。





