斯坦福英伟达联合研究揭示AI训练中重复数据为何更有效

首页

热心网友

转载

2026-05-13

这项由纽伦堡科技大学、Mistral AI和英伟达联合开展的研究，为我们理解AI如何学习复杂推理，打开了一扇碘伏性的窗口。其论文编号为arXiv:2602.11149v1，有兴趣的读者可以查阅。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

斯坦福与英伟达联合研究：AI训练为什么

想想我们是怎么教孩子学数学的？通常会让他在同一类题目上反复练习，直到彻底掌握。然而，在人工智能的训练领域，长期以来的主流做法却截然相反——追求给模型喂入海量且不重复的数据，仿佛“知识面”越广越好。但这项发表于2026年初的研究，揭示了一个反直觉的结论：在训练AI进行复杂推理时，让模型反复“咀嚼”同样的内容，其效果竟然远超走马观花式地学习新样本。

研究聚焦于“有监督微调”这一阶段，这好比在AI已具备基础知识后，专门训练其解决难题的思维。他们发现，与其提供成千上万道不同的推理例题，不如让AI对几百道题进行多轮、深度的练习。这种“重复学习”策略的优势令人惊讶：在总训练时间相同的前提下，让模型在400个样本上练习128轮，其表现竟比在51200个不同样本上只练1轮的模型高出12到26个百分点。

这直接挑战了机器学习的一个核心信条。传统观念认为，数据多样性和避免“过拟合”（即死记硬背）是泛化能力的关键。但这项研究暗示，对于推理这类任务，深度掌握有限的模式，可能比浅尝辄止地接触海量模式更为有效。更关键的是，研究者找到了一个清晰的“停止信号”：当模型能够近乎完美地复现（即“记住”）训练材料时，其在新问题上的推理能力也恰好达到峰值。这背后隐藏的科学谜题——为何“记住”反而能“泛化”——正吸引着整个社区的关注。

一、传统观念的碘伏：重复真的比新鲜更好吗？

“数据越多越好，且要尽可能不同”，这几乎是机器学习领域的金科玉律，如同营养学中“膳食多样”的建议一样根深蒂固。人们相信，让AI见识足够多、足够不同的案例，是它学会举一反三的基础。

但研究团队在深入探究AI的推理训练过程时，发现了疑点。为了验证，他们设计了一个精巧的对照实验：固定总训练时间，对比两种策略。一种是传统思路，让模型学习大量不重复的推理案例，每个只学一次；另一种则是“重复学习”，让模型对少量案例进行多轮学习。

结果出人意料。在AIME数学竞赛题和GPQA科学问答测试中，“重复学习”策略大获全胜。那个只反复练习400道题128轮的模型，表现显著优于刷了51200道不同题但只练一轮的模型。而且，这一规律在70亿参数的OLMo3和80亿参数的Qwen3等不同规模的模型上都得到了验证，说明这并非偶然。

优势具体体现在哪里？主要在于模型的“终止率”，即能否完整走完推理链条并给出最终答案的能力。传统方法训练的模型更容易在推理中途“卡壳”，而经过反复训练的模型，则像解题熟练的学生，思路更连贯，更能坚持到底。

二、神奇的记忆临界点：完美记忆竟是最佳停止信号

深入研究后，一个更奇妙的规律浮现出来：模型性能的提升并非线性，而是在达到某个临界点后趋于平稳。而这个临界点，恰好对应着模型对训练数据达到近乎100%的“记忆准确度”。

这好比练习一首钢琴曲。初学时看谱弹奏，错误频出；反复练习后，错误减少，直至能够脱谱完美演奏。此时，对这首曲子的理解和技巧掌握也达到顶峰，再练下去，技艺也不会明显退化，但也不会倒退。

研究人员发现，当模型在训练数据上的预测准确度接近完美时，它在全新测试问题上的表现也同步达到最佳。这个“记忆饱和”现象主要由训练轮次驱动，而非数据量。即便数据很少，只要轮次足够，模型也能达到完美记忆；反之，数据海量但轮次不足，记忆度始终不高。

更具悖论色彩的是，当模型记忆饱和后，会呈现出经典的“过拟合”迹象——训练损失持续下降，而验证损失开始上升，模型预测变得过度自信。按传统理论，这预示着泛化能力变差。但在这里，尽管出现过拟合信号，模型在新推理任务上的表现却依然保持在最优水平。这强烈暗示，对于推理任务，达到完美记忆可能是释放其潜在能力的必要步骤，而非简单的机械背诵。

三、训练数据品质的意外发现：错误答案也有价值

为了进一步理解重复学习，团队开始审视训练数据本身的特性。他们首先考察了“教师模型”能力的影响。在知识蒸馏中，通常用更强的“教师”模型生成推理示范来训练“学生”模型。

实验发现，无论教师模型强弱，重复学习的优势依然存在。但区别在于：当教师能力较弱时，盲目增加示范数据量，反而会导致学生性能下降，这类似于“被平庸的老师拖累”。而当教师足够强大时，增加数据量和增加轮次都有益，但轮次的增益仍然更显著。

更碘伏常识的发现来自对“错误示范”的研究。在生成推理链时，即使强大的教师模型也可能得出错误答案。通常，这些错误样本会被剔除。但研究团队专门用这些“错误轨迹”来训练模型，结果令人惊讶：即使在错误样本上进行重复学习，模型的推理能力依然提升，且模式与使用正确样本时一致。在某些测试中，用错误样本训练的模型表现甚至略优于用正确样本训练的模型。

这挑战了我们对“正确答案”的执念。或许，错误的解题过程中蕴含了对问题的深度思考和多种路径的尝试，其过程本身具有学习价值。接触这些高难度、连教师都会出错的“失败尝试”，可能反而锻炼了模型处理复杂问题的思维韧性。

四、意外的副作用：重复学习反而减少遗忘

一个自然的担忧是：这种专注于推理的深度训练，是否会让AI“偏科”，导致其他通用知识被遗忘（即“灾难性遗忘”）？

为了检验，研究人员使用了涵盖57个学科的MMLU基准测试来评估模型的综合知识保留情况。结果再次出乎意料：采用重复学习策略的模型，在通用知识上的遗忘程度，反而比传统数据扩展策略更轻。

这意味着，重复学习不仅在目标推理任务上表现更好，还是一个“严格更优”的选择——它以更小的通用知识代价，换来了更大的专项能力提升。一种可能的解释是，深度的推理训练帮助模型构建了更稳定、更系统化的内部知识结构，使得新能力与旧知识更好地整合，而非简单覆盖。

五、理论挑战：记忆与泛化的悖论

这项研究最深层的价值，在于它提出了一个根本性的理论挑战：为什么在推理训练中，对训练数据的完美记忆，反而能提升其在全新问题上的表现？这违背了经典机器学习理论中“记忆”与“泛化”通常对立的假设。

研究团队提出了几种可能的解释机制。一是“能力激活假说”：预训练后的AI已具备潜在的推理能力，专项训练只是激活并强化了访问这些能力的“神经通路”。二是“结构内化假说”：重复学习让模型内化的不是具体内容，而是通用的推理模式和结构。三是“置信度校准假说”：重复练习帮助模型形成了更准确的自我评估能力，知道何时该自信，何时该谨慎。

此外，研究观察到模型在记忆饱和后，输出置信度显著增高（概率分布更集中），这通常被视为过拟合的标志，但在此却与更好的性能共存。这暗示，在推理任务中，建立在充分练习基础上的“自信”，或许本身就是一种优势。