天津大学联合发布TEMPO方法解决大模型考试能力僵化问题

首页

热心网友

转载

2026-05-15

这项由天津大学、阿里巴巴通义实验室、香港中文大学和上海人工智能实验室联合完成的研究，以预印本形式于2026年4月21日发布在arXiv平台，论文编号为arXiv:2604.19295v1，研究方向属于机器学习领域。

天津大学等机构联合提出TEMPO：让AI在考试时也能

一、一个让人头疼的问题：AI在考场上为什么会“卡壳”

想象一下，一位参加竞赛的学生，如果仅仅依赖过往学到的知识，完全无法根据考场上的新题型灵活调整解题思路，他的成绩会受到多大限制？现实中，聪明的学生懂得在考试中灵活应变，遇到新题会即兴推导，遇到熟悉的题目也会结合考场氛围优化策略。然而，当前最顶尖的AI推理模型——那些能够解答奥数题、进行复杂逻辑推理的大语言模型——恰恰陷入了这种困境：它们的“知识”和“思维方式”在训练结束后就被永久“固化”了。在实际应用（即推理阶段）时，它们只能调用固定的存量知识，无法根据新题目的具体特点进行实时的自我更新与优化。

这绝非一个小问题。随着越来越多的研究者希望AI能在实际使用阶段持续进步，一种名为“测试时训练”（Test-time Training, TTT）的技术应运而生。其核心理念是：允许AI在回答问题的过程中，对其内部参数进行微小的、实时的更新，好比让考场上的学生可以边做题边“现场补课”。

但现有的测试时训练方法很快暴露了一个深层次矛盾：AI在考场上没有标准答案可供参考，只能依靠自身判断对错。这就如同一个学生既当选手又当裁判，久而久之，其对答题质量的评判标准会逐渐产生偏差，开始用“多数人的选择”替代“答案本身的正确性”。结果是，AI的性能在短暂提升后迅速陷入停滞，甚至开始“跑偏”——不再尝试多样化的解题路径，而是越来越执着于某种固定的输出模式。这种现象在学术上被称为“多样性崩塌”。

正是为了打破这一僵局，前述四家机构的研究团队提出了创新的TEMPO框架。TEMPO的全称是“测试时期望最大化策略优化”（Test-time Expectation-Maximization Policy Optimization）。它的核心突破在于：在AI“边考试边学习”的过程中，引入一个会定期接受“外部标准答案”校正的独立评判员，从而确保AI的自我评价机制始终保持可靠与准确。

二、现有方法为何总在原地打转：自说自话的恶性循环

要理解TEMPO为何有效，首先需要厘清现有方法失败的根本原因。

目前主流的测试时训练方法，如TTRL和EMPO，都采用一种“自我奖励”机制。以TTRL为例，其逻辑如下：让AI对同一道题目生成多个备选答案，然后统计哪个答案出现频率最高，就将该答案视为“正确答案”，并以此奖励AI——鼓励它在未来更多地生成此类答案。这类似于在一个没有老师的班级里，让学生们通过投票来决定作业答案，得票最多的便成为“标准答案”。

这个逻辑起初看似合理：如果大多数模型输出都指向某个答案，它至少不会太离谱。但问题在于，随着AI不断强化这个“多数派”答案，它对答案的信心会越来越高。即便答案是错误的，AI也会越来越确信其正确性，并继续用它来训练自己。这就形成了一个无法自我纠正的正反馈循环：错误的答案变得更加主流，主流的答案进一步被强化，最终导致AI的思维完全固化在一条逐渐偏离正确轨道的路径上。EMPO采用了另一种名为“熵”的指标来衡量答案质量，但本质上仍然是利用AI自身的输出来评价自己，最终遭遇了同样的困境。

研究团队从数学角度精确刻画了这一现象。他们运用经典的“期望最大化”（EM算法）统计框架来分析整个测试时训练过程，发现了一个关键缺失：所有现有方法都只完成了EM算法中的“M步”（即根据当前的评估结果来更新模型参数），却完全跳过了至关重要的“E步”（即定期校正评估标准本身的准确性）。这就好比一个工厂的生产线每天都在努力优化工艺，但用来检验产品合格与否的测量仪器却从不校准——即使仪器本身已经产生严重漂移，生产线依然依据漂移后的读数进行“优化”，结果自然是越优化，偏差越大。

三、TEMPO的核心设计：给评判员装上“定期校正装置”

TEMPO的解决方案围绕一个简单而关键的想法展开：将“由谁来评判答案质量”这一职责，从AI自身剥离出来，交给一个独立的评判员（在论文中称为“批评者模型”，Critic Model）。并且，这个评判员会定期回到拥有标准答案的题库中进行“回炉重造”，重新校准自己的判断能力。

整个TEMPO框架分为两个交替进行的阶段，构成一个高效的学习-校正循环。

第一个阶段是“策略精炼”，对应EM算法中的M步。在此阶段，AI（即“策略模型”）会针对那些没有标准答案的新题目，大量生成解题过程。每个解题过程都会提交给独立的评判员进行打分。评判员给出的是一个连续的质量分数（而非简单的对错二分），AI则根据这些分数来更新自己的参数：高分思路得到强化，低分思路被弱化。

第二个阶段是“批评者重校准”，对应EM算法中的E步，也是整个TEMPO框架最具创新性的部分。在此阶段，评判员会暂时脱离“仅观察AI自身输出”的环境，回到一批拥有真实标准答案的题目上重新接受训练。训练目标非常明确：对于每道有答案的题目，预测AI生成的某个回答“最终是否正确”，并通过与真实结果的对比来不断校正自己的预测能力。这个过程采用“均方误差最小化”这一标准技术，目标是让评判员打出的分数无限接近真实正确与否。

两个阶段交替循环：AI解答新题，评判员打分；评判员返回标注题库校正自身；AI再解答新题，评判员再次打分……如此往复。由于评判员的评分能力始终被真实答案所“锚定”，它就不会随着AI策略模型的变化而发生漂移，从而能为AI的持续进步提供一个稳定、可靠的方向指引。

从数学理论上看，TEMPO的这种设计保证了优化目标的下界（即“证据下界”，ELBO）在训练过程中持续收紧，而不是像现有方法那样随着时间推移逐渐松弛。这意味着TEMPO的每一步优化都在真正朝着“答题准确率不断提升”的目标前进，而非在一个不断漂移的伪目标上原地踏步。

在具体工程实现上，评判员还有一个精巧的设计：它并非仅在回答全部结束后给出一个总分，而是在生成回答的每一个词（Token）之后都给出一个即时预测值，表示“如果在此刻停止，这个回答最终正确的概率是多少”。这种逐词打分的方式使得AI能够精准识别在生成的哪个环节走了弯路，从而更精细地调整其推理过程。AI最终得到的“优势信号”（即每个词对最终成功的贡献度）等于“最终实际获得的奖励”减去“在生成该词之前评判员预测的期望奖励”。这种设计在工程上显著降低了训练过程的方差，使得学习信号更加稳定。

四、实验结果：数字背后的真实差距

研究团队在多个主流模型和多个权威基准测试上对TEMPO进行了系统性评估，对比基线包括标准的强化学习方法（PPO），以及现有的两种自奖励式测试时训练方法（TTRL和EMPO）。

在数学推理能力评估方面，使用了AIME 2024、AIME 2025、Beyond AIME、AIME 2026以及OlymMath这五个奥林匹克级别的数学竞赛题库。选用的模型包括OLMO3-7B和Qwen3系列（8B和14B两个规模）。所有模型在正式进入测试时训练前，都先使用一个包含约17000道有标准答案数学题的数据集（DAPO-Math-17K）进行了初始化强化学习训练，以建立基础推理能力，然后再启动TEMPO的测试时训练流程。

以OLMO3-7B模型为例，在经过初始强化学习训练后，其在AIME 2024测试集上的平均准确率为33.0%。采用TTRL方法可将其提升至40.8%，EMPO可提升至41.6%，而TEMPO则将其显著推升至51.1%——提升幅度是TTRL和EMPO的三到四倍。在AIME 2025上，TEMPO将准确率从26.3%提升到37.0%，而TTRL仅能达到27.1%，EMPO仅达到26.7%，几乎原地踏步。

在更大规模的Qwen3-14B模型上，TEMPO的效果同样突出。在AIME 2024上，初始基线为42.3%，TTRL提升到53.1%，EMPO提升到55.6%，而TEMPO直接跨越到65.8%，绝对提升幅度高达23.5个百分点。在AIME 2025上，TEMPO从37.1%提升到44.6%，绝对提升7.5个百分点，而TTRL和EMPO的提升分别为3.7和7.5个百分点（TEMPO与EMPO持平，但显著优于TTRL）。中等规模的Qwen3-8B模型同样受益于TEMPO，在AIME 2024上从26.3%跃升至42.7%，提升幅度达16.4个百分点。

除了平均准确率，研究团队还特别关注一个名为“pass@K”的指标，它衡量的是：针对同一道题目生成K个不同答案，其中至少有一个答案正确的概率。这个指标反映了模型思维的多样性——如果模型每次都生成一模一样的答案，那么无论生成多少次，正确率也不会提高；但如果模型能够从多个角度尝试不同思路，那么随着尝试次数增加，命中正确答案的概率就会持续上升。

TTRL和EMPO在这个指标上的表现令人担忧：以Qwen3-14B为例，在Beyond AIME测试集上，基线方法的pass@8为50.0%，经过TTRL训练后降至29.4%，EMPO训练后降至31.4%——不仅没有提升，反而显著下降。这意味着这两种方法虽然让模型的平均准确率有所提升，却是以牺牲思维多样性为代价的，模型被“训僵化”了，只会走一条固定的路径。TEMPO在同一测试集上的pass@8为46.3%，虽然与50.0%的基线相比略有下降，但远优于TTRL和EMPO的崩塌式下降。在其他测试集上，TEMPO的pass@K甚至超过了基线，例如在Beyond AIME上，OLMO3-7B的pass@8从38.8%提升到44.0%；在AIME 2024上，从56.1%提升到61.6%。

研究团队还用性能曲线图直观展示了TEMPO随训练步数增加的表现。从图中可以清晰看到，TTRL的曲线在大约前50步快速上升后开始横盘震荡，随后逐渐下滑；而TEMPO的曲线在整个350步的训练过程中始终保持稳定的上升趋势，没有出现任何停滞或下滑的迹象。这说明TEMPO带来的性能改进不是“昙花一现”，而是随着测试时计算资源的持续投入，性能得到持续、稳定的累积提升。

五、不只会做数学题：TEMPO在通用推理上的表现

数学能力仅是推理能力的一个侧面。研究团队还在更广泛的通用推理任务上测试了TEMPO的泛化能力，包括衡量综合思维能力的BigBenchHard（BBH）、测试逻辑推理的AGI Eval、考察斑马谜题类逻辑问题的ZebraLogic，以及需要研究生级别专业知识的GPQA-Diamond。这些任务的初始化训练数据换成了一个包含12800道通用推理题的数据集（Dolci-RL-Zero-General）。由于这些题目的答案格式多样，还引入了一个外部评判模型（gpt-oss-120b）来进行准确性核查。

在这个更具挑战性的通用推理场景下，TEMPO的表现依然突出。OLMO3-7B在BBH上从基线的46.8%提升到68.2%，绝对增幅达21.4个百分点，直接超过了专门为通用推理设计的前沿模型General-Reasoner-7B（65.6%）。在AGI Eval上，从37.9%提升到62.4%，绝对增幅24.5个百分点，同样超越了General-Reasoner-7B（63.6%，相差仅1.2个百分点）。在ZebraLogic上，从22.2%提升到35.1%，增幅12.9个百分点。在需要专业知识的GPQA-Diamond上，平均准确率从21.9%提升到32.4%，pass@8从62.1%提升到69.4%。

起点更高的Qwen3-8B模型在通用推理任务上的提升幅度相对较小，但依然保持了一致的正向增益：BBH从69.9%提升到74.2%，AGI Eval从65.7%提升到70.1%，ZebraLogic从25.7%提升到33.9%，GPQA-Diamond的平均准确率从32.2%提升到37.2%。值得一提的是，在GPQA-Diamond的pass@8指标上，Qwen3-8B经过TEMPO训练后为65.3%，而TTRL训练后为73.0%，EMPO为70.8%，TEMPO在这一特定指标上未超越另外两种方法——这是TEMPO在整篇论文中少数几处没有胜出的地方，研究团队在原文中也如实报告了这一结果，体现了研究的客观与严谨。

这些结果表明，TEMPO的“定期校正评判员”设计并非专门针对数学题的特殊技巧，而是一种具有广泛适用性的通用机制，能够在各种需要系统性、逻辑性推理的任务上发挥稳定作用。

六、做了对比实验：证明每个设计都不是多余的

为了确认TEMPO的有效性并非源于某种偶然因素，研究团队设计了两组关键的消融实验，分别排除核心组件后观察效果变化。

第一组实验对比了“继续在有标准答案的题目上训练”与“采用TEMPO在无标准答案的新题上训练”。实验从一个已经在有标注数据上充分收敛的OLMO3模型出发（该模型已完成192步的PPO强化学习训练），然后分两条路径：一条是继续使用同样的有标注数据进行更多步的PPO训练；另一条是切换到TEMPO框架，使用无标注的新题进行测试时训练。结果非常清晰：继续在相同数据上训练，200步后准确率几乎没有提升，曲线几乎水平；而采用TEMPO训练后，准确率在200步内稳步上升了超过15个百分点。这证明了“学习新题目”本身的价值——当模型在某个数据集上已经“学透”后，突破性能上限的唯一方式是接触它从未见过的新问题。

第二组实验对比了“评判员定期重校准”与“评判员只训练一次然后固定不变”。在“固定评判员”的版本中，评判员在初始阶段用有标注数据训练好后，在整个后续的测试时训练过程中保持不变，相当于删除了TEMPO框架中的E步（重校准步）。实验发现，这个版本在训练初期（大约前100步）表现与完整TEMPO相当，因为初始时评判员的判断尚属准确；但随着AI策略模型不断进化，生成的答案越来越复杂，而评判员的判断能力还停留在“早期版本AI的水平”，它开始无法准确评估这些日益精妙的推理过程，给出的分数逐渐失去参考价值。策略模型从这些漂移的分数中得到错误的训练信号，最终在大约100步后陷入性能停滞。完整的TEMPO由于持续校正评判员，有效避免了这一漂移问题，性能持续提升直到200步仍未见停止改进的迹象。

这两组对比实验共同确认了TEMPO两个核心组件的必要性：没有“新题训练”，模型就缺乏突破知识上限的可能；没有“评判员定期校正”，新题训练就会因方向漂移而失效。两者相辅相成，缺一不可。

七、诚实的局限性：研究者自己说的不足

研究团队在论文中直率地指出了TEMPO当前存在的几个局限性，这些是理解这项研究适用边界的重要参考。

首先，TEMPO需要同时维护两个模型（策略模型和评判员模型），这比仅有一个模型的测试时训练方法需要更多的GPU显存和计算资源。在计算资源有限的环境下，这可能构成一个实际的部署障碍。

其次，TEMPO的评判员校正依赖于一个拥有标准答案的标注数据集。这意味着TEMPO并非完全“无监督”的方法——它对有标注数据存在持续的依赖。如果标注数据的覆盖范围与实际测试问题的类型差异过大，评判员的校正效果可能会打折扣。

再者，现有实验主要覆盖了数学、STEM（科学、技术、工程、数学）和逻辑谜题推理，对于代码生成等其他重要的推理任务尚未进行测试。研究团队并未声称TEMPO在所有领域都普遍适用，其泛化能力需要未来研究进一步验证。

此外，虽然期望最大化（EM）框架为TEMPO提供了直觉上的理论支撑，但论文目前尚未给出关于这个交替优化过程是否一定收敛的严格数学证明。这是理论层面的一个开放问题，研究团队表示将在未来工作中继续探索。

总而言之，TEMPO所做的工作可以用一句话概括：给AI的“自我评判系统”加上一根锚绳，绳子的另一端永远系着真实世界的标准答案。只要这根锚绳不断，AI的自我进化就不会偏离轨道。这个看似简单的构想，在实验中产生了令人印象深刻的效果，让AI在数百步的持续训练中保持稳定向上的进步曲线，而非像之前的方法那样昙花一现后便陷入停滞或倒退。

对于普通用户和开发者而言，这项研究意味着：未来的AI助手不再是“一次训练、终身不变”的静态工具，而是可以在与用户实际交互的过程中持续磨砺、优化自身思维能力的动态系统，且这种优化过程有机制保障不会“练歪”。当AI遇到以前从未见过的复杂问题时，它不再只能依靠“背诵过的知识”来应付，而是能够真正在当下进行有质量、有方向的探索与学习。

Q&A

Q1：TEMPO与TTRL等测试时训练方法的核心区别是什么？

A：TTRL等传统方法依赖“多数投票”或模型自身输出来判断答案正确性，容易陷入自我强化、思维固化的循环。TEMPO的本质区别在于引入了一个独立的评判员模型，并定期使用有标准答案的真实题目来校正该评判员的判断能力，使其不随主模型的变化而漂移，从而为模型的持续、可靠进步提供了稳定的方向指引。

Q2：TEMPO需要有标准答案的数据吗？

A：需要。TEMPO的评判员需要定期使用有标准答案的标注数据集进行重新校正，这是TEMPO能够持续有效、避免方向漂移的关键。因此，TEMPO并非完全“无监督”的方法，它对标注数据有持续的依赖。不过，这部分标注数据仅用于校正评判员，AI真正“学习新知识”的过程使用的依然是无标准答案的新题目。

Q3：TEMPO在数学之外的任务上有效吗？

A：有效，但提升程度因任务和模型基础能力而异。研究团队在BBH综合推理、AGI Eval逻辑推理、ZebraLogic谜题和GPQA-Diamond专业知识问答上均进行了测试。基础较弱的OLMO3-7B模型在这些任务上获得了非常显著的提升（例如BBH提升21.4个百分点）。基础更强的Qwen3-8B模型提升幅度相对较小，且在GPQA-Diamond的pass@8指标上，TEMPO表现略逊于TTRL。代码生成等其他重要推理领域尚未被验证，其有效性有待未来研究探索。

来源:https://www.techwalker.com/2026/0430/3185573.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：北大与波士顿大学合作研发AI系统实现3D场景理解与生成下一篇：清华大学与阿里巴巴合作研发AI视觉技术精准识别手持物品