清华提出TaH方法大幅提升训练效率与模型准确率

首页

AI资讯

热心网友

转载

2026-05-21

在AI推理模型的发展中，一个明确的共识是：增加计算量通常能提升答案的可靠性。从扩展思维链到深化内部推理，诸如o1、R1等前沿模型的演进，都验证了“让模型进行更深入思考”这一技术路线的价值。

然而，一个核心问题常常被忽视：模型在生成每一个词元（token）时，是否都需要付出相同的“思考”成本？

这对于参数量有限的小型模型而言，尤其是一个关乎性能与效率的关键挑战。小模型部署成本低、推理速度快，非常适合边缘计算场景，但其固有短板也相当突出——在处理数学运算、代码生成和复杂逻辑问答时，往往因为少数几个关键token的预测错误，导致整个推理链条崩溃。现有的“循环Transformer”方案试图应对此问题，其原理是在生成每个token前，将最后一层的隐藏状态反馈给模型进行额外的“潜空间迭代”，相当于在不增加参数的前提下，为每个token都增加了计算深度。

但这种方法真的最优吗？来自清华大学、无问芯穹、上海交通大学等机构的联合研究团队在最新论文中发现，事实并非如此。他们的研究揭示了一个反直觉的现象：有相当一部分token在模型第一次前向传播时就已经预测正确，后续的潜空间迭代不仅没有益处，反而可能将原本正确的预测“改错”。研究团队将这一现象命名为“潜空间过度思考”。

基于这一核心发现，该团队提出了 **Think-at-Hard（TaH）** 方法。这是一种面向小型模型的选择性潜空间迭代框架，其核心理念是“将计算资源用在刀刃上”——只让模型在真正难以预测的token上“停下来，多思考一步”。该方法已入选ICLR LIT Workshop最佳论文候选，并被ICML 2026接收。

潜空间迭代是一把双刃剑：既能纠正错误，也可能引入新的错误。

核心贡献

这项研究的主要贡献可总结为以下三点：

首先，它首次系统性地揭示并量化了循环Transformer中存在的“潜空间过度思考”现象，明确指出统一深度的迭代会同时产生“纠错”和“致错”两种相反的效果。

其次，提出了完整的TaH框架。该框架通过一个轻量级的“迭代决策器”、创新的双路因果注意力机制以及深度感知的LoRA模块，实现了在token级别动态分配计算资源。

最后，在涵盖数学、问答和代码的9个主流基准测试中，TaH均带来了稳定的性能提升。最关键的是，它平均仅让约7%的token进入第二轮迭代，跳过了93%不必要的额外计算。与那种强制所有token都“思考两遍”的基线方法相比，TaH在显著减少计算量的同时，准确率反而提升了3.8%到4.4%。

关键洞见：对简单Token进行迭代计算反而有害

已有研究表明，在语言模型的推理过程中，并非所有token都同等重要。真正决定推理走向的，往往是那些表示逻辑转折、因果关联或中间结论的关键性token。

为了量化“选择性迭代”的潜在收益，研究者设计了一个“先知”策略：仅当模型第一次预测某个token出错时，才允许它进行额外迭代；如果第一次预测正确，则直接输出。实验结果显示，仅凭这一理想化策略，就能为下游任务带来最高7.3%的性能提升，且仅需让11%到19%的token进行二次迭代。

这传递出一个清晰的信号：推理时的计算资源分配，必须细化到token级别。复杂问题中也包含简单token，简单问题里也可能隐藏着关键token。更重要的是，对简单token强行施加额外计算，不仅浪费算力，还会导致一部分原本正确的预测被“过度思考”而改错，这正是“潜空间过度思考”的具体体现。

TaH框架：在困难之处停下来深入思考

TaH的思路简洁而高效：简单的token快速通过，困难的token才值得投入更多计算资源进行“深思熟虑”。

具体实现上，TaH在模型中引入了一个轻量级的“迭代决策器”（一个小型MLP网络）。每完成一轮潜空间迭代后，决策器会基于模型骨干网络的当前状态，预测一个“继续迭代”的概率。如果该概率低于预设阈值，模型就直接输出当前token；如果高于阈值，则进入下一轮迭代。

在实际推理中，TaH平均每个token仅执行1.07次迭代，相当于跳过了约93%的token的二次计算。相比“所有token都想两遍”的暴力策略，TaH成功地将宝贵的计算力集中到了那些更容易出错、更能影响整体推理方向的关键位置上。

TaH的整体架构与双路因果注意力机制示意图。

为了让这种动态深度策略真正提升模型的精度和效率，TaH在模型架构和训练策略上都进行了针对性设计：

1. 双路因果注意力机制： 选择性迭代将模型处理的序列结构，从一维的token序列，转变为“token位置 × 迭代深度”的二维网格。TaH将传统的因果注意力扩展到了这个二维平面。对于某个位置第d次迭代的查询，它可以关注到前序位置中、迭代深度不超过d的所有键和值。这样既允许信息在不同迭代深度间有效流动，又保持了训练时序列维度的全并行计算能力。

2. 深度感知LoRA架构： 研究者观察到，模型的第一次迭代主要负责常规的下一个token预测，而更深层的迭代则专注于修正当前遇到的困难token。因此，TaH只在第二次及以后的迭代中启用LoRA适配器，让LoRA专门学习如何修正困难token。再配合跨迭代的残差连接，深层迭代就被自然地训练为“在前一轮结果的基础上进行精细化修正”，而非从头开始推理。

3. 两阶段训练策略： 由于迭代决策器的判断依赖于骨干网络的预测质量，而骨干网络的训练目标又依赖于决策器决定的迭代深度，两者紧密耦合，端到端训练极不稳定。TaH采用了解耦的两阶段方案：第一阶段，使用静态的“先知”策略来训练骨干网络；第二阶段，冻结骨干网络，单独训练决策器去模仿“先知”的继续/停止决策。这种方法显著提升了训练的稳定性和收敛速度。

在Qwen3-0.6B基座模型上，TaH展现出更快的收敛速度。

实验效果：更少的迭代，更强的推理能力

论文在Qwen3系列的0.6B、1.7B和4B三个规模的基座模型上全面验证了TaH。训练数据来自Open-R1中数学、问答和代码任务的均衡混合，并在GSM8K、MATH500等9个主流基准上进行了综合评测。

准确性方面： 在不增加参数总量的前提下，TaH相比标准Qwen3模型提升了3.0%到3.8%。而“TaH+”版本在仅增加不超过3%额外参数（来自决策器等模块）的情况下，将提升幅度扩大到了5.3%到6.2%。与同类循环Transformer方法“Ouro”相比，TaH取得了3.8%到4.4%的优势，TaH+的优势则达到6.1%到6.8%。

计算效率方面： TaH平均每个token仅执行1.07次迭代，完成问答的平均FLOPs和显存访问量相比标准模型只增加了4%到5%。在实际解码测试中，TaH相比“始终迭代”的基线方法，显存占用降低了1.48倍，解码速度提升了2.48倍，同时保持了更高的准确率。

迭代选择的语义可解释性： 一个有趣的发现是，TaH自动学习到了具有明显语义偏好的迭代行为。在验证集上，“But”和“So”是最常触发额外迭代的token，概率分别达到34%和18%。这些词汇通常对应着推理中的逻辑转折、因果关联和方向切换，恰恰是复杂推理中最可能决定后续路径的关键位置。

模型预测在两次迭代之间的变化情况。

消融实验分析

为了验证TaH框架中每项设计的必要性，研究团队进行了系统的消融实验。

模型架构方面： 将动态深度的决策器替换为固定迭代1次或2次的策略，基准测试性能平均分别下降6.1%和16.4%，这证明了选择性迭代本身优于固定深度策略。将双路因果注意力替换为传统的因果注意力，性能下降5.4%到8.5%，说明了跨迭代深度信息流动的重要性。移除深度感知LoRA与跨迭代残差连接，效果下降4.9%，确认了针对不同迭代目标进行架构优化的重要性。

训练策略方面： 相比TaH的两阶段训练，简单地用相同目标监督所有深度的预测会使性能下降4.3%，这说明不同迭代层应该承担差异化的优化目标。在训练中用决策器或动态“先知”策略替代静态“先知”策略，会因骨干网络与决策器的强耦合而导致训练不稳定甚至崩溃，从而证明了TaH两阶段训练策略的必要性。

TaH在模型架构和训练策略上的消融实验结果。

总结与未来展望

TaH的意义，远不止于提出了一个新的循环Transformer变体或后训练方法。更重要的是，它探索了如何将“测试时计算扩展”推向更精细的token粒度。这项研究表明，更智能的动态算力分配策略，有时甚至比单纯堆砌更多计算资源能带来更优的效果。这为未来如何在有限资源下最大化模型推理能力的研究，指明了一个新的、富有启发性的方向。

参考文献

[1] Jaech, A., Kalai, A., Lerer, A., et al. OpenAI o1 system card. arXiv preprint arXiv:2412.16720, 2024.

[2] Guo, D., Yang, D., Zhang, H., et al. DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning. arXiv preprint arXiv:2501.12948, 2025.

[3] Yang, A., Li, A., Yang, B., et al. Qwen3 technical report. arXiv preprint arXiv:2505.09388, 2025.

[4] Abdin, M., Aneja, J., Awadalla, H., et al. Phi-3 technical report: A highly capable language model locally on your phone. arXiv preprint arXiv:2404.14219, 2024.

[5] Team, M., Xiao, C., Li, Y., et al. MiniCPM4: Ultra-efficient LLMs on end devices. arXiv preprint arXiv:2506.07900, 2025.

[6] Hutchins, D., Schlag, I., Wu, Y., Dyer, E., and Neyshabur, B. Block-recurrent transformers. Advances in Neural Information Processing Systems, 35:33248–33261, 2024.

[7] Saunshi, N., Dikkala, N., Li, Z., Kumar, S., and Reddi, S. J. Reasoning with latent thoughts: On the power of looped transformers. arXiv preprint arXiv:2502.17416, 2025.

[8] Zhu, R.-J., Wang, Z., Hua, K., et al. Scaling latent reasoning via looped language models. arXiv preprint arXiv:2510.25741, 2025.

[9] Wu, Y., Wang, Y., Ye, Z., Du, T., Jegelka, S., and Wang, Y. When more is less: Understanding chain-of-thought length in LLMs. arXiv preprint arXiv:2502.07266, 2025.

[10] Wang, S., Yu, L., Gao, C., et al. Beyond the 80/20 rule: High-entropy minority tokens drive effective reinforcement learning for LLM reasoning. arXiv preprint arXiv:2506.01939, 2025.

[11] Fu, T., Ge, Y., You, Y., et al. R2R: Efficiently na vigating divergent reasoning paths with small-large model token routing. arXiv preprint arXiv:2505.21600, 2025.

[12] Hu, E. J., Shen, Y., Wallis, P., et al. LoRA: Low-rank adaptation of large language models. ICLR, 2024.

[13] Hugging Face. Open R1: A fully open reproduction of DeepSeek-R1, January 2025. URL https://github.com/huggingface/open-r1.

来源:https://www.163.com/dy/article/KTFLTR0J0511AQHO.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：OpenAI破解80年数学难题菲尔兹奖得主也为之惊叹下一篇：Seedance2.1版本将于6月底正式上线