清华提出TaH大模型优化方法减少无效迭代提升准确率

首页

AI资讯

热心网友

转载

2026-05-21

随着o1、R1等“推理模型”的兴起，“让模型多思考一会儿”已成为提升复杂任务表现的普遍策略。无论是更长的思维链、更大的测试时计算量，还是更深的内部推理循环，其核心逻辑都是通过投入更多计算资源，来换取更准确、更可靠的输出结果。

然而，一个至关重要的问题常常被忽视：模型真的有必要为每一个输出的词元（token）都分配额外的思考时间吗？

这个问题对于参数规模有限的小型模型来说，意义尤为重大。小模型具备成本低、速度快、适合边缘部署等优势，但在处理数学、代码和复杂逻辑推理任务时，往往因为少数几个关键token的预测失误，就导致整个推理链条走向错误。现有的“循环Transformer”方法试图缓解这一问题：它们在生成每个token前，将最后一层的隐藏状态反馈给模型，进行额外的“潜空间迭代”，相当于在不增加参数的前提下，为每个token增加了计算深度。

但来自清华大学、无问芯穹、上海交通大学等机构的研究团队在最新研究中发现，情况并非如此简单。他们的实验表明，相当一部分token在第一次前向传播时就已经预测正确，后续的潜空间迭代反而可能“画蛇添足”，将原本正确的答案改错。研究团队将这一现象命名为“潜空间过度思考”。

大模型也会想太多？清华等提出TaH：跳过93%无效迭代，准确率反而提升

基于这一关键洞察，他们提出了Think-at-Hard（TaH）方法。这是一种面向小型模型的选择性潜空间迭代方案，其核心理念是让模型学会“只在真正困难的地方停下来，深入思考一步”。通过轻量级的后训练，将标准模型转变为仅在困难token上增加计算开销的循环Transformer。这项工作不仅入选了ICLR LIT Workshop的最佳论文候选名单，也被ICML 2026接收。

简而言之，潜空间迭代是一把双刃剑：它有可能纠正错误的预测，但也可能破坏原本正确的答案。

核心发现：对简单token进行迭代计算反而损害模型性能

已有研究指出，在语言模型的推理过程中，并非所有token都同等重要。真正决定推理路径走向的，往往是那些处于逻辑转折、因果连接或代表中间结论的关键位置。

为了量化“选择性迭代”的潜力，研究团队设计了一个“先知策略”：仅当模型第一次预测某个token出错时，才允许它进行潜空间迭代；如果第一次预测正确，则直接输出。实验结果显示，仅凭这个理想化的策略，模型在下游任务上的性能最多就能提升7.3%，且仅需让大约11%到19%的token进行二次迭代。如果采用为选择性迭代优化的TaH架构，这种策略带来的性能提升甚至能超过25%。

这清晰地表明，推理时的计算资源分配应当细化到token级别。难题中也可能包含简单token，而简单问题里同样可能出现关键token。更重要的是，对简单token强行进行额外计算不仅是资源浪费，更会导致一部分原本正确的预测在后续迭代中被错误修正，这正是“潜空间过度思考”的具体体现。

TaH：让模型在困难之处驻足深思

TaH的思路直观而高效：让简单的token快速通过，只让困难的token进入下一轮迭代进行深度思考。

具体实现上，TaH在模型中引入了一个轻量级的“迭代决策器”。每完成一轮潜空间迭代后，这个决策器会基于模型骨干网络的状态，预测一个“继续迭代”的概率。如果概率低于预设阈值，模型就直接输出当前token；如果高于阈值，则进入下一轮潜空间迭代。

在实际推理中，TaH平均每个token仅执行约1.07次迭代，相当于跳过了大约93%的token的二次迭代计算。相比“所有token都想两遍”的均匀策略，TaH成功地将宝贵的计算力集中到了那些更易出错、且对全局推理方向影响更大的关键位置上。

TaH的duo-causal注意力机制以及模型架构

为了让这种动态深度策略真正提升模型的精度和效率，TaH在模型架构和训练策略上都进行了针对性的创新设计。

Duo-Causal Attention架构

选择性迭代将模型处理的序列结构，从一维的token序列，转变为“token位置 × 迭代深度”的二维网格。TaH将大模型序列维度的因果注意力机制，扩展到了token维度和迭代深度的二维平面上。如图所示，对于第i个token的第d次迭代，它的查询可以关注所有前序位置中、迭代深度不超过d的键和值。这种设计既允许了跨迭代深度的信息流动，又保留了训练时序列维度计算的全并行性，保证了效率。

Depth-Aware LoRA架构

研究团队观察到，模型的第一次迭代主要负责常规的下一个token预测，而更深的迭代则是在修正当前遇到的困难token。因此，TaH只在深度大于1的迭代中启用LoRA适配器，让LoRA专注于学习困难token的修正方向。配合跨迭代的残差连接，深层迭代被自然地学习为“在前一轮预测的基础上进行微调修正”，而非从头开始重新预测。

两阶段训练策略

这里存在一个耦合难题：决策器的判断目标依赖于骨干网络的预测质量，而骨干网络的训练目标又依赖于决策器决定的迭代深度。端到端训练因此极不稳定。TaH采用了解耦的两阶段方案：首先，使用静态的“先知策略”来训练骨干模型；然后，冻结骨干模型，单独训练决策器去模仿“先知”的继续或停止决策。这种方法显著提升了训练的稳定性和收敛速度。

在Qwen3-0.6B-Base基础上训练，TaH的收敛速度更快

实验结果：更少的迭代，更强的推理能力

论文在Qwen3的0.6B、1.7B和4B三个规模的骨干模型上验证了TaH的有效性。训练数据来自Open-R1中数学、问答和代码任务的均衡混合，并在GSM8K、MATH500、AMC23、AIME25、OlympiadBench、GPQA-Diamond、MMLU-STEM、HumanEval++和MBPP++共9个基准测试上进行了全面评估。所有对比方法均使用完全相同的训练数据，在相同的预训练骨干模型上进行后训练。

准确性显著提升。 在0.6B和1.7B的严格参数限制下，TaH相比标准的Qwen3模型性能提升了3.0%到3.8%。TaH+在增加了不超过3%的额外参数（来自决策器等组件）的情况下，将提升幅度进一步扩大到5.3%到6.2%。与同类的循环Transformer方法Ouro相比，TaH取得了3.8%到4.4%的优势，而TaH+的优势达到了6.1%到6.8%。

TaH在几乎所有评测基准和模型尺寸上都实现了性能提升

计算效率更高。 TaH平均每个token仅执行1.07次迭代，完成问答的平均FLOPs和显存访问量相比标准模型只增加了4%到5%。在真实解码测试中，TaH相比“始终迭代”的策略，显存占用降低了1.48倍，解码速度快了2.48倍，同时准确率反而更高。

迭代选择具有可解释的语义偏好。 一个有趣的现象是，TaH自动学习到了带有明显语义偏好的迭代行为。在验证集上，“But”和“So”是最常触发额外迭代的token，概率分别达到34%和18%。这些词大多对应着逻辑转折、因果推理和论述方向的切换，正是复杂推理中最可能决定后续路径的关键位置。

模型预测在两次迭代之间的变化

消融实验分析

为了验证TaH中每项设计的必要性，研究团队进行了系统的消融实验。

模型架构方面。 将动态迭代深度的决策器替换为固定深度的策略（Always-1或Always-2），基准测试性能平均分别下降了6.1%和16.4%，这说明了选择性迭代本身比统一深度策略更优。将duo-causal注意力机制替换为不同形式的传统因果注意力，测试性能下降了5.4%到8.5%，证明了跨迭代深度信息流动的重要性。移除depth-aware LoRA与跨迭代残差连接，效果下降了4.9%，确认了在辅助不同迭代层承担不同优化目标时，专用架构设计的重要性。

训练策略方面。 相比TaH的两阶段训练，简单地监督所有深度的预测会使基准测试性能下降4.3%，说明不同迭代层应承担差异化的优化目标。将训练时的迭代策略从静态“先知”换成基于决策器的或动态的“先知”策略，会因骨干网络与决策器的强耦合而导致训练不稳定甚至崩溃，这证明了TaH两阶段训练策略的必要性。

TaH在模型架构和训练策略上的消融实验

总结与未来展望

TaH的意义不仅在于提出了一个新的循环Transformer变体和高效的后训练方法，更重要的是，它探索了如何将“测试时计算缩放”推向更细粒度的token级别。TaH表明，更智能的动态算力分配策略，甚至可以比单纯使用更高算力的均匀计算模型带来更好的效果。这为后续如何在有限的计算资源下最大化模型推理能力的研究，提供了新的思路和重要启发。

参考文献

[1] Jaech, A., Kalai, A., Lerer, A., et al. OpenAI o1 system card. arXiv preprint arXiv:2412.16720, 2024.

[2] Guo, D., Yang, D., Zhang, H., et al. DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning. arXiv preprint arXiv:2501.12948, 2025.

[3] Yang, A., Li, A., Yang, B., et al. Qwen3 technical report. arXiv preprint arXiv:2505.09388, 2025.

[4] Abdin, M., Aneja, J., Awadalla, H., et al. Phi-3 technical report: A highly capable language model locally on your phone. arXiv preprint arXiv:2404.14219, 2024.

[5] Team, M., Xiao, C., Li, Y., et al. MiniCPM4: Ultra-efficient LLMs on end devices. arXiv preprint arXiv:2506.07900, 2025.

[6] Hutchins, D., Schlag, I., Wu, Y., Dyer, E., and Neyshabur, B. Block-recurrent transformers. Advances in Neural Information Processing Systems, 35:33248–33261, 2022.

[7] Saunshi, N., Dikkala, N., Li, Z., Kumar, S., and Reddi, S. J. Reasoning with latent thoughts: On the power of looped transformers. arXiv preprint arXiv:2502.17416, 2025.

[8] Zhu, R.-J., Wang, Z., Hua, K., et al. Scaling latent reasoning via looped language models. arXiv preprint arXiv:2510.25741, 2025.

[9] Wu, Y., Wang, Y., Ye, Z., Du, T., Jegelka, S., and Wang, Y. When more is less: Understanding chain-of-thought length in LLMs. arXiv preprint arXiv:2502.07266, 2025.

[10] Wang, S., Yu, L., Gao, C., et al. Beyond the 80/20 rule: High-entropy minority tokens drive effective reinforcement learning for LLM reasoning. arXiv preprint arXiv:2506.01939, 2025.

[11] Fu, T., Ge, Y., You, Y., et al. R2R: Efficiently na vigating divergent reasoning paths with small-large model token routing. arXiv preprint arXiv:2505.21600, 2025.

[12] Hu, E. J., Shen, Y., Wallis, P., et al. LoRA: Low-rank adaptation of large language models. ICLR, 2022.

[13] Hugging Face. Open R1: A fully open reproduction of DeepSeek-R1, January 2025. URL https://github.com/huggingface/open-r1.

来源:https://www.jiqizhixin.com/articles/2026-05-21-11

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：AnySearch重构搜索边界：开发者为何选择它下一篇：OpenAI破解80年数学难题AI首次证明核心猜想