首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
清华提出TaH大模型优化方法减少无效迭代提升准确率

清华提出TaH大模型优化方法减少无效迭代提升准确率

热心网友
34
转载
2026-05-21

随着o1、R1等“推理模型”的兴起,“让模型多思考一会儿”已成为提升复杂任务表现的普遍策略。无论是更长的思维链、更大的测试时计算量,还是更深的内部推理循环,其核心逻辑都是通过投入更多计算资源,来换取更准确、更可靠的输出结果。

然而,一个至关重要的问题常常被忽视:模型真的有必要为每一个输出的词元(token)都分配额外的思考时间吗?

这个问题对于参数规模有限的小型模型来说,意义尤为重大。小模型具备成本低、速度快、适合边缘部署等优势,但在处理数学、代码和复杂逻辑推理任务时,往往因为少数几个关键token的预测失误,就导致整个推理链条走向错误。现有的“循环Transformer”方法试图缓解这一问题:它们在生成每个token前,将最后一层的隐藏状态反馈给模型,进行额外的“潜空间迭代”,相当于在不增加参数的前提下,为每个token增加了计算深度。

但来自清华大学、无问芯穹、上海交通大学等机构的研究团队在最新研究中发现,情况并非如此简单。他们的实验表明,相当一部分token在第一次前向传播时就已经预测正确,后续的潜空间迭代反而可能“画蛇添足”,将原本正确的答案改错。研究团队将这一现象命名为“潜空间过度思考”。

大模型也会想太多?清华等提出TaH:跳过93%无效迭代,准确率反而提升

基于这一关键洞察,他们提出了Think-at-Hard(TaH)方法。这是一种面向小型模型的选择性潜空间迭代方案,其核心理念是让模型学会“只在真正困难的地方停下来,深入思考一步”。通过轻量级的后训练,将标准模型转变为仅在困难token上增加计算开销的循环Transformer。这项工作不仅入选了ICLR LIT Workshop的最佳论文候选名单,也被ICML 2026接收。

简而言之,潜空间迭代是一把双刃剑:它有可能纠正错误的预测,但也可能破坏原本正确的答案。

核心发现:对简单token进行迭代计算反而损害模型性能

已有研究指出,在语言模型的推理过程中,并非所有token都同等重要。真正决定推理路径走向的,往往是那些处于逻辑转折、因果连接或代表中间结论的关键位置。

为了量化“选择性迭代”的潜力,研究团队设计了一个“先知策略”:仅当模型第一次预测某个token出错时,才允许它进行潜空间迭代;如果第一次预测正确,则直接输出。实验结果显示,仅凭这个理想化的策略,模型在下游任务上的性能最多就能提升7.3%,且仅需让大约11%到19%的token进行二次迭代。如果采用为选择性迭代优化的TaH架构,这种策略带来的性能提升甚至能超过25%。

这清晰地表明,推理时的计算资源分配应当细化到token级别。难题中也可能包含简单token,而简单问题里同样可能出现关键token。更重要的是,对简单token强行进行额外计算不仅是资源浪费,更会导致一部分原本正确的预测在后续迭代中被错误修正,这正是“潜空间过度思考”的具体体现。

TaH:让模型在困难之处驻足深思

TaH的思路直观而高效:让简单的token快速通过,只让困难的token进入下一轮迭代进行深度思考。

具体实现上,TaH在模型中引入了一个轻量级的“迭代决策器”。每完成一轮潜空间迭代后,这个决策器会基于模型骨干网络的状态,预测一个“继续迭代”的概率。如果概率低于预设阈值,模型就直接输出当前token;如果高于阈值,则进入下一轮潜空间迭代。

在实际推理中,TaH平均每个token仅执行约1.07次迭代,相当于跳过了大约93%的token的二次迭代计算。相比“所有token都想两遍”的均匀策略,TaH成功地将宝贵的计算力集中到了那些更易出错、且对全局推理方向影响更大的关键位置上。

TaH的duo-causal注意力机制以及模型架构

为了让这种动态深度策略真正提升模型的精度和效率,TaH在模型架构和训练策略上都进行了针对性的创新设计。

Duo-Causal Attention架构

选择性迭代将模型处理的序列结构,从一维的token序列,转变为“token位置 × 迭代深度”的二维网格。TaH将大模型序列维度的因果注意力机制,扩展到了token维度和迭代深度的二维平面上。如图所示,对于第i个token的第d次迭代,它的查询可以关注所有前序位置中、迭代深度不超过d的键和值。这种设计既允许了跨迭代深度的信息流动,又保留了训练时序列维度计算的全并行性,保证了效率。

Depth-Aware LoRA架构

研究团队观察到,模型的第一次迭代主要负责常规的下一个token预测,而更深的迭代则是在修正当前遇到的困难token。因此,TaH只在深度大于1的迭代中启用LoRA适配器,让LoRA专注于学习困难token的修正方向。配合跨迭代的残差连接,深层迭代被自然地学习为“在前一轮预测的基础上进行微调修正”,而非从头开始重新预测。

两阶段训练策略

这里存在一个耦合难题:决策器的判断目标依赖于骨干网络的预测质量,而骨干网络的训练目标又依赖于决策器决定的迭代深度。端到端训练因此极不稳定。TaH采用了解耦的两阶段方案:首先,使用静态的“先知策略”来训练骨干模型;然后,冻结骨干模型,单独训练决策器去模仿“先知”的继续或停止决策。这种方法显著提升了训练的稳定性和收敛速度。

在Qwen3-0.6B-Base基础上训练,TaH的收敛速度更快

实验结果:更少的迭代,更强的推理能力

论文在Qwen3的0.6B、1.7B和4B三个规模的骨干模型上验证了TaH的有效性。训练数据来自Open-R1中数学、问答和代码任务的均衡混合,并在GSM8K、MATH500、AMC23、AIME25、OlympiadBench、GPQA-Diamond、MMLU-STEM、HumanEval++和MBPP++共9个基准测试上进行了全面评估。所有对比方法均使用完全相同的训练数据,在相同的预训练骨干模型上进行后训练。

准确性显著提升。 在0.6B和1.7B的严格参数限制下,TaH相比标准的Qwen3模型性能提升了3.0%到3.8%。TaH+在增加了不超过3%的额外参数(来自决策器等组件)的情况下,将提升幅度进一步扩大到5.3%到6.2%。与同类的循环Transformer方法Ouro相比,TaH取得了3.8%到4.4%的优势,而TaH+的优势达到了6.1%到6.8%。

TaH在几乎所有评测基准和模型尺寸上都实现了性能提升

计算效率更高。 TaH平均每个token仅执行1.07次迭代,完成问答的平均FLOPs和显存访问量相比标准模型只增加了4%到5%。在真实解码测试中,TaH相比“始终迭代”的策略,显存占用降低了1.48倍,解码速度快了2.48倍,同时准确率反而更高。

迭代选择具有可解释的语义偏好。 一个有趣的现象是,TaH自动学习到了带有明显语义偏好的迭代行为。在验证集上,“But”和“So”是最常触发额外迭代的token,概率分别达到34%和18%。这些词大多对应着逻辑转折、因果推理和论述方向的切换,正是复杂推理中最可能决定后续路径的关键位置。

模型预测在两次迭代之间的变化

消融实验分析

为了验证TaH中每项设计的必要性,研究团队进行了系统的消融实验。

模型架构方面。 将动态迭代深度的决策器替换为固定深度的策略(Always-1或Always-2),基准测试性能平均分别下降了6.1%和16.4%,这说明了选择性迭代本身比统一深度策略更优。将duo-causal注意力机制替换为不同形式的传统因果注意力,测试性能下降了5.4%到8.5%,证明了跨迭代深度信息流动的重要性。移除depth-aware LoRA与跨迭代残差连接,效果下降了4.9%,确认了在辅助不同迭代层承担不同优化目标时,专用架构设计的重要性。

训练策略方面。 相比TaH的两阶段训练,简单地监督所有深度的预测会使基准测试性能下降4.3%,说明不同迭代层应承担差异化的优化目标。将训练时的迭代策略从静态“先知”换成基于决策器的或动态的“先知”策略,会因骨干网络与决策器的强耦合而导致训练不稳定甚至崩溃,这证明了TaH两阶段训练策略的必要性。

TaH在模型架构和训练策略上的消融实验

总结与未来展望

TaH的意义不仅在于提出了一个新的循环Transformer变体和高效的后训练方法,更重要的是,它探索了如何将“测试时计算缩放”推向更细粒度的token级别。TaH表明,更智能的动态算力分配策略,甚至可以比单纯使用更高算力的均匀计算模型带来更好的效果。这为后续如何在有限的计算资源下最大化模型推理能力的研究,提供了新的思路和重要启发。

参考文献

[1] Jaech, A., Kalai, A., Lerer, A., et al. OpenAI o1 system card. arXiv preprint arXiv:2412.16720, 2024.

[2] Guo, D., Yang, D., Zhang, H., et al. DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning. arXiv preprint arXiv:2501.12948, 2025.

[3] Yang, A., Li, A., Yang, B., et al. Qwen3 technical report. arXiv preprint arXiv:2505.09388, 2025.

[4] Abdin, M., Aneja, J., Awadalla, H., et al. Phi-3 technical report: A highly capable language model locally on your phone. arXiv preprint arXiv:2404.14219, 2024.

[5] Team, M., Xiao, C., Li, Y., et al. MiniCPM4: Ultra-efficient LLMs on end devices. arXiv preprint arXiv:2506.07900, 2025.

[6] Hutchins, D., Schlag, I., Wu, Y., Dyer, E., and Neyshabur, B. Block-recurrent transformers. Advances in Neural Information Processing Systems, 35:33248–33261, 2022.

[7] Saunshi, N., Dikkala, N., Li, Z., Kumar, S., and Reddi, S. J. Reasoning with latent thoughts: On the power of looped transformers. arXiv preprint arXiv:2502.17416, 2025.

[8] Zhu, R.-J., Wang, Z., Hua, K., et al. Scaling latent reasoning via looped language models. arXiv preprint arXiv:2510.25741, 2025.

[9] Wu, Y., Wang, Y., Ye, Z., Du, T., Jegelka, S., and Wang, Y. When more is less: Understanding chain-of-thought length in LLMs. arXiv preprint arXiv:2502.07266, 2025.

[10] Wang, S., Yu, L., Gao, C., et al. Beyond the 80/20 rule: High-entropy minority tokens drive effective reinforcement learning for LLM reasoning. arXiv preprint arXiv:2506.01939, 2025.

[11] Fu, T., Ge, Y., You, Y., et al. R2R: Efficiently na vigating divergent reasoning paths with small-large model token routing. arXiv preprint arXiv:2505.21600, 2025.

[12] Hu, E. J., Shen, Y., Wallis, P., et al. LoRA: Low-rank adaptation of large language models. ICLR, 2022.

[13] Hugging Face. Open R1: A fully open reproduction of DeepSeek-R1, January 2025. URL https://github.com/huggingface/open-r1.

来源:https://www.jiqizhixin.com/articles/2026-05-21-11
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

企业级国产大模型自动化工具选型指南与推荐
AI资讯
企业级国产大模型自动化工具选型指南与推荐

在数字化转型的关键阶段,选择一款高效的国产大模型自动化工具,已从“可选项”变为关乎企业运营效率与创新能力的“必选项”。然而,许多决策者在选型过程中常陷入误区:过度关注模型参数的规模,却忽视了工具与业务场景深度融合的“实效性”。本质上,一个孤立的大模型如同仅有“智慧大脑”的学者,而能切实解决企业复杂业

热心网友
05.21
企业大模型落地内网挑战解析与智能体破局方案
AI资讯
企业大模型落地内网挑战解析与智能体破局方案

通用人工智能(AGI)浪潮正深刻改变商业格局,企业级AI应用已从概念验证阶段,快速演进为驱动核心业务增长的关键引擎。然而,当企业试图将前沿的大模型能力部署至防火墙保护的内网环境时,一系列深层次挑战随之显现,成为技术决策者必须解决的核心难题。数据安全与合规性要求、遗留业务系统缺乏标准API接口、以及大

热心网友
05.21
清华提出TaH大模型优化方法减少无效迭代提升准确率
AI资讯
清华提出TaH大模型优化方法减少无效迭代提升准确率

清华大学等机构研究发现,潜空间迭代可能因“过度思考”将原本正确的预测改错。为此提出TaH方法,让模型选择性对困难词元进行额外迭代。该方法平均跳过93%无效计算,在多项基准测试中准确率显著提升,同时计算效率更高。

热心网友
05.21
小米Mimo大模型本地部署指南:开源权重私有化教程
AI资讯
小米Mimo大模型本地部署指南:开源权重私有化教程

想要在个人电脑上部署小米开源大模型,打造专属的本地AI助手?这个过程看似技术门槛较高,但只要掌握正确方法,逐步操作,完全能够实现。本文将为您详细解析小米MiMo大模型的本地部署全流程,让您轻松在自有硬件上运行私有化大语言模型。 本地部署的核心优势在于实现“数据闭环”:将开源模型权重文件完全私有化,所

热心网友
05.21
企业级数字员工安全审计方案基于大模型智能体实现合规架构
AI资讯
企业级数字员工安全审计方案基于大模型智能体实现合规架构

随着政企数字化转型进入深水区,数字员工(RPA)已成为企业运营中不可或缺的“虚拟劳动力”,广泛应用于财务对账、资金结算、人事管理等核心业务流程。然而,当企业部署的自动化流程数量激增,一个关键的合规挑战随之凸显:如何清晰界定数字员工的账号权限边界?如何有效防范高权限账号滥用风险,并确保所有操作可追溯、

热心网友
05.21

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

艾绘AI:输入剧情自动生成专属故事内容
AI教程
艾绘AI:输入剧情自动生成专属故事内容

在儿童教育内容创作领域,一个名为“艾绘”的在线绘本创作平台正受到越来越多家长和教育工作者的关注。它将自己定位为一站式个性化绘本制作解决方案,核心目标是通过智能化工具大幅降低创作门槛,让每个家庭都能轻松创作出专属的儿童故事绘本。 那么,这个儿童绘本制作平台具体是如何工作的呢?其核心是构建了一个庞大的素

热心网友
05.22
2025年币圈看盘软件终极评测:五大靠谱工具助你精准把握行情
web3.0
2025年币圈看盘软件终极评测:五大靠谱工具助你精准把握行情

2025年币圈看盘软件终极指南:如何选择最适合你的行情工具? 进入2025年,加密货币市场日趋成熟,行情波动瞬息万变。无论是追踪主流币种价格,还是分析新兴NFT与DeFi项目,一款精准、高效、可靠的看盘软件已成为Web3投资者与交易者的核心装备。面对市场上琳琅满目的选择,如何找到最适合自己的那一款?

热心网友
05.22
AI与VR融合的童话支柱与空间站城预览
AI教程
AI与VR融合的童话支柱与空间站城预览

Latent Labs(潜伏实验室)项目官网近期发布了一则充满想象空间的预告:“潜伏实验室即将回归!敬请期待以下场景的加载……童话支柱、美丽天空、灰色地牢、空间站城市”。这一系列关键词生动描绘出一个融合奇幻童话与未来科幻的沉浸式虚拟世界框架,预示着其在AI与VR领域的新探索。 网站数据与影响力评估

热心网友
05.22
AI一键渲染3D模型效果图教程与工具推荐
AI教程
AI一键渲染3D模型效果图教程与工具推荐

在三维设计与数字创意行业,工作效率直接影响项目交付质量与市场竞争力。面对复杂的模型文件管理、跨平台格式兼容性挑战以及团队协作中的沟通壁垒,设计师与建模师亟需一套能够整合并优化全流程的云端解决方案。今天,我们将深入解析一个专注于提升3D工作效率的在线平台——51建模网,探讨其如何通过智能化工具重塑三维

热心网友
05.22
免费开源网页助手Webpilot使用指南与功能详解
AI教程
免费开源网页助手Webpilot使用指南与功能详解

在日常信息处理工作中,你是否经常遇到这样的效率瓶颈:为了查找一个答案,不得不在多个浏览器标签页、文档和不同AI工具之间来回切换、反复复制粘贴?这种操作不仅繁琐耗时,还会频繁打断你的深度思考和工作流。那么,有没有一款工具能够像在文档中使用“Copilot”那样,让我们直接在浏览的网页上随时获得智能辅助

热心网友
05.22