隐式思维链模型LRT推理能力更强速度更快

首页

热心网友

转载

2026-05-20

最近，大模型推理领域出现了一个挺有意思的新思路。来自哈尔滨工业大学（深圳）、深圳河套学院和Independent Researcher的研究团队，提出了一种名为LRT（Latent Reasoning Tuning，隐式思考模型）的方法。它试图解决一个越来越明显的痛点：那些“慢思考”模型动辄生成数千字的推理过程，真的有必要吗？

简单来说，LRT的核心想法是，用一个轻量级的推理网络，把大模型冗长的“思维链”压缩成一个紧凑的隐式向量。这样一来，模型无需再逐字逐句地“自言自语”生成中间步骤，只需一次前向计算，就能直接得出答案。这不仅效率高，而且作为一种新的混合思考范式，在Qwen3系列模型上的测试表明，其表现甚至超越了模型原生的非思考模式。

出发点：大模型「自言自语」的推理过程真的全都有用吗？

以OpenAI o1、DeepSeek-R1、Qwen QwQ为代表的推理模型，通过生成详尽的逐步推理链来解决复杂问题，能力确实强大。但随之而来的“过度思考”问题也愈发突出：

即便是面对一道简单的数学题，模型也可能生成包含大量回溯、自我验证和冗余步骤的数千个token的推理过程。这些推理轨迹的长度往往远超最终答案本身，导致推理延迟高、计算开销大，严重制约了实时应用。

这就引出了一个根本性问题：这些冗长的推理链，每一部分都是必要的吗？

关键发现：推理轨迹存在大量冗余

为了回答这个问题，研究团队设计了一组巧妙的实验。他们在DeepSeek-R1-Distill-Qwen-7B模型上，尝试对推理轨迹进行不同粒度的“破坏”——随机跳过一定比例的token或推理步骤，然后观察模型能否仅凭这些残缺的推理链给出正确答案。

结果令人惊讶：即使随机丢弃掉高达50%的推理轨迹，模型的准确率也仅仅下降了大约2个百分点。这个发现至少说明了两个问题：

首先，当前模型生成的推理轨迹中，确实包含了远超必要信息的大量冗余。其次，推理模型本身具备强大的信息过滤和总结能力，即使面对不完整、高困惑度的推理链，依然能从中提取关键信息并得出正确结论。

这一发现直接启发了团队的核心思路：既然完整的、逐步展开的推理链并非不可或缺，那么，能否用一种更紧凑的隐式表征来替代它呢？

方法：隐式思考模型 LRT

基于上述洞察，Latent Reasoning Tuning（LRT）框架应运而生。其核心思想可以概括为：训练一个轻量级的推理网络，让它学会将显式的推理链“编码”成固定长度的隐式向量。然后，将这个向量直接“注入”大模型，引导其生成最终答案，从而跳过冗长的中间解码步骤。

如上图所示，传统推理模型需要逐token自回归生成整条推理链，而LRT的流程则简化为三步：

1. 输入编码：将问题输入大模型，提取其隐藏状态表征。
2. 隐式推理：将隐藏状态送入轻量级的推理网络，经过一次前向传播，生成固定长度的隐式推理向量。
3. 答案生成：将隐式推理向量与问题的编码向量拼接，再送回大模型，直接解码生成最终答案。

从技术上看，对于一个推理型大模型，给定输入提示，其生成推理轨迹再总结出答案的过程，通常满足，这正是推理开销的根源。

既然推理轨迹本质上是输入和模型参数的函数，而实验又证明这个函数输出存在冗余，那么一个自然的想法就是：用一个更高效的函数来近似或替代它。

LRT正是引入了这样一个轻量级推理网络，让它直接从输入映射到紧凑的隐式推理表征：。这个固定长度的连续向量序列，替代了原本需要逐token解码的冗长推理链，从而将耗时的“解码”过程转化为了高效的“预填充”式操作。

在训练策略上，LRT采用了两阶段优化：

第一阶段是监督微调（SFT），优化推理网络参数，最小化负对数似然损失，目标是让生成的隐式表征能引导冻结的基座模型正确预测答案。

第二阶段则引入了强化学习（采用GRPO方法），以答案的正确性作为奖励信号，激励推理网络在隐式空间中探索更优的推理路径，从而突破训练数据质量的限制。

实验结果

1. 高效思考 —— 在不同Token预算下表现最优

在DeepSeek-R1-Distill-Qwen-1.5B模型上的对比实验显示，LRT在不同Token预算下，于域内和域外任务上全面领先其他高效推理方法。特别是在512-Token的预算下，其平均准确率比无思考模式高出2.66%，比RL类方法ShorterBetter和LC-R1分别高出5.90%和4.74%。

2. 混合思考 —— 超越Qwen3原生混合思考模式

LRT模块化的设计，让它天然适合作为一种新的混合推理范式：遇到简单问题时，使用隐式思考快速作答；面对复杂难题时，再切换回显式的慢思考进行深度推理。在Qwen3系列模型上的验证结果令人印象深刻：

在Qwen3-4B上，LRT的pass@4平均准确率达到71.60%，比Qwen3原生的非思考模式高出5.82个百分点。在GSM8K数学推理数据集上提升近7%，在LSAT逻辑推理数据集上提升更是超过14%。这表明，隐式推理向量能有效引导模型探索更多样、更高质量的解题路径。

3. 推理效率对比

效率方面，LRT的推理延迟显著低于Qwen3的混合思考模式，甚至比非思考模式还要快。这是因为隐式推理向量引导模型生成更简洁的答案，减少了解码步数。

4. 消融实验分析

隐式推理token数量的影响：随着隐式token数量从64增加到256，模型性能稳步提升（从42.53%升至48.42%）。

两阶段训练的作用：加入RL阶段后，域内任务平均提升约9%，域外任务平均提升约4.3%，验证了强化学习对于优化隐式推理的关键作用。

基础模型规模的影响：更大的基础模型（如Qwen3-8B）能够充分利用更多的隐式token（即使使用512个隐式token，性能仍能提高），说明隐式推理的“信息容量”与基础模型的能力呈正相关。

总结

总体来看，隐式思考模型LRT为大模型的高效推理开辟了一条颇具潜力的新路径：

理论层面，它系统性地揭示了推理轨迹中存在的高度冗余，证明了完整的逐步推理链并非正确推理的必要前提。
效率层面，通过将显式推理链压缩为隐式向量，用单次前向计算替代数千步的自回归解码，大幅降低了推理成本。
应用层面，其模块化、即插即用的设计，无需修改大模型本身参数，即可在隐式推理与显式推理之间无缝切换，为构建混合推理系统提供了更优的解决方案。
效果层面，在数学、逻辑、科学等多类基准测试中，LRT全面超越了现有的高效推理方法，并在Qwen3系列模型上实现了对其原生非思考模式的超越。

来源:https://www.51cto.com/article/840457.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：NUS邵林团队T(R,O) Grasp实现5FPS动态灵巧抓取刷新SOTA 下一篇：Anthropic解封创始人账号上周封禁OpenClaw系误会