隐式思维链模型LRT推理能力更强速度更快
最近,大模型推理领域出现了一个挺有意思的新思路。来自哈尔滨工业大学(深圳)、深圳河套学院和Independent Researcher的研究团队,提出了一种名为LRT(Latent Reasoning Tuning,隐式思考模型)的方法。它试图解决一个越来越明显的痛点:那些“慢思考”模型动辄生成数千字的推理过程,真的有必要吗?
简单来说,LRT的核心想法是,用一个轻量级的推理网络,把大模型冗长的“思维链”压缩成一个紧凑的隐式向量。这样一来,模型无需再逐字逐句地“自言自语”生成中间步骤,只需一次前向计算,就能直接得出答案。这不仅效率高,而且作为一种新的混合思考范式,在Qwen3系列模型上的测试表明,其表现甚至超越了模型原生的非思考模式。

出发点:大模型「自言自语」的推理过程真的全都有用吗?
以OpenAI o1、DeepSeek-R1、Qwen QwQ为代表的推理模型,通过生成详尽的逐步推理链来解决复杂问题,能力确实强大。但随之而来的“过度思考”问题也愈发突出:
即便是面对一道简单的数学题,模型也可能生成包含大量回溯、自我验证和冗余步骤的数千个token的推理过程。这些推理轨迹的长度往往远超最终答案本身,导致推理延迟高、计算开销大,严重制约了实时应用。
这就引出了一个根本性问题:这些冗长的推理链,每一部分都是必要的吗?
关键发现:推理轨迹存在大量冗余
为了回答这个问题,研究团队设计了一组巧妙的实验。他们在DeepSeek-R1-Distill-Qwen-7B模型上,尝试对推理轨迹进行不同粒度的“破坏”——随机跳过一定比例的token或推理步骤,然后观察模型能否仅凭这些残缺的推理链给出正确答案。

结果令人惊讶:即使随机丢弃掉高达50%的推理轨迹,模型的准确率也仅仅下降了大约2个百分点。这个发现至少说明了两个问题:
首先,当前模型生成的推理轨迹中,确实包含了远超必要信息的大量冗余。其次,推理模型本身具备强大的信息过滤和总结能力,即使面对不完整、高困惑度的推理链,依然能从中提取关键信息并得出正确结论。
这一发现直接启发了团队的核心思路:既然完整的、逐步展开的推理链并非不可或缺,那么,能否用一种更紧凑的隐式表征来替代它呢?
方法:隐式思考模型 LRT
基于上述洞察,Latent Reasoning Tuning(LRT)框架应运而生。其核心思想可以概括为:训练一个轻量级的推理网络,让它学会将显式的推理链“编码”成固定长度的隐式向量。然后,将这个向量直接“注入”大模型,引导其生成最终答案,从而跳过冗长的中间解码步骤。

如上图所示,传统推理模型需要逐token自回归生成整条推理链,而LRT的流程则简化为三步:
1. 输入编码:将问题输入大模型,提取其隐藏状态表征。
2. 隐式推理:将隐藏状态送入轻量级的推理网络
,经过一次前向传播,生成固定长度的隐式推理向量。
3. 答案生成:将隐式推理向量与问题的编码向量拼接,再送回大模型,直接解码生成最终答案。
从技术上看,对于一个推理型大模型
,给定输入提示
,其生成推理轨迹
再总结出答案
的过程,通常满足
,这正是推理开销的根源。
既然推理轨迹
本质上是输入
和模型参数
的函数
,而实验又证明这个函数输出存在冗余,那么一个自然的想法就是:用一个更高效的函数来近似或替代它。
LRT正是引入了这样一个轻量级推理网络
,让它直接从输入映射到紧凑的隐式推理表征:
。这个固定长度的连续向量序列
,替代了原本需要逐token解码的冗长推理链,从而将耗时的“解码”过程转化为了高效的“预填充”式操作。
在训练策略上,LRT采用了两阶段优化:
第一阶段是监督微调(SFT),优化推理网络参数
,最小化负对数似然损失,目标是让生成的隐式表征能引导冻结的基座模型正确预测答案。

第二阶段则引入了强化学习(采用GRPO方法),以答案的正确性作为奖励信号,激励推理网络在隐式空间中探索更优的推理路径,从而突破训练数据质量的限制。
实验结果
1. 高效思考 —— 在不同Token预算下表现最优

在DeepSeek-R1-Distill-Qwen-1.5B模型上的对比实验显示,LRT在不同Token预算下,于域内和域外任务上全面领先其他高效推理方法。特别是在512-Token的预算下,其平均准确率比无思考模式高出2.66%,比RL类方法ShorterBetter和LC-R1分别高出5.90%和4.74%。
2. 混合思考 —— 超越Qwen3原生混合思考模式

LRT模块化的设计,让它天然适合作为一种新的混合推理范式:遇到简单问题时,使用隐式思考快速作答;面对复杂难题时,再切换回显式的慢思考进行深度推理。在Qwen3系列模型上的验证结果令人印象深刻:
在Qwen3-4B上,LRT的pass@4平均准确率达到71.60%,比Qwen3原生的非思考模式高出5.82个百分点。在GSM8K数学推理数据集上提升近7%,在LSAT逻辑推理数据集上提升更是超过14%。这表明,隐式推理向量能有效引导模型探索更多样、更高质量的解题路径。
3. 推理效率对比

效率方面,LRT的推理延迟显著低于Qwen3的混合思考模式,甚至比非思考模式还要快。这是因为隐式推理向量引导模型生成更简洁的答案,减少了解码步数。
4. 消融实验分析

隐式推理token数量的影响:随着隐式token数量从64增加到256,模型性能稳步提升(从42.53%升至48.42%)。

两阶段训练的作用:加入RL阶段后,域内任务平均提升约9%,域外任务平均提升约4.3%,验证了强化学习对于优化隐式推理的关键作用。

基础模型规模的影响:更大的基础模型(如Qwen3-8B)能够充分利用更多的隐式token(即使使用512个隐式token,性能仍能提高),说明隐式推理的“信息容量”与基础模型的能力呈正相关。
总结
总体来看,隐式思考模型LRT为大模型的高效推理开辟了一条颇具潜力的新路径:
理论层面,它系统性地揭示了推理轨迹中存在的高度冗余,证明了完整的逐步推理链并非正确推理的必要前提。
效率层面,通过将显式推理链压缩为隐式向量,用单次前向计算替代数千步的自回归解码,大幅降低了推理成本。
应用层面,其模块化、即插即用的设计,无需修改大模型本身参数,即可在隐式推理与显式推理之间无缝切换,为构建混合推理系统提供了更优的解决方案。
效果层面,在数学、逻辑、科学等多类基准测试中,LRT全面超越了现有的高效推理方法,并在Qwen3系列模型上实现了对其原生非思考模式的超越。
相关攻略
最近,大模型推理领域出现了一个挺有意思的新思路。来自哈尔滨工业大学(深圳)、深圳河套学院和Independent Researcher的研究团队,提出了一种名为LRT(Latent Reasoning Tuning,隐式思考模型)的方法。它试图解决一个越来越明显的痛点:那些“慢思考”模型动辄生成数千
多模态大模型的幻觉问题,一直是阻碍其实际落地的核心挑战。传统观点认为,模型“胡言乱语”源于视觉感知错误。然而,最新研究揭示了一个更深层的原因:很多时候,模型并非“看”错了,而是在推理链条最脆弱的转折点上,“想”偏了方向。 这项关键研究发现,当模型生成“因为”、“但是”、“等等”这类表示因果、转折或反
通用视觉推理的强化学习框架开源版本正式发布,为AI社区带来突破性进展。 这项名为Vero的研究项目由普林斯顿大学刘壮团队主导,陈丹琦教授参与协作。项目基于创新的方法论构建,其视觉推理模型在图表解析、科学问答、空间关系判断及多样化开放视觉任务中均展现出卓越性能。尤为突出的是,该模型在超过30项权威基准
长思维链虽热门,但其高能耗高维特性可能并非最优。未来推理模型需向更稳定、低维的系统发展,高效结合快慢思考。当前模型易错且纠错成本高,而深度思考的潜力在于发现新知识。推理本质是逻辑组合知识以解决新问题,发展应追求“多快好省”与“双商齐备”,并突破目前局限于数学与代码的。
OpenClaw的爆火,让众多AI应用开发者第一次直面了高昂的Token账单——一个用户请求可能触发多轮工具调用,每次调用都携带超长上下文,实际的API成本远超预期,甚至可能达到订阅费用的数十倍。如何有效控制Token成本,正成为AI Agent开发者面临的核心挑战与增长瓶颈。 这显然不是可持续的商
热门专题
热门推荐
近日,国家能源局联合发改委、工信部、国家数据局正式印发《关于促进人工智能与能源双向赋能的行动方案》。这份重磅文件的核心思路非常清晰:一方面,以坚实的能源基础支撑人工智能(AI)的快速发展;另一方面,利用AI技术赋能能源行业转型升级。其核心目标是推动能源、算力、应用场景、数据与算法模型五大关键要素深度
在挑选文生视频工具时,若您正在智谱清影与Runway Gen-3之间权衡,那么了解两者在生成效果上的具体差异,将有助于您做出更明智的选择。本文将从画质清晰度、细节纹理、运动自然度与视频连贯性等核心维度,通过实测对比为您详细解析。 一、画质与分辨率表现 首先对比硬性指标。智谱清影基于CogVideoX
想用通义万相生成一张科技感十足的数据可视化背景,但出来的画面总觉得少了点“内味儿”?数字界面、粒子流、电路纹理这些关键元素一个不见,画面平平无奇?这通常不是工具的问题,而是提示词没有精准锚定科技可视化的核心要素,或者模型参数没调到最佳状态。别急,下面这几种方法,能帮你把想法精准地“翻译”成画面。 一
想要在Vidu生成的视频中实现流畅的慢动作或快进效果?虽然模型界面没有提供直接调整播放速度的滑块,但通过巧妙的提示词设计、利用内置功能,或结合后期处理工具,你完全可以精准掌控视频的节奏与时间感。本文将为你详细解析四种实用方法,从生成前到生成后,全方位满足你的创作需求。 一、通过精准提示词引导运动节奏
当您使用海螺AI生成的英文论文在提交查重时遭遇高重复率或AIGC检测异常,请不要急于归咎于工具本身。核心原因在于,尽管AI生成的文本格式标准、语法地道,但其语言模式和常见短语组合,并未针对知网、维普、万方等中文查重数据库的语义比对逻辑进行专门优化。换言之,机器认为流畅自然的表达,在查重系统的算法看来





