首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
卡内基梅隆大学突破:推理缓存技术如何提升AI长期推理能力

卡内基梅隆大学突破:推理缓存技术如何提升AI长期推理能力

热心网友
94
转载
2026-02-13


这项由卡内基梅隆大学研究团队完成的重要研究发表在2026年的arXiv平台(论文编号arXiv:2602.03773v1),为人工智能推理能力的突破性提升提供了全新的解决方案。有兴趣深入了解的读者可以通过该论文编号查询完整研究内容。

当我们解决复杂问题时,通常会先思考一段时间,然后总结要点,接着基于这些要点继续深入思考。这种"思考-总结-再思考"的循环过程帮助我们在长时间内持续改进解题能力。然而,目前的大型语言模型就像一个只会一口气说完所有想法的人,无法像人类一样进行这种迭代式的深入思考。

研究团队发现了一个有趣的现象:AI模型在总结之前的推理过程方面表现出色,而且基于这些总结进行后续推理的能力往往比从头开始推理更强。就好比一个学生看着自己的课堂笔记复习时,往往比重新听一遍课更容易理解和记忆知识点。基于这一发现,研究团队开发了名为"推理缓存"(Reasoning Cache, RC)的创新技术。

推理缓存的工作原理类似于接力赛跑。在传统的AI推理中,模型需要一口气完成从问题到答案的全部思考过程,就像一个人要独自跑完整个马拉松。而推理缓存将这个过程分解成多个阶段:AI先进行一段推理,然后将思考过程总结成精华要点,丢弃冗长的原始推理过程,再基于这些要点进行下一轮更深入的思考。这就像接力赛中每个队员跑完自己的赛段后,将接力棒(总结)传给下一个队员,而不需要下一个队员重新跑前面的路段。

一、推理缓存的工作机制

推理缓存的核心思想可以用做菜来类比。传统的AI推理就像一个厨师必须一次性完成整道复杂菜品的制作,从准备食材到最终装盘,中间不能停歇,也不能回头修改。这种方式在处理简单菜品时没问题,但面对需要多道工序的复杂料理时就会力不从心。

推理缓存改变了这种模式。它让AI像一个经验丰富的主厨一样工作:先完成第一道工序(比如准备底汤),然后记录下关键要点(汤的浓度、调料配比等),接着基于这些要点进行下一道工序(添加主要食材),再次记录要点,继续下一步。每一步都建立在前面总结的精华之上,而不是重复之前的全部工序。

具体来说,推理缓存包含两个交替进行的步骤。第一步是推理生成,AI针对问题进行一定长度的思考,就像厨师专注完成一道工序。第二步是总结提炼,AI将刚才的思考过程浓缩成简洁的要点,保留关键信息,丢弃冗余内容,就像厨师记录下这一步的关键参数和注意事项。然后进入下一轮循环,基于之前的总结继续深入推理。

这种设计巧妙地解决了传统AI推理的两个核心问题。首先是长度限制问题。传统模型在训练时通常只接触固定长度的推理过程,当测试时遇到需要更长推理的问题时,就会出现分布偏移,导致推理质量下降。推理缓存通过将长推理分解为多个短推理段,每个段都保持在训练时的长度范围内,从而避免了这个问题。其次是效率问题。随着推理长度增加,传统方法的计算成本会急剧上升,而推理缓存通过总结机制,将长期记忆压缩到固定长度,保持了计算效率。

二、突破传统限制的训练策略

传统的强化学习训练就像训练一个短跑运动员,让他在固定的赛道长度上反复练习,希望他能在比赛中跑出好成绩。但是如果比赛赛道比训练时的赛道长得多,这个运动员就会力不从心。同样,传统的AI训练也面临这个问题:模型在固定长度的推理任务上训练,当面对需要更长推理的复杂问题时就会表现不佳。

研究团队设计了一套全新的训练策略来解决这个问题。他们不再试图训练模型进行超长推理,而是专注于训练模型两个关键能力:一是基于总结进行高质量推理的能力,二是将多轮推理有机结合的能力。这就像训练一个接力赛团队,每个队员都专精于自己的赛段,但整个团队能够完成比任何个人都更长的距离。

训练过程采用了创新的"回放缓冲"机制。在训练早期,AI会生成大量的推理总结,这些总结会被存储在一个"经验库"中。在后续训练中,AI不仅要学会从新问题开始推理,还要学会从这个经验库中的各种总结出发继续推理。这种设计让AI接触到了各种各样的推理起点,大大提高了它在实际应用中的适应能力。

更重要的是,这种训练方法训练的不是简单的模仿,而是真正的推理策略。传统方法往往让AI学会模仿训练数据中的推理模式,但推理缓存训练让AI学会了一种通用的问题解决框架:分析当前状态、制定推理计划、执行推理、提炼要点、规划下一步。这种框架化的能力让AI能够应对训练时未见过的复杂问题。

三、令人瞩目的实验成果

研究团队在多个具有挑战性的数学和科学推理基准上测试了推理缓存技术,结果令人印象深刻。他们使用一个只有40亿参数的基础模型进行测试,这个模型规模相对较小,在标准测试中的表现原本比较有限。

在哈佛MIT数学竞赛(HMMT 2025)的测试中,使用推理缓存技术的模型表现尤为突出。当推理预算从16000个token增加到512000个token时,模型的准确率从40%大幅提升到将近70%,提升幅度超过了30个百分点。更令人惊讶的是,这个相对小型的模型在使用推理缓存后,甚至超过了一些专门为推理任务设计的大型模型。

在国际数学奥林匹克答题测试(IMO-AnswerBench)中,模型的表现同样令人瞩目。随着推理预算增加到256000个token,准确率从34%提升到接近50%,甚至超过了一些参数量达到300亿的大型指令模型。这个结果特别有意义,因为它表明推理缓存技术能够让较小的模型通过更好的推理策略,在复杂问题上取得比大模型更好的效果。

更有趣的是,研究团队还在科学推理基准FrontierScience上测试了这个只在数学问题上训练的模型。尽管模型从未见过科学问题的训练数据,但使用推理缓存后它在科学推理上的表现也显著提升。这表明推理缓存技术学到的不是特定领域的知识,而是一种通用的推理方法,具有很强的跨领域迁移能力。

四、深度分析与机制探究

为了深入理解推理缓存为什么如此有效,研究团队进行了大量细致的分析工作。他们发现,推理缓存成功的关键在于充分利用了大型语言模型的一个重要特性:总结-生成不对称性。

这种不对称性可以用翻译工作来类比。一个优秀的翻译往往发现,将一篇外语文章总结成中文要点比从头开始写一篇中文文章容易得多,而基于这些中文要点展开写作又比直接翻译整篇外语文章容易。同样,大型语言模型在总结之前的推理过程方面表现出色,而且基于总结进行后续推理的能力往往比从零开始推理更强。

研究团队通过详细分析发现,在推理缓存的多轮推理中,AI主要采用三种策略。最常见的是验证策略,AI会检查前面总结中提到的结论和方法是否正确。其次是探索策略,AI会基于前面的总结尝试不同的解题路径。最后是改进策略,AI会在前面方法的基础上进行精细化改进。这三种策略的灵活运用使得AI能够在长期推理中持续取得进展。

研究还发现,总结的详细程度对效果有重要影响。太过简略的总结会丢失关键信息,而过于详细的总结又失去了压缩的意义。最佳的总结长度大约是1-2个段落,既保留了核心思路和关键结果,又过滤了冗余的中间步骤。

另一个重要发现是,推理缓存对模型的指令跟随能力有一定要求。专门用于推理的模型虽然推理能力很强,但如果指令跟随能力较弱,使用推理缓存的效果就不如指令跟随能力强的通用模型。这表明推理缓存需要模型具备理解总结内容并据此调整推理方向的能力。

五、技术优势与计算效率

推理缓存技术在计算效率方面也表现出显著优势。传统的长推理需要模型保持非常长的上下文,这会导致计算成本随推理长度平方级增长。而推理缓存通过总结机制将长期记忆压缩到固定长度,使得计算成本仅随迭代轮数线性增长。

具体来说,当需要达到相同的有效推理长度时,推理缓存的推理速度可以比传统方法快数倍。在实验中,当推理预算达到512000个token时,推理缓存的推理速度始终保持稳定,而传统长文本推理的速度会随着长度增加而显著下降。这种效率优势使得推理缓存技术具有很强的实用价值。

内存使用方面,推理缓存也更加高效。传统方法需要存储完整的长推理链,而推理缓存只需要存储当前轮次的推理和总结,内存占用保持在固定水平。这使得即使在资源受限的环境下,也能进行长期复杂推理。

训练效率同样得到了显著提升。传统的长推理训练需要在非常长的序列上进行强化学习,这在计算上非常昂贵。推理缓存的训练将长推理分解为多个短推理段,每个段都可以独立优化,大大降低了训练成本。研究显示,达到相同效果的推理缓存训练成本可以比传统长推理训练低一个数量级。

六、实际应用潜力

推理缓存技术的应用前景非常广阔。在数学问题求解方面,这项技术已经显示出超越专门数学模型的潜力。对于需要多步骤推理的复杂数学证明、工程计算、科学分析等任务,推理缓存都能提供更可靠的解决方案。

在代码生成和软件开发领域,推理缓存可以帮助AI更好地处理复杂的编程任务。AI可以先分析需求并制定整体架构,总结设计要点,然后基于这些要点逐步实现各个模块,最后整合测试。这种迭代式的开发过程更接近人类程序员的工作方式。

科学研究方面,推理缓存技术特别适合需要长期推理的研究任务。比如在分析复杂的科学数据时,AI可以先进行初步分析并总结发现,然后基于这些发现深入探索特定方向,再根据新的结果调整研究策略。这种螺旋上升的研究过程能够处理比单次推理更复杂的科学问题。

更重要的是,研究团队发现推理缓存训练出的模型在使用其他测试时推理框架时也表现更好。这表明推理缓存教会了模型一种通用的"基于抽象信息进行推理"的能力,这种能力可以迁移到各种需要基于先验信息进行推理的场景中。

七、局限性与未来发展

尽管推理缓存技术表现出色,但研究团队也诚实地指出了当前方法的一些局限性。当前的训练目标相对短视,每一轮推理都独立追求正确答案,这可能会阻碍一些需要长期规划的推理策略。比如在某些复杂问题中,可能需要在前几轮进行看似无关的探索性推理,为后续的关键突破做准备,但当前的奖励机制可能不会鼓励这种策略。

总结质量的优化也是一个值得改进的方向。目前的方法主要训练基于总结的推理能力,但没有直接优化总结生成的质量。研究团队尝试了直接训练总结生成,但发现效果并不理想,这主要是因为难以设计合适的奖励信号来评价总结质量。未来可能需要开发更sophisticated的总结质量评估方法。

推理缓存技术对模型的指令跟随能力有一定依赖,这限制了它在纯推理模型上的应用。对于那些推理能力很强但指令跟随能力较弱的专门模型,可能需要额外的适配训练才能充分发挥推理缓存的优势。

研究团队还指出,推理缓存特别适合具有"块状结构"的推理问题,即可以分解为相对独立的推理段,每个段的结果可以被简洁总结。对于需要维持大量细节信息的搜索类问题,推理缓存的效果可能有限,因为总结过程可能会丢失重要的搜索状态信息。

八、技术创新的深层意义

推理缓存技术的成功不仅仅是一个技术突破,更重要的是它展示了一种新的AI推理范式。传统的AI推理更像是"一气呵成"的表演,而推理缓存引入了"反思-迭代"的循环过程,这更接近人类解决复杂问题的思维方式。

这种范式转变具有深远的意义。它表明我们不必总是追求更大、更强的模型来解决复杂问题,而是可以通过更好的推理策略让现有模型发挥更大潜力。推理缓存用一个40亿参数的模型达到了许多更大模型才能达到的效果,这为AI技术的民主化提供了可能。

从认知科学的角度看,推理缓存也验证了一些关于人类思维的理论。人类在解决复杂问题时确实会使用类似的"工作记忆-长期记忆"循环机制,通过不断的总结和回顾来维持长期推理的连贯性。推理缓存在某种程度上是对这种认知机制的计算模拟。

技术实现上,推理缓存的成功也为其他AI能力的提升提供了启发。比如在长文本理解、多轮对话、复杂决策等任务中,都可以考虑引入类似的迭代式处理机制,而不是试图用单次前向传播解决所有问题。

说到底,推理缓存技术代表了AI推理能力发展的一个重要方向。它不是通过简单地增加模型规模或训练数据来提升性能,而是通过更智能的推理策略来充分发挥现有模型的潜力。这种思路在当前AI发展面临计算资源和数据瓶颈的背景下特别有价值。

研究团队已经开源了相关代码,这将有助于更多研究者和开发者探索推理缓存技术的应用潜力。随着技术的进一步完善和优化,我们有理由期待推理缓存能够在更多领域发挥作用,让AI系统具备更强的长期推理和问题解决能力。这项技术的成功也提醒我们,在追求更强AI能力的道路上,有时候改变思路比增加资源更重要。通过学习和模拟人类的认知策略,我们可能会发现更多提升AI能力的创新途径。

Q&A

Q1:推理缓存技术是如何工作的?

A:推理缓存技术类似于接力赛跑的工作方式。AI先进行一段推理,然后将思考过程总结成精华要点,丢弃冗长的原始推理过程,再基于这些要点进行下一轮更深入的思考。这种"思考-总结-再思考"的循环过程让AI能够处理比单次推理更复杂的问题,同时避免了传统长推理中的效率和质量问题。

Q2:为什么推理缓存比传统方法效果更好?

A:推理缓存的优势主要体现在三个方面。首先是避免分布偏移,通过将长推理分解为多个短推理段,每个段都保持在训练时的长度范围内。其次是利用了大型语言模型的总结-生成不对称性,即模型基于总结进行推理比从头开始推理更容易。最后是计算效率更高,避免了传统长推理中计算成本随长度平方级增长的问题。

Q3:推理缓存技术有什么实际应用价值?

A:推理缓存技术在多个领域都有广阔的应用前景。在数学和科学研究中,它能处理需要多步骤推理的复杂问题。在代码生成领域,能帮助AI更好地处理复杂编程任务。更重要的是,这项技术让较小的模型通过更好的推理策略达到大模型的效果,为AI技术的民主化提供了可能,降低了使用高性能AI推理能力的门槛。

来源:https://www.163.com/dy/article/KLLUF3A10511DTVV.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

蚂蚁武威推理模型范式猜想与未来演进趋势
AI
蚂蚁武威推理模型范式猜想与未来演进趋势

长思维链虽热门,但其高能耗高维特性可能并非最优。未来推理模型需向更稳定、低维的系统发展,高效结合快慢思考。当前模型易错且纠错成本高,而深度思考的潜力在于发现新知识。推理本质是逻辑组合知识以解决新问题,发展应追求“多快好省”与“双商齐备”,并突破目前局限于数学与代码的。

热心网友
05.16
搜索成本仅为推理十分之一却鲜为人知的行业真相
科技数码
搜索成本仅为推理十分之一却鲜为人知的行业真相

OpenClaw的爆火,让众多AI应用开发者第一次直面了高昂的Token账单——一个用户请求可能触发多轮工具调用,每次调用都携带超长上下文,实际的API成本远超预期,甚至可能达到订阅费用的数十倍。如何有效控制Token成本,正成为AI Agent开发者面临的核心挑战与增长瓶颈。 这显然不是可持续的商

热心网友
05.12
EPFL等机构发现大语言模型的内部思维与人类创造性大脑高度同步
科技数码
EPFL等机构发现大语言模型的内部思维与人类创造性大脑高度同步

这项由瑞士洛桑联邦理工学院(EPFL)、意大利卢加诺大学(USI)、韦斯利安大学、巴黎脑研究所(ICM)以及宾夕法尼亚州立大学联合开展的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604 03480。对这一交叉领域感兴趣的读者,可以通过该编号在arXiv平台上查阅完整原文。 一、

热心网友
04.22
摩尔线程完成智谱GLM-5.1适配
科技数码
摩尔线程完成智谱GLM-5.1适配

北京商报讯(记者 陶凤 王天逸) 人工智能领域又传来一条振奋人心的消息。4月8日,摩尔线程正式宣布,其旗舰级AI训推一体全功能GPU——MTT S5000,已经成功完成了对智谱新一代旗舰模型GLM-5 1的Day-0极速适配。这意味着,推理部署与训练复现的全部流程,现在都能在这条国产算力路径上获得支

热心网友
04.15
如何利用SQL进行推理
数据库
如何利用SQL进行推理

如何用SQL求解逻辑推理题:经典楼层分配谜题实战 今天我们来探讨一个非常有趣的技术应用:使用SQL来求解逻辑推理题。这听起来或许有些大材小用,但正是这种跨界应用,充分展现了SQL语言的强大灵活性以及开发者分析问题的思维能力。我们将以一个经典的五人楼层分配谜题作为案例,逐步拆解如何用纯粹的SQL找到答

热心网友
04.14

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

《Zero Parades: For Dead Spies》游戏评分与媒体评价汇总
游戏攻略
《Zero Parades: For Dead Spies》游戏评分与媒体评价汇总

《Zero Parades: For Dead Spies》的媒体评测已经解禁,结果相当亮眼。这款被许多人视为《极乐迪斯科》精神续作的作品,在OpenCritic上拿到了86分的媒体均分,在Metacritic上也有83分。游戏将于5月21日正式登陆PC平台,看来2026年的必玩叙事RPG名单上,又

热心网友
05.18
Excel多级分类汇总一句话快速完成
AI
Excel多级分类汇总一句话快速完成

目录 你是否也遇到过这些问题 处理效果 前置准备 超简单AI自动化解决方案 第1步:准备好你的原始数据 第2步:针对指定的文件下达指令 第3步:验收 还能解决这些同类问题 指令为什么这么有用? 更多场景直接抄作业 销售数据三级汇总 成本数据多级汇总 库存数据汇总 员工薪资汇总 常见问题答疑 核心价值

热心网友
05.18
Kimi K2.6 智能体功能深度解析与体验评测
AI
Kimi K2.6 智能体功能深度解析与体验评测

AI Agent 的发展,正迎来一个关键的转折点,从概念验证迈向真正的生产力交付。 想象一下,当一个 AI 智能体能够在无需人工介入的情况下,独立完成一个复杂项目的全流程,并将成功经验固化为可随时调用的“技能”——这是否标志着 AI 在职场中的角色,已经从辅助工具演变为自主的生产力单元? 随着 Op

热心网友
05.18
苹果WWDC26前瞻 iOS27新Siri界面交互升级预测
AI
苹果WWDC26前瞻 iOS27新Siri界面交互升级预测

彭博社的马克・古尔曼在最新报道中透露了一个有趣的发现:苹果为WWDC 26发布的宣传海报,其设计细节可能暗藏玄机,指向了即将在iOS 27中亮相的全新Siri交互界面。 根据古尔曼的分析,新版Siri的核心变化在于与灵动岛的深度融合。唤醒时,它将不再以传统的全屏或底部卡片形式出现,而是会以一个扩展的

热心网友
05.18
GitHub刷星乱象调查 AI项目成虚假评分重灾区
AI
GitHub刷星乱象调查 AI项目成虚假评分重灾区

GitHub 的 Star 数量还值得信赖吗?真相可能比你想象的更严峻。 开源社区中“购买 Star”的现象早已不是秘密,其便捷程度甚至超过点外卖,单价低廉且支持批量折扣。然而,卡内基梅隆大学(CMU)一项被 ICSE 2026 顶会收录的最新研究,首次系统性地揭示了这场“造假生意”的惊人规模:Gi

热心网友
05.18