游乐游手机版
首页/科技数码/文章详情

Meta提出推理新方法:训练AI记忆解题捷径,推理效率翻倍

时间:2025-10-14 22:59
Meta 又一次在 AI 推理上“开了挂”。 一份新论文显示,Meta 的研究团队找到一种让大模型“用更少思维,想得更清楚”的办法。 这篇论文名为《Metacognitive Reuse: Tu

Meta 在 AI 推理领域再次实现突破,找到了让大模型“思考更高效”的新方法。

最新研究显示,Meta 团队开发出一种机制,能够帮助大型语言模型总结反复使用的推理过程,并将其转化为简洁指令——称为“行为(Behavior)”。

这项研究成果以《元认知复用:将重复的LLM推理转化为简洁行为》为题,于2025年9月17日由Meta与普林斯顿大学、蒙特利尔大学联合发表。

论文封面

论文作者包括Aniket Didolkar、Nicolas Ballas、Anirudh Goyal和Sanjeev Arora。

论文链接:https://arxiv.org/abs/2509.13237

该方法的核心在于让大语言模型在完成推理后,能够识别并保存重复使用的计算步骤,形成简明的操作指南。

当遇到相似问题时,模型可以直接调用这些预设行为,无需重复推导过程。

实际测试结果令人惊喜。

在数学推理任务中,该机制使模型在保持准确率不变的情况下,推理所需的token数量最多降低了46%。

这意味着模型用不到一半的思考量,就能得出同样准确的答案。

研究团队将这一机制形象地描述为“思维缓存”,让模型学会记住自己的思考方式。

思维手册:AI的“行为记忆术”

行为复用框架示意图

“元认知复用”框架示意图

Meta 将这套系统命名为“行为手册”。

模型在解决问题时,会完整记录整个推理流程。

随后进行复盘分析,识别出常用的解题技巧,如“容斥原理”“分母有理化”“代入后化简”等。

模型会为这些技巧命名并编写说明,形成标准化的行为指令。

这些行为被收录在不断丰富的手册中,供后续调用。

研究将这一过程称为“元认知路径”,即模型对自己的思考方式进行反思和优化。

例如处理掷骰子概率问题时,模型可以直接调用behavior_total_outcomes(计算总可能结果)和behavior_inclusion_exclusion(应用容斥原理避免重复计数)等预设行为。

调用后即可快速得出答案,无需赘述推导过程。

每个行为都是一段高度压缩的思维过程,将原本需要数十步的推理浓缩为简洁指令。

实验数据显示,在MATH数据集上,行为调节推理使模型平均减少近一半的推理token;在AIME–24/25高难度数学题中,即使在有限的token预算(2048–8192)下,模型仍能保持稳定的准确率。

自我优化:像人类一样“节约思考”

传统大模型常被批评“过于啰嗦”——每解决一个问题都要完整展开所有中间步骤的思考链。

这不仅消耗大量token资源,也降低了模型的处理效率。Meta的新方法让模型学会自我反思、提炼精华、简化表达。

行为提取提示设计

行为提取提示设计示意图

研究团队设计了三种工作模式:

首先是“行为调节推理”模式。模型从手册中调用相关行为提示来指导解题过程。结果显示,这种方法节省了46%的token使用量,同时准确率还有所提升。

其次是“行为引导自我改进”模式。模型使用自己总结的行为来优化后续推理。实践表明,这种方法的正确率比常规的“自我批改”提高了10%。

最后是“行为调节监督微调”模式。研究者使用带有行为提示的推理数据来训练学生模型,结果显示这些模型比传统微调版本表现更出色、效率更高。

实验采用R1-Llama-70B作为“元认知策略师”,并在Qwen3-32B、Llama-3.1-8B等多个学生模型上进行验证。

所有测试模型都表现出相同趋势:推理token数量显著下降,而性能保持稳定。

研究者将这一现象描述为:“模型从缓慢推导转变为快速反应。”它不再每次都重新构建思维过程,而是像人类一样,学会了利用经验来优化思考效率。

来源:https://36kr.com/p/3508953333505160
上一篇王宁向库克赠送苹果雕塑 库克手捧LABUBU玩偶亲切互动 下一篇CO气体检测仪:为科研实验提供高精度监测与安全保障
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
泰坦军团战魂KG277VPLUS双模显示器27英寸4K165Hz/520Hz仅1888元
科技数码 · 2026-07-03

泰坦军团战魂KG277VPLUS双模显示器27英寸4K165Hz/520Hz仅1888元

泰坦军团“战魂KG277VPLUS”27英寸显示器发售,支持4K165Hz与FHD520Hz双模切换,定价1888元。采用FastIPS面板,97%DCI-P3色域,配备升降支架及双HDMI2 1和双DP1 4接口。

苹果调价影响消费需求 2026年全球笔电出货量或降13.6%
科技数码 · 2026-07-03

苹果调价影响消费需求 2026年全球笔电出货量或降13.6%

迈入2026年,DRAM与NAND闪存的供应持续紧张及价格不断攀升,正逐步传导至终端消费市场。可以预见,下半年市场环境将更加严峻。上半年多家PC厂商已陆续上调产品定价,最终连苹果也不得不跟进,宣布提升iPad、Mac及家居设备的价格,以应对存储成本的快速上涨。 TrendForce分析指出,苹果全面

苹果iPhone 18 Pro自研C2芯片或不支持5G毫米波
科技数码 · 2026-07-03

苹果iPhone 18 Pro自研C2芯片或不支持5G毫米波

苹果自研C2芯片仅支持Sub-6GHz,不支持5G毫米波。因此,美版iPhone18Pro继续采用高通基带方案以支持毫米波,而其他地区版本则搭载苹果自研C2芯片。这一差异将导致在毫米波覆盖的市场中,用户峰值速率可能显著低于美版用户。

纳睿雷达推出睿宸超精细化短时临近AI气象大模型
科技数码 · 2026-07-03

纳睿雷达推出睿宸超精细化短时临近AI气象大模型

纳睿雷达近日释放了一项重磅成果。2026年7月1日,公司正式对外发布了两款自主研发的全新产品:一款是“WDSPT0152型”S波段全极化多功能有源相控阵雷达,另一款则是名为“睿宸”的超精细化短时临近AI气象大模型。从产品战略来看,此次发布直指气象监测与灾害预警领域的技术制高点。 先来看这款S波段雷达

南航国际创新港一期交付 四大专业园区打造空天产业强磁场
科技数码 · 2026-07-03

南航国际创新港一期交付 四大专业园区打造空天产业强磁场

近日,南京航空航天大学与六合区深度合作的标杆项目——南航国际创新港一期正式交付投用。两个地块陆续启用,成功串联起高校科研能量、地方产业载体与市场创新主体,为南京打造全国领先的航空航天产业创新中心、助力江苏布局商业航天全产业链,提供了坚实的物理支撑。 该创新港一期位于六合区雄州街道,分为3号和4号两个