Meta提出推理新方法：训练AI记忆解题捷径，推理效率翻倍

首页

科技

热心网友

转载

2025-10-14

来源:https://36kr.com/p/3508953333505160

Meta 在 AI 推理领域再次实现突破，找到了让大模型“思考更高效”的新方法。

最新研究显示，Meta 团队开发出一种机制，能够帮助大型语言模型总结反复使用的推理过程，并将其转化为简洁指令——称为“行为(Behavior)”。

这项研究成果以《元认知复用：将重复的LLM推理转化为简洁行为》为题，于2025年9月17日由Meta与普林斯顿大学、蒙特利尔大学联合发表。

论文封面

论文作者包括Aniket Didolkar、Nicolas Ballas、Anirudh Goyal和Sanjeev Arora。

论文链接：https://arxiv.org/abs/2509.13237

该方法的核心在于让大语言模型在完成推理后，能够识别并保存重复使用的计算步骤，形成简明的操作指南。

当遇到相似问题时，模型可以直接调用这些预设行为，无需重复推导过程。

实际测试结果令人惊喜。

在数学推理任务中，该机制使模型在保持准确率不变的情况下，推理所需的token数量最多降低了46%。

这意味着模型用不到一半的思考量，就能得出同样准确的答案。

研究团队将这一机制形象地描述为“思维缓存”，让模型学会记住自己的思考方式。

思维手册：AI的“行为记忆术”

行为复用框架示意图

“元认知复用”框架示意图

Meta 将这套系统命名为“行为手册”。

模型在解决问题时，会完整记录整个推理流程。

随后进行复盘分析，识别出常用的解题技巧，如“容斥原理”“分母有理化”“代入后化简”等。

模型会为这些技巧命名并编写说明，形成标准化的行为指令。

这些行为被收录在不断丰富的手册中，供后续调用。

研究将这一过程称为“元认知路径”，即模型对自己的思考方式进行反思和优化。

例如处理掷骰子概率问题时，模型可以直接调用behavior_total_outcomes（计算总可能结果）和behavior_inclusion_exclusion（应用容斥原理避免重复计数）等预设行为。

调用后即可快速得出答案，无需赘述推导过程。

每个行为都是一段高度压缩的思维过程，将原本需要数十步的推理浓缩为简洁指令。

实验数据显示，在MATH数据集上，行为调节推理使模型平均减少近一半的推理token；在AIME–24/25高难度数学题中，即使在有限的token预算（2048–8192）下，模型仍能保持稳定的准确率。

自我优化：像人类一样“节约思考”

传统大模型常被批评“过于啰嗦”——每解决一个问题都要完整展开所有中间步骤的思考链。

这不仅消耗大量token资源，也降低了模型的处理效率。Meta的新方法让模型学会自我反思、提炼精华、简化表达。

行为提取提示设计

行为提取提示设计示意图

研究团队设计了三种工作模式：

首先是“行为调节推理”模式。模型从手册中调用相关行为提示来指导解题过程。结果显示，这种方法节省了46%的token使用量，同时准确率还有所提升。

其次是“行为引导自我改进”模式。模型使用自己总结的行为来优化后续推理。实践表明，这种方法的正确率比常规的“自我批改”提高了10%。

最后是“行为调节监督微调”模式。研究者使用带有行为提示的推理数据来训练学生模型，结果显示这些模型比传统微调版本表现更出色、效率更高。

实验采用R1-Llama-70B作为“元认知策略师”，并在Qwen3-32B、Llama-3.1-8B等多个学生模型上进行验证。

所有测试模型都表现出相同趋势：推理token数量显著下降，而性能保持稳定。

研究者将这一现象描述为：“模型从缓慢推导转变为快速反应。”它不再每次都重新构建思维过程，而是像人类一样，学会了利用经验来优化思考效率。

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：王宁向库克赠送苹果雕塑库克手捧LABUBU玩偶亲切互动下一篇：CO气体检测仪：为科研实验提供高精度监测与安全保障

热门推荐

电脑教程

三星Q3利润创三年新高，内存价格大涨15%拉动业绩

10月14日消息，全球存储芯片现在迎来了7年来最好的日子，三星作为内存、闪存一哥，直接受益于这一波大涨价，Q3运营利润远超预期。三星今天公布了Q3季度的初步报告，运营利润将达到12 1万亿韩元，约合

热心网友

10.14

科技

星舰十一飞圆满收官！SpaceX完成二代测试，启动三代及返场研发

马斯克旗下SpaceX公司于近日完成了星舰第十一次综合飞行测试，此次测试标志着第二代星舰研发工作进入尾声。测试中，超重型助推器与飞船均按预定程序完成关键动作，为第三代星舰技术验证积累了重要数据。本次

热心网友

10.14

科技

王宁向库克赠送苹果雕塑库克手捧LABUBU玩偶亲切互动

库克又来中国了。10月的上海，一场潮玩盛宴迎来特殊客人。苹果公司首席执行官蒂姆·库克在中国行首站，便踏入THE MONSTERS（精灵天团）十周年巡展的奇幻空间。在泡泡玛特创始人王宁与设计师龙家升陪

热心网友

10.14

科技

Meta提出推理新方法：训练AI记忆解题捷径，推理效率翻倍

Meta 又一次在 AI 推理上“开了挂”。一份新论文显示，Meta 的研究团队找到一种让大模型“用更少思维，想得更清楚”的办法。这篇论文名为《Metacognitive Reuse: Tu

热心网友

10.14

手游攻略

光遇有友节第二周任务2攻略：带你快速完成互动挑战

在光遇有友节第二周的任务中，任务2可让不少玩家犯了难。别担心，下面就为大家详细介绍如何顺利通过这个任务。任务要求解读此任务要求我们与一位好友在圆梦村温泉旁完成特定互动。关键在于找到

热心网友

10.14