首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
Meta提出推理新方法:训练AI记忆解题捷径,推理效率翻倍

Meta提出推理新方法:训练AI记忆解题捷径,推理效率翻倍

热心网友
15
转载
2025-10-14

Meta 在 AI 推理领域再次实现突破,找到了让大模型“思考更高效”的新方法。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

最新研究显示,Meta 团队开发出一种机制,能够帮助大型语言模型总结反复使用的推理过程,并将其转化为简洁指令——称为“行为(Behavior)”。

这项研究成果以《元认知复用:将重复的LLM推理转化为简洁行为》为题,于2025年9月17日由Meta与普林斯顿大学、蒙特利尔大学联合发表。

论文封面

论文作者包括Aniket Didolkar、Nicolas Ballas、Anirudh Goyal和Sanjeev Arora。

论文链接:https://arxiv.org/abs/2509.13237

该方法的核心在于让大语言模型在完成推理后,能够识别并保存重复使用的计算步骤,形成简明的操作指南。

当遇到相似问题时,模型可以直接调用这些预设行为,无需重复推导过程。

实际测试结果令人惊喜。

在数学推理任务中,该机制使模型在保持准确率不变的情况下,推理所需的token数量最多降低了46%。

这意味着模型用不到一半的思考量,就能得出同样准确的答案。

研究团队将这一机制形象地描述为“思维缓存”,让模型学会记住自己的思考方式。

思维手册:AI的“行为记忆术”

行为复用框架示意图

“元认知复用”框架示意图

Meta 将这套系统命名为“行为手册”。

模型在解决问题时,会完整记录整个推理流程。

随后进行复盘分析,识别出常用的解题技巧,如“容斥原理”“分母有理化”“代入后化简”等。

模型会为这些技巧命名并编写说明,形成标准化的行为指令。

这些行为被收录在不断丰富的手册中,供后续调用。

研究将这一过程称为“元认知路径”,即模型对自己的思考方式进行反思和优化。

例如处理掷骰子概率问题时,模型可以直接调用behavior_total_outcomes(计算总可能结果)和behavior_inclusion_exclusion(应用容斥原理避免重复计数)等预设行为。

调用后即可快速得出答案,无需赘述推导过程。

每个行为都是一段高度压缩的思维过程,将原本需要数十步的推理浓缩为简洁指令。

实验数据显示,在MATH数据集上,行为调节推理使模型平均减少近一半的推理token;在AIME–24/25高难度数学题中,即使在有限的token预算(2048–8192)下,模型仍能保持稳定的准确率。

自我优化:像人类一样“节约思考”

传统大模型常被批评“过于啰嗦”——每解决一个问题都要完整展开所有中间步骤的思考链。

这不仅消耗大量token资源,也降低了模型的处理效率。Meta的新方法让模型学会自我反思、提炼精华、简化表达。

行为提取提示设计

行为提取提示设计示意图

研究团队设计了三种工作模式:

首先是“行为调节推理”模式。模型从手册中调用相关行为提示来指导解题过程。结果显示,这种方法节省了46%的token使用量,同时准确率还有所提升。

其次是“行为引导自我改进”模式。模型使用自己总结的行为来优化后续推理。实践表明,这种方法的正确率比常规的“自我批改”提高了10%。

最后是“行为调节监督微调”模式。研究者使用带有行为提示的推理数据来训练学生模型,结果显示这些模型比传统微调版本表现更出色、效率更高。

实验采用R1-Llama-70B作为“元认知策略师”,并在Qwen3-32B、Llama-3.1-8B等多个学生模型上进行验证。

所有测试模型都表现出相同趋势:推理token数量显著下降,而性能保持稳定。

研究者将这一现象描述为:“模型从缓慢推导转变为快速反应。”它不再每次都重新构建思维过程,而是像人类一样,学会了利用经验来优化思考效率。

来源:https://36kr.com/p/3508953333505160
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

英雄联盟手游克格汪克格莫皮肤价格
游戏攻略
英雄联盟手游克格汪克格莫皮肤价格

英雄联盟手游克格汪克格莫皮肤售价与购买指南 我们来详细分析一下这款皮肤的获取成本。克格汪 克格莫皮肤在商城中的常规售价为890点券,定位为史诗品质皮肤。它并非限定商品,会常驻商城供玩家随时选购。 对于追求性价比的玩家,官方提供了一个绝佳的入手时机:在2026年3月27日至4月9日期间,皮肤将开启为期

热心网友
04.04
《小花仙:拉贝尔之约》首周开荒核心指南
游戏攻略
《小花仙:拉贝尔之约》首周开荒核心指南

《小花仙:拉贝尔之约》新手开荒完全指南:首周高效发展的核心秘诀 一、开荒核心:抓住家园建设的本质 首先需要明确的是,《小花仙:拉贝尔之约》的玩法内核已发生转变。与其说它是一款传统的卡牌养成游戏,不如定义为以家园经营为核心的模拟养成手游。因此,开荒的首要目标非常明确:并非急于推进主线剧情,而是需要优先

热心网友
04.04
小米官宣涨价!卢伟冰罕见回应 内存涨价扛不住了
科技数码
小米官宣涨价!卢伟冰罕见回应 内存涨价扛不住了

今日,小米针对旗下部分热门在售机型发布建议零售价调整公告,此举在智能手机业内引发广泛关注与讨论。 调价详情 本次价格调整主要覆盖REDMI系列的三款主力机型,详细情况如下: REDMI K90 Pro Max官方建议零售价正式上调200元; REDMI Turbo 5与Turbo 5 Max两款机型

热心网友
04.04
红色沙漠宿敌的下场任务攻略
游戏攻略
红色沙漠宿敌的下场任务攻略

《龙胤立志传》红色沙漠宿敌任务完全攻略 顶级武学搭配指南 在开放武侠世界《龙胤立志传》中,角色的核心战斗力源于精妙的武学体系构建。一套契合角色定位与战斗风格的功法组合,往往能让你在面对“红色沙漠宿敌”等高难度挑战时游刃有余。本攻略将深入解析游戏内的武学搭配底层逻辑,为你规划从入门到精通的全阶段成长路

热心网友
04.04
梦境护卫队金色梦灵阵容挂件搭配
手机教程
梦境护卫队金色梦灵阵容挂件搭配

《梦境护卫队》金色梦灵最强阵容挂件搭配攻略 在热门游戏《梦境护卫队》中,一套高效的阵容不仅依赖主力梦灵的选择,更与挂件的合理搭配密不可分。尤其是以金色梦灵为核心的阵容体系,正确的挂件组合往往能带来质变的输出提升。如果你正在寻找一套实战验证过的高胜率搭配方案,本篇指南将为你提供清晰、可操作的思路,助你

热心网友
04.04