西安交大与新加坡国立大学合作研发AI记忆推理新模型_AI热点日报

西安交大与新加坡国立大学合作研发AI记忆推理新模型

类型：热点整理2026-05-12

这项由西安交通大学与新加坡国立大学合作完成的突破性研究，已于2026年1月14日发布于arXiv预印本平台（论文编号：arXiv:2601 09274v1）。研究团队构建了一个名为A?-Bench的全新测试平台，其核心目标直指一个关键问题：人工智能在进行科学推理时，能否像人类一样，有效地激活并运用记

这项由西安交通大学与新加坡国立大学合作完成的突破性研究，已于2026年1月14日发布于arXiv预印本平台（论文编号：arXiv:2601.09274v1）。研究团队构建了一个名为A?-Bench的全新测试平台，其核心目标直指一个关键问题：人工智能在进行科学推理时，能否像人类一样，有效地激活并运用记忆？

西安交通大学与新加坡国立大学联手：让AI像人类一样激活记忆进行科学推理

回想一下我们解决数学或物理问题的过程。大脑并非在真空中运作，它更像一位经验丰富的厨师，面对复杂菜品时，能迅速调取关于食材特性、火候掌控和调味技巧的过往经验。人类的科学推理同样如此——我们会自动激活相关的知识点（如同想起某种香料的作用），并调用成熟的解题模板（如同运用特定的烹饪手法）。然而，当前主流的人工智能评估方法，大多只盯着最终答案的对错，却忽略了AI在得出答案的过程中，是否真正模拟了人类这种“激活恰当记忆”的思维机制。

研究中的一个现象颇具启发性：当GPT-5面对一个涉及传送带的物理问题时，若缺乏记忆机制的辅助，它会完全忽略“动能定理”这一关键知识点，导致推理路径彻底偏离。可一旦系统能够成功激活相关的物理定律、加速度概念以及功率应用场景这些“记忆片段”，整个推理过程便立刻变得清晰而正确。这好比一个学生突然记起了老师讲解过的经典思路，瞬间就找到了解题的钥匙。

为了深入探究这一机制，研究团队构建了一个包含2198个科学推理问题的大型数据集，覆盖数学、物理、化学三大领域。其创新之处在于，他们为每个问题都精细标注了应当激活的“锚点”和“吸引子”——你可以将其理解为解题所必需的基础概念（锚点）和行之有效的策略模板（吸引子）。这种开创性的标注方式，首次让精确测量AI在推理中调用记忆的“质量”成为可能。

记忆驱动推理的科学原理

人类大脑处理复杂问题时，其机制堪称精妙。面对一道微积分题目，我们的大脑会像一位高效的图书管理员，在庞大的知识库中精准定位所需资料。这个过程首先会激活“锚点”——那些构成推理基石的基础概念和公式，比如导数的定义或积分的基本法则。紧接着，“吸引子”也会被调用——那些经过千锤百炼的解题套路和思维框架，例如“见到这类函数结构，优先尝试分部积分法”。

研究团队用数学模型精确描述了这一记忆激活过程，将其建模为一个寻求能量最小化的动态系统。简单来说，系统会自动寻找最能解释当前问题的那组记忆组合，就像水总会流向地势最低处一样自然。这个过程有两个核心要求：一是被激活的记忆必须与问题高度相关；二是整个记忆激活状态需要保持稳定和自洽。

在这个框架里，“锚点”发挥着定位和约束作用，告诉系统应该关注哪些核心概念。而“吸引子”则提供了动态的解题轨迹，引导推理朝着正确的方向推进。两者的协同，堪比导航系统中的“定位”与“路径规划”——一个告诉你身在何处，另一个指引你如何抵达终点。这一双重机制的设计灵感，直接源于认知科学对人类记忆分层组织的研究成果。

A?-Bench数据集的构建过程

构建这样一个独特的数据集是一项系统工程。研究团队设计了一套名为SAPM的四步标注流程，其严谨程度不亚于设计一套完整的教学体系。

第一步是“学科基准化”。研究者需要为数学、物理、化学三大领域划定清晰的知识边界。例如，数学被细分为代数、几何、微积分等八个子领域；物理则涵盖力学、电磁学等五个分支。这好比为不同的食材预先准备好对应的厨具，确保知识各归其位。

第二步，“锚点与吸引子开发”。这极度依赖领域专家的深度参与。三位专家会从每个子领域中提炼出最核心的概念与公式作为“锚点”（如同烹饪的基础调料），同时识别出那些反复验证有效的解题模式作为“吸引子”（如同经典的烹饪技法）。

第三步，“问题重构”最为精巧。团队从MathVista、OlympiadBench等高质量现有数据集中筛选问题，但并非直接采用。他们会让多个AI模型先行试答，只保留至少有一个模型出错的题目，以确保挑战性。接着，通过模型间的答案互评找出推理漏洞，并在此基础上由专家对原题进行改造，增加多步推理的要求，将“家常菜”升级为需要精细操作的“宴席菜”。

最后是“记忆映射”。AI模型先对题目的学科归属进行“投票”确认，随后人类专家会从构建好的记忆库中，为每道题精心匹配最多6个锚点和4个吸引子。最终形成的2198道题目，在学科和难度上均达到了良好的平衡。

创新的评估框架与指标

如何量化评估AI的“记忆激活”质量？研究团队开发了一套双尺度评估框架，并设计了一个核心指标：AAUI（锚点-吸引子利用指数）。这套体系就像给AI的思维过程安装了一个精密监测仪。

评估的核心是一个混合检索系统（HybridRAG）。当AI遇到新问题时，系统会启动“记忆双针激活器”：一针（向量针）通过语义相似性快速定位相关记忆；另一针（图谱针）则沿着知识图谱的逻辑链路进行追踪。双针协同，确保既快又准。

检索到的记忆成分，会被“情境织物组合器”与问题本身编织在一起，形成完整的推理背景。AAUI指标的巧思在于，它不仅计算AI激活了多少正确的记忆成分，更评估这些成分之间的协同效应。其数学公式同时包含了锚点利用率、吸引子利用率及两者的交互项。这意味着，一个能同时激活正确定律和解题模板的AI，会比只激活其中一样的AI获得更高评价。

测试设计了三种模式：“普通模式”（闭卷考试，仅靠内部知识）、“完整记忆模式”（开卷考试，可检索完整记忆库）和“标注记忆模式”（给予精准的参考资料清单）。这三种模式为对比研究提供了清晰维度。

令人瞩目的实验发现

研究团队在DeepSeek-V3.2、Gemini-2.5-Flash、Claude-Haiku-4.5、Grok-4-Fast等十个前沿模型上进行了全面测试，结果揭示了一系列深刻洞见。

最直接的结论是：记忆增强能显著提升模型性能。在普通模式下，十个模型的平均准确率为34.71%；而在标注记忆模式下，平均准确率跃升至48.19%，提升幅度达13.48个百分点。但提升并非均等，不同模型差异巨大：例如GLM-4-32B的准确率从25.20%飙升至47.95%，提升超过22个百分点；而GPT-5-Mini仅从21.97%增至25.34%。这暗示了不同模型架构在利用外部记忆能力上存在本质差异。

另一个关键发现是，记忆激活对难题的帮助尤为显著。以Grok-4-Fast处理困难物理题为例，其准确率从普通模式的30.00%跃升至标注记忆模式的55.00%。这说明许多问题的难点，往往不在于推理链条本身，而在于能否在起点就调用正确的知识和策略。

AAUI指标与模型最终准确率呈现明确正相关。AAUI得分高的模型（如Grok-4-Fast，得分0.66，平均准确率56.69%），其性能普遍更好；得分低的模型（如GPT-5-Mini，得分0.09，准确率18.74%）则表现不佳。这证实了AAUI确实能有效衡量记忆激活的质量。

更有趣的是，研究还发现：相比于单独激活锚点或吸引子，同时激活两者能产生“1+1>2”的协同效应。在多数情况下，仅激活吸引子（解题模板）比仅激活锚点（知识点）效果更好，这凸显了程序性技能的直接效用。但两者结合始终能带来最佳表现，印证了真正的科学推理需要概念性知识与方法性技能的有机结合。

深度分析与启示

进一步的分析揭示了更多深层规律。首先，不同学科对记忆类型的依赖度不同。数学和物理问题更多受益于吸引子（解题模板）的激活，而化学问题则对锚点（概念知识）和吸引子的依赖更为均衡。这反映了不同学科内在的思维特性。

一个反直觉的发现是：启用记忆机制不仅提高了准确率，还平均减少了2.1秒的推理时间。这碘伏了“检索外部信息必然更慢”的常识。合理的解释是，准确的记忆激活帮助模型快速锁定正确路径，避免了大量无效的试错，如同熟悉地形的司机总能找到捷径。

错误分析显示，记忆激活主要减少了“推理错误”和“知识错误”，对“计算错误”和“格式错误”改善有限。这表明，记忆机制的核心价值在于为推理提供正确的起点和方向，而非替代精确的计算或规范的输出能力。

团队还进行了一项干扰实验：逐步用无关的“噪声记忆”替换正确的锚点和吸引子。结果发现，当噪声比例超过40-60%时，模型性能开始显著下降。这有力地证明，在记忆驱动推理中，记忆的“质量”（相关性）远比“数量”更重要。过多的无关信息非但无益，反而会形成干扰。

技术创新的意义与价值

这项研究的价值，远不止于提出一个新的测试平台。它从根本上为人工智能评估开辟了一个新维度——从只关注“答案对不对”，转向深入考察“推理过程是否合理”。这就像评价一道菜，不再只尝最终味道，而是开始观察厨师的整个烹饪流程。

从认知科学角度看，它验证了将人类记忆的层次结构理论应用于AI系统的可行性。从工程实践看，它提供了一套将抽象认知机制转化为可操作技术框架的方法。

其应用前景广阔。在教育领域，可助力开发能精准推送相关知识点和解题方法的智能辅导系统；在科研、医疗、法律等专业领域，可构建能自动调取理论框架和案例经验的智能助手。

更重要的是，它为构建更可靠、可解释的AI指明了方向。当我们能观察AI激活了哪些记忆，就能更好地判断其推理的合理性，预测其表现，甚至识别其知识盲区。这种透明度对于AI在关键决策场景中的应用至关重要。

从长远看，A?-Bench所代表的记忆驱动方法，可能推动AI架构的演进。它倡导一种更接近人类认知的模式：在推理时动态、灵活地访问外部知识库，而非仅仅依赖训练时“固化”的参数化知识。

说到底，这项研究开启了一扇观察AI“思维过程”的窗口。它提醒我们，真正智能的系统，不仅要知道答案，更要知道如何思考。随着记忆驱动方法的不断完善，未来的AI将有望更贴近人类的思维方式，在众多领域发挥更深刻、更可靠的作用。对技术细节感兴趣的读者，可通过论文编号arXiv:2601.09274v1查阅完整报告。

Q&A

Q1：A?-Bench是什么？
A：A?-Bench是由西安交通大学和新加坡国立大学联合开发的测试平台，专门用于评估AI在解决科学问题时，能否像人类一样激活正确的知识点和解题方法。它包含2198道经过精细标注的数学、物理、化学题目。

Q2：记忆激活机制对AI性能提升有多大？
A：实验表明，该机制平均能提升AI模型13.48个百分点的准确率，部分模型提升超过22个百分点。值得注意的是，它还能平均减少2.1秒的推理时间，说明正确的记忆引导能帮助AI更高效地思考。

Q3：这项技术何时能惠及普通人？
A：基于该技术的智能辅导系统、科研助手等应用前景可期。例如，未来的学习软件可能根据你的具体错题，精准推送相关概念讲解和解题技巧。不过，目前该研究仍处于前沿探索阶段，走向大规模商业化应用尚需时日。

来源：https://www.techwalker.com/2026/0130/3178150.shtml

新加坡

延伸阅读

补充最近整理过的热点入口。