首页 游戏 软件 资讯 排行榜 专题
首页
AI
西安交大与新加坡国立大学合作研发AI记忆推理新模型

西安交大与新加坡国立大学合作研发AI记忆推理新模型

热心网友
32
转载
2026-05-12

这项由西安交通大学与新加坡国立大学合作完成的突破性研究,已于2026年1月14日发布于arXiv预印本平台(论文编号:arXiv:2601.09274v1)。研究团队构建了一个名为A?-Bench的全新测试平台,其核心目标直指一个关键问题:人工智能在进行科学推理时,能否像人类一样,有效地激活并运用记忆?

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

西安交通大学与新加坡国立大学联手:让AI像人类一样激活记忆进行科学推理

回想一下我们解决数学或物理问题的过程。大脑并非在真空中运作,它更像一位经验丰富的厨师,面对复杂菜品时,能迅速调取关于食材特性、火候掌控和调味技巧的过往经验。人类的科学推理同样如此——我们会自动激活相关的知识点(如同想起某种香料的作用),并调用成熟的解题模板(如同运用特定的烹饪手法)。然而,当前主流的人工智能评估方法,大多只盯着最终答案的对错,却忽略了AI在得出答案的过程中,是否真正模拟了人类这种“激活恰当记忆”的思维机制。

研究中的一个现象颇具启发性:当GPT-5面对一个涉及传送带的物理问题时,若缺乏记忆机制的辅助,它会完全忽略“动能定理”这一关键知识点,导致推理路径彻底偏离。可一旦系统能够成功激活相关的物理定律、加速度概念以及功率应用场景这些“记忆片段”,整个推理过程便立刻变得清晰而正确。这好比一个学生突然记起了老师讲解过的经典思路,瞬间就找到了解题的钥匙。

为了深入探究这一机制,研究团队构建了一个包含2198个科学推理问题的大型数据集,覆盖数学、物理、化学三大领域。其创新之处在于,他们为每个问题都精细标注了应当激活的“锚点”和“吸引子”——你可以将其理解为解题所必需的基础概念(锚点)和行之有效的策略模板(吸引子)。这种开创性的标注方式,首次让精确测量AI在推理中调用记忆的“质量”成为可能。

记忆驱动推理的科学原理

人类大脑处理复杂问题时,其机制堪称精妙。面对一道微积分题目,我们的大脑会像一位高效的图书管理员,在庞大的知识库中精准定位所需资料。这个过程首先会激活“锚点”——那些构成推理基石的基础概念和公式,比如导数的定义或积分的基本法则。紧接着,“吸引子”也会被调用——那些经过千锤百炼的解题套路和思维框架,例如“见到这类函数结构,优先尝试分部积分法”。

研究团队用数学模型精确描述了这一记忆激活过程,将其建模为一个寻求能量最小化的动态系统。简单来说,系统会自动寻找最能解释当前问题的那组记忆组合,就像水总会流向地势最低处一样自然。这个过程有两个核心要求:一是被激活的记忆必须与问题高度相关;二是整个记忆激活状态需要保持稳定和自洽。

在这个框架里,“锚点”发挥着定位和约束作用,告诉系统应该关注哪些核心概念。而“吸引子”则提供了动态的解题轨迹,引导推理朝着正确的方向推进。两者的协同,堪比导航系统中的“定位”与“路径规划”——一个告诉你身在何处,另一个指引你如何抵达终点。这一双重机制的设计灵感,直接源于认知科学对人类记忆分层组织的研究成果。

A?-Bench数据集的构建过程

构建这样一个独特的数据集是一项系统工程。研究团队设计了一套名为SAPM的四步标注流程,其严谨程度不亚于设计一套完整的教学体系。

第一步是“学科基准化”。研究者需要为数学、物理、化学三大领域划定清晰的知识边界。例如,数学被细分为代数、几何、微积分等八个子领域;物理则涵盖力学、电磁学等五个分支。这好比为不同的食材预先准备好对应的厨具,确保知识各归其位。

第二步,“锚点与吸引子开发”。这极度依赖领域专家的深度参与。三位专家会从每个子领域中提炼出最核心的概念与公式作为“锚点”(如同烹饪的基础调料),同时识别出那些反复验证有效的解题模式作为“吸引子”(如同经典的烹饪技法)。

第三步,“问题重构”最为精巧。团队从MathVista、OlympiadBench等高质量现有数据集中筛选问题,但并非直接采用。他们会让多个AI模型先行试答,只保留至少有一个模型出错的题目,以确保挑战性。接着,通过模型间的答案互评找出推理漏洞,并在此基础上由专家对原题进行改造,增加多步推理的要求,将“家常菜”升级为需要精细操作的“宴席菜”。

最后是“记忆映射”。AI模型先对题目的学科归属进行“投票”确认,随后人类专家会从构建好的记忆库中,为每道题精心匹配最多6个锚点和4个吸引子。最终形成的2198道题目,在学科和难度上均达到了良好的平衡。

创新的评估框架与指标

如何量化评估AI的“记忆激活”质量?研究团队开发了一套双尺度评估框架,并设计了一个核心指标:AAUI(锚点-吸引子利用指数)。这套体系就像给AI的思维过程安装了一个精密监测仪。

评估的核心是一个混合检索系统(HybridRAG)。当AI遇到新问题时,系统会启动“记忆双针激活器”:一针(向量针)通过语义相似性快速定位相关记忆;另一针(图谱针)则沿着知识图谱的逻辑链路进行追踪。双针协同,确保既快又准。

检索到的记忆成分,会被“情境织物组合器”与问题本身编织在一起,形成完整的推理背景。AAUI指标的巧思在于,它不仅计算AI激活了多少正确的记忆成分,更评估这些成分之间的协同效应。其数学公式同时包含了锚点利用率、吸引子利用率及两者的交互项。这意味着,一个能同时激活正确定律和解题模板的AI,会比只激活其中一样的AI获得更高评价。

测试设计了三种模式:“普通模式”(闭卷考试,仅靠内部知识)、“完整记忆模式”(开卷考试,可检索完整记忆库)和“标注记忆模式”(给予精准的参考资料清单)。这三种模式为对比研究提供了清晰维度。

令人瞩目的实验发现

研究团队在DeepSeek-V3.2、Gemini-2.5-Flash、Claude-Haiku-4.5、Grok-4-Fast等十个前沿模型上进行了全面测试,结果揭示了一系列深刻洞见。

最直接的结论是:记忆增强能显著提升模型性能。在普通模式下,十个模型的平均准确率为34.71%;而在标注记忆模式下,平均准确率跃升至48.19%,提升幅度达13.48个百分点。但提升并非均等,不同模型差异巨大:例如GLM-4-32B的准确率从25.20%飙升至47.95%,提升超过22个百分点;而GPT-5-Mini仅从21.97%增至25.34%。这暗示了不同模型架构在利用外部记忆能力上存在本质差异。

另一个关键发现是,记忆激活对难题的帮助尤为显著。以Grok-4-Fast处理困难物理题为例,其准确率从普通模式的30.00%跃升至标注记忆模式的55.00%。这说明许多问题的难点,往往不在于推理链条本身,而在于能否在起点就调用正确的知识和策略。

AAUI指标与模型最终准确率呈现明确正相关。AAUI得分高的模型(如Grok-4-Fast,得分0.66,平均准确率56.69%),其性能普遍更好;得分低的模型(如GPT-5-Mini,得分0.09,准确率18.74%)则表现不佳。这证实了AAUI确实能有效衡量记忆激活的质量。

更有趣的是,研究还发现:相比于单独激活锚点或吸引子,同时激活两者能产生“1+1>2”的协同效应。在多数情况下,仅激活吸引子(解题模板)比仅激活锚点(知识点)效果更好,这凸显了程序性技能的直接效用。但两者结合始终能带来最佳表现,印证了真正的科学推理需要概念性知识与方法性技能的有机结合。

深度分析与启示

进一步的分析揭示了更多深层规律。首先,不同学科对记忆类型的依赖度不同。数学和物理问题更多受益于吸引子(解题模板)的激活,而化学问题则对锚点(概念知识)和吸引子的依赖更为均衡。这反映了不同学科内在的思维特性。

一个反直觉的发现是:启用记忆机制不仅提高了准确率,还平均减少了2.1秒的推理时间。这碘伏了“检索外部信息必然更慢”的常识。合理的解释是,准确的记忆激活帮助模型快速锁定正确路径,避免了大量无效的试错,如同熟悉地形的司机总能找到捷径。

错误分析显示,记忆激活主要减少了“推理错误”和“知识错误”,对“计算错误”和“格式错误”改善有限。这表明,记忆机制的核心价值在于为推理提供正确的起点和方向,而非替代精确的计算或规范的输出能力。

团队还进行了一项干扰实验:逐步用无关的“噪声记忆”替换正确的锚点和吸引子。结果发现,当噪声比例超过40-60%时,模型性能开始显著下降。这有力地证明,在记忆驱动推理中,记忆的“质量”(相关性)远比“数量”更重要。过多的无关信息非但无益,反而会形成干扰。

技术创新的意义与价值

这项研究的价值,远不止于提出一个新的测试平台。它从根本上为人工智能评估开辟了一个新维度——从只关注“答案对不对”,转向深入考察“推理过程是否合理”。这就像评价一道菜,不再只尝最终味道,而是开始观察厨师的整个烹饪流程。

从认知科学角度看,它验证了将人类记忆的层次结构理论应用于AI系统的可行性。从工程实践看,它提供了一套将抽象认知机制转化为可操作技术框架的方法。

其应用前景广阔。在教育领域,可助力开发能精准推送相关知识点和解题方法的智能辅导系统;在科研、医疗、法律等专业领域,可构建能自动调取理论框架和案例经验的智能助手。

更重要的是,它为构建更可靠、可解释的AI指明了方向。当我们能观察AI激活了哪些记忆,就能更好地判断其推理的合理性,预测其表现,甚至识别其知识盲区。这种透明度对于AI在关键决策场景中的应用至关重要。

从长远看,A?-Bench所代表的记忆驱动方法,可能推动AI架构的演进。它倡导一种更接近人类认知的模式:在推理时动态、灵活地访问外部知识库,而非仅仅依赖训练时“固化”的参数化知识。

说到底,这项研究开启了一扇观察AI“思维过程”的窗口。它提醒我们,真正智能的系统,不仅要知道答案,更要知道如何思考。随着记忆驱动方法的不断完善,未来的AI将有望更贴近人类的思维方式,在众多领域发挥更深刻、更可靠的作用。对技术细节感兴趣的读者,可通过论文编号arXiv:2601.09274v1查阅完整报告。

Q&A

Q1:A?-Bench是什么?
A:A?-Bench是由西安交通大学和新加坡国立大学联合开发的测试平台,专门用于评估AI在解决科学问题时,能否像人类一样激活正确的知识点和解题方法。它包含2198道经过精细标注的数学、物理、化学题目。

Q2:记忆激活机制对AI性能提升有多大?
A:实验表明,该机制平均能提升AI模型13.48个百分点的准确率,部分模型提升超过22个百分点。值得注意的是,它还能平均减少2.1秒的推理时间,说明正确的记忆引导能帮助AI更高效地思考。

Q3:这项技术何时能惠及普通人?
A:基于该技术的智能辅导系统、科研助手等应用前景可期。例如,未来的学习软件可能根据你的具体错题,精准推送相关概念讲解和解题技巧。不过,目前该研究仍处于前沿探索阶段,走向大规模商业化应用尚需时日。

来源:https://www.techwalker.com/2026/0130/3178150.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

西安交大与新加坡国立大学合作研发AI记忆推理新模型
AI
西安交大与新加坡国立大学合作研发AI记忆推理新模型

这项由西安交通大学与新加坡国立大学合作完成的突破性研究,已于2026年1月14日发布于arXiv预印本平台(论文编号:arXiv:2601 09274v1)。研究团队构建了一个名为A?-Bench的全新测试平台,其核心目标直指一个关键问题:人工智能在进行科学推理时,能否像人类一样,有效地激活并运用记

热心网友
05.12
唐嫣罗晋新加坡遛娃,6岁女儿身高抢镜,婚变谣言不攻自破?
娱乐
唐嫣罗晋新加坡遛娃,6岁女儿身高抢镜,婚变谣言不攻自破?

新加坡环球影城偶遇照,为唐嫣罗晋婚姻正名 一组在新加坡环球影城被游客偶遇的照片,让唐嫣和罗晋夫妇再度成为公众关注的焦点。此前网络上流传的关于两人“貌合神离”的种种猜测,在这组温馨的家庭出游照面前不攻自破。照片真实记录了他们一家三口在国外享受亲子时光的动人画面,不仅洋溢着甜蜜幸福的家庭氛围,更以实际行

热心网友
04.29
唐嫣罗晋终于合体,带女儿新加坡游玩,唐嫣给父女俩拍照好甜蜜
娱乐
唐嫣罗晋终于合体,带女儿新加坡游玩,唐嫣给父女俩拍照好甜蜜

唐嫣罗晋带女儿同游新加坡环球影城,低调家庭出游温馨画面曝光 距离唐嫣与罗晋上一次被拍到携女儿公开露面,已时隔数月。由于许久未在公众场合合体,网络上曾出现一些关于两人感情状况的讨论。然而,近日一则网友偶遇消息打破了所有猜测。有游客在新加坡环球影城偶遇唐嫣、罗晋夫妇带着女儿享受家庭时光,并分享了一组现场

热心网友
04.29
罗晋一家三口现身新加坡度假,唐嫣穿着时尚,此前曾多次被传婚变
娱乐
罗晋一家三口现身新加坡度假,唐嫣穿着时尚,此前曾多次被传婚变

唐嫣罗晋新加坡合体,一家三口温馨出游破除婚变传闻 提及娱乐圈中低调恩爱的模范夫妻,唐嫣与罗晋的名字总是被频繁提及。这对夫妇向来注重隐私,极少主动公开个人生活,因此鲜少登上热搜榜单。然而有趣的是,近一年来,关于两人婚姻状况的讨论却意外增多,各类猜测与流言不断涌现,使得许多关心他们的粉丝不禁好奇:唐嫣和

热心网友
04.29
新加坡偶遇唐嫣罗晋一家三口,夫妻俩陪女儿游玩,一起坐旋转木马
娱乐
新加坡偶遇唐嫣罗晋一家三口,夫妻俩陪女儿游玩,一起坐旋转木马

新加坡环球影城偶遇唐嫣罗晋一家三口,温馨家庭出游画面引全网热议 多位网友在新加坡环球影城偶遇唐嫣罗晋带女儿游玩。照片中,罗晋身着绿色外套与黑色短裤,全程紧牵女儿小手。唐嫣则以白色上衣搭配亮眼黄色长裤亮相,状态轻松且吸睛。他们6岁的女儿“小小糖”扎着俏皮麻花辫,头戴粉色棒球帽,身高已接近爸爸肩膀,成长

热心网友
04.29

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Coinbase新手入门指南:分步详解登录认证与首单交易流程
web3.0
Coinbase新手入门指南:分步详解登录认证与首单交易流程

本文旨在为新用户提供一份循序渐进的Coinbase使用指南。建议将学习过程拆分为登录、身份认证和首次交易三个阶段。文章详细介绍了每个阶段的核心操作、注意事项及安全建议,帮助用户在不感到信息过载的情况下,逐步熟悉平台功能,从而更轻松、安全地开启数字资产之旅。

热心网友
05.12
Coinbase闪退问题解决指南:检查系统版本权限与清理缓存
web3.0
Coinbase闪退问题解决指南:检查系统版本权限与清理缓存

Coinbase应用下载后出现闪退,通常与设备系统版本、应用权限或旧缓存文件有关。可先检查手机系统是否满足最低要求,并确保已授予应用必要的存储和通知权限。若问题依旧,尝试清除应用缓存或彻底卸载后重新安装。对于iOS设备,还需确认AppleID地区设置与账户匹配。

热心网友
05.12
红月传奇职业选择指南:哪个职业最强最好用
游戏资讯
红月传奇职业选择指南:哪个职业最强最好用

在《红月传奇》这款经典游戏中,职业选择是决定你游戏体验与成长路线的关键一步。是成为近战无敌的勇猛战士,还是掌控元素的远程法师,或是全能辅助的团队核心道士?不同的职业定位,将带来完全不同的战斗风格、团队职责与成长乐趣。本文将为你深度解析三大职业的核心玩法、技能特色与团队定位,助你精准选择最适合自己的传

热心网友
05.12
战锤40K战争黎明4机械教阵营玩法与兵种解析
游戏资讯
战锤40K战争黎明4机械教阵营玩法与兵种解析

《战锤40K:战争黎明4》的最新实机预告片已经发布,这次的主角是游戏中的全新派系——机械教阵营。没错,就是《战锤40K》宇宙里那个崇拜“万机之神”、痴迷于数据与技术的技术祭司派系。他们正式登场,意味着战场上的科技天平将发生显著倾斜。 从定位上看,机械教是一个高机动性、擅长远程打击的阵营。他们依靠各种

热心网友
05.12
索尼AI专利实现游戏精彩瞬间自动捕捉 告别手动录屏
游戏资讯
索尼AI专利实现游戏精彩瞬间自动捕捉 告别手动录屏

对于广大游戏爱好者而言,记录并分享游戏中的精彩瞬间——无论是多人竞技中的极限操作,还是单人剧情中击败强大BOSS的激动时刻——已成为日常游戏体验的一部分。然而,传统的录屏、回放、剪辑与导出流程,往往操作繁琐、耗时费力。近日,索尼互动娱乐的一项新专利显示,他们正致力于利用人工智能技术,从根本上革新这一

热心网友
05.12