微软ACL2026双榜SOTA新作重新定义AI长记忆
随着大语言模型在各类应用场景中加速落地,一个关键技术瓶颈日益凸显:AI系统普遍缺乏真正的长期记忆能力。当前主流的RAG(检索增强生成)方案依赖语义相似度检索历史信息,但“语义相似”并不等同于“真正相关”,常导致检索结果不完整、无法区分信息相关性、缺乏推理能力等问题。
为应对上述挑战,微软研究团队提出了全新的AI记忆框架Mnemis,该框架受认识论与认知科学双重启发,使AI不仅能“快速检索”,更能“审慎推理”,在两大权威长期记忆基准上均达到SOTA性能。该研究成果已被ACL2026主会议接收。

△图 1:Mnemis框架总览——层级图索引+双路径检索
RAG的“近视眼”困境
设想这样一个场景:用户问“Da ve在2023年去过哪些城市?”,正确答案是San Francisco和Detroit。传统RAG将查询转换为向量,在历史对话中检索语义最相似的片段。结果它仅找到了Boston和San Francisco,却遗漏了Detroit——因为“attended a conference in Detroit”隐藏于一条长消息中,与“去过哪些城市”的语义相似度不足。同时,RAG也无法判断Boston是居住城市而非旅行目的地。
- 孤立评分——每条记忆独立与查询比较,忽略记忆之间的关联;
- 语义偏见——向量相似度偏爱字面匹配,对间接相关的信息天然不敏感;
- 无法推理——系统不了解对话历史中存在哪些话题及其相互关系。
打个比方,RAG就像根据书名关键词找书,而有经验的图书馆员会先查阅分类目录,从结构上系统性地定位所有相关书籍。
Mnemis的核心设计:建构式索引+双系统检索
Mnemis的名称源自希腊神话中的记忆女神,其设计分为索引和检索两个阶段。
在索引阶段,传统RAG将对话分块、向量化、存入数据库,不建立任何结构——这对应认识论中的保存主义,记忆只是知识的“搬运工”。而建构主义认为记忆是主动的加工过程,人类在“记住”时就在进行组织和抽象。
Mnemis正是建构主义的计算实现:它将碎片化对话组织成自适应的层级图,而非扁平的向量库。
具体来说,第一层是Base Graph(知识图谱),从对话中提取实体和关系,进行消歧、去重、聚合,消除碎片化。
第二层是Hierarchical Graph(层级图),在知识图谱基础上将具体实体归纳为高层语义概念,建立跨主题的高阶连接。例如,San Francisco、Detroit等实体会被归入“Geographical Locations”概念,再进一步归入“Geography”类目。每个用户的层级图完全由其自身数据自适应生成。
层级图的构建遵循三个核心原则:最小概念抽象(MCA)确保每一层类别承载真实语义信息;多对多映射(M2M)允许一个实体属于多个类别,保证从任何角度检索都不会遗漏;压缩效率约束(CEC)确保层级结构逐层压缩,维持紧凑性。三者协同,从结构上保证了信息的无损性和全局可达性。
在检索阶段,Mnemis受诺贝尔经济学奖得主Daniel Kahneman的双系统理论启发,融合了两条互补的检索路径。System-1(快思考)将查询向量化,在Base Graph中快速匹配语义最相似的实体,适合直接简单的问题。System-2(慢思考)则利用LLM的推理能力,在层级图上自顶向下逐层遍历、智能筛选。当LLM确信某个类别下的所有内容都相关时,可触发Shortcut机制直接获取全部后代节点,兼顾准确性与效率。
最终,System-1确保语义直接匹配的记忆不遗漏,System-2确保结构相关但语义距离较远的记忆被覆盖,两者融合互补。

△图 2:Mnemis的双路径检索范式
效果验证:双基准SOTA
Mnemis在两个主流长期记忆基准上进行了全面评估。在LoCoMo基准上取得了93.9%的准确率,在LongMemEval-S基准上取得了91.6%的准确率,均显著优于现有的RAG和Graph-RAG方法。值得注意的是,以上结果仅使用GPT-4.1-mini作为底座模型,证明了框架设计本身的有效性。

△图3:LoCoMo基准实验结果

△图 4:LongMemEval-S基准实验结果
案例分析
回到开头的案例。面对“Da ve在2023年去过哪些城市”这一查询,System-1通过语义匹配找到了Boston和San Francisco,但遗漏了Detroit。System-2则从层级图顶部出发,依次定位到Geography→Geographical Locations,触发Shortcut直接获取所有城市实体,成功检索到Detroit。两条路径融合后,模型进一步推理判断Boston为居住城市而非旅行目的地,最终给出完整正确的答案。

△图5:案例分析——System-1与System-2的互补
另一个典型案例是“Sam遇到了什么健康问题促使他改变生活方式”。System-1被“health issue”等关键词吸引,检索到胃炎这一急性事件;而System-2通过层级结构定位到Physical Well-Being→Health→Health Factors,聚合多条记忆后发现,真正驱动Sam长期改变生活方式的核心因素是体重问题而非单次胃炎事件。这体现了System-2在抽象归因和长期动机分析上的独特价值。
思考与展望
Mnemis揭示了一个重要洞察:记忆系统的质量,很大程度上取决于“存储时做了什么”,而不仅仅是“检索时怎么找”。
传统RAG将所有智能都放在检索阶段,而索引阶段几乎是无加工的分块向量化。Mnemis的设计理念是在索引阶段就进行深度语义建构,使检索阶段能同时利用快速匹配和结构遍历——这恰好对应人类记忆的两个关键特征:存储时的建构性和提取时的双模式。团队认为,真正的AI记忆应当是有组织的、可推理的、双模式的、并能持续进化的。Mnemis是这一方向上的重要探索。
论文链接:https://arxiv.org/abs/2602.15313
GitHub:https://github.com/microsoft/Mnemis
相关攻略
微软提出基于认知科学启发的新记忆框架Mnemis,通过建构式层级图索引与双系统检索(快慢思考)克服传统RAG的语义相似度局限。该方法在LoCoMo和LongMemEval-S基准上分别取得93 9%和91 6%准确率,均达SOTA,已被ACL2026主会议接收。
大语言模型的应用浪潮正席卷而来,但一个核心的瓶颈也日益凸显:AI始终缺乏真正有效的长期记忆能力。目前主流的解决方案——检索增强生成(RAG),虽然能快速调取历史信息,但其依赖的语义相似度检索存在一个根本性缺陷:“语义相似”并不等同于“逻辑相关”。这导致检索结果常常不完整、无法识别信息间的深层关联,更
今日,小米汽车正式推出名为Xiaomi Auto World Model的全新框架,为自动驾驶领域的世界模型技术演进开辟了创新路径。此举标志着行业技术正从初级的“环境感知”阶段,向具备“认知推理与场景演化”能力的高阶形态深度迈进。 简而言之,该框架的核心创新在于,它首次实现了三维场景重建与动态视频生
小米汽车发布全新世界模型框架,将三维重建与视频生成深度耦合,解决了几何保真与内容多样性的矛盾。该一体化设计使两者协同增益,在Waymo等基准测试中全面领先。它应用于合成数据生成、仿真测试与智能座舱,能高效预测环境演化,提升辅助驾驶系统对极端场景的应对能力。
一、背景 当前,视觉-语言-动作模型已成为推动机器人智能发展的核心架构。然而,主流方案如OpenVLA、π0、CogACT普遍存在一个设计局限:它们依赖单一动作模型处理所有任务。这种“通用型”设计在面对真实世界的复杂机器人操控时,其内在矛盾日益凸显。 问题的核心在于机器人任务本身的二元特性。机器人动
热门专题
热门推荐
为什么不能满仓操作?仓位管理是风险控制的第一道防线 在加密市场的惊涛骇浪中,一个核心原则被反复验证:满仓操作,无异于将自己置于毫无退路的悬崖边缘。它背后潜藏着五大风险:市场不确定性下的单点暴露、心理压力导致决策失衡、错失动态再平衡机会、杠杆叠加加剧爆仓、链上痕迹削弱抗审查能力。理解这些风险,是构建稳
对于成长型企业而言,部署AI的最大挑战往往不在于技术本身,而在于算力成本宛如一笔糊涂账——每月支出多少、流向何处、下月预算如何规划,几乎全凭估算。联想最新推出的百应AI 3 0版本,正是精准回应了这一难题。 本次,联想首次为成长型企业打造了一套覆盖全链路的词元经济解决方案,其核心理念极为简洁:将算力
上周,金山办公在武汉举办了WPS AI NEXT线下路演,现场发布的新一代WPS多维表格,凭借一份硬核成绩单引发行业关注。在权威表格智能体评测榜单SpreadSheetBench最新排名中,WPS多维表格的AI智能引擎位列全球第二,仅次于谷歌,充分展现了国产办公软件的AI实力。 当前,多维表格赛道竞
宗门联赛S3赛季引入三线对抗机制,增加排兵布阵博弈;新增战术设计可禁用特定秘术,强化情报收集。同时加入挂机功能降低参与门槛,匹配机制优化提升公平性,位面加速缩短比赛耗时,满足不同玩家需求。
车队运营团队普遍面临两个核心痛点:工具碎片化、手动流程耗时严重。在近期举办的Vision 26峰会上,Motive一口气发布了集成硬件与人工智能的多项创新方案,矛头直指这两个痼疾,将其物理AI运营平台的边界大幅外扩。从本质上看,这套新方案要解决的是一个老问题:如何把散落在不同系统里的数据整合到一个统





