AI能否记住你？Kenotic Labs评估体系重新定义人工智能记忆边界

首页

热心网友

转载

2026-05-15

这项由Kenotic Labs开发的研究成果发表于2026年4月的第39届神经信息处理系统大会（NeurIPS 2025），论文编号为arXiv:2604.06710v1。

AI真的能

不知道你有没有过这样的体验：和一位朋友促膝长谈，分享了近期的压力、生活的变动，甚至一些私密的感受。可下次见面，对方却仿佛失忆了一般，对你的经历一无所知。那种感觉，多少有些令人沮丧。

遗憾的是，这正是当下绝大多数AI助手与用户关系的真实写照。你今天告诉它你在准备一场重要的考试，明天它可能就会用同样陌生的口吻问你“今天有什么计划？”。你上周提及家人的健康状况，下周它依然会茫然地询问背景。每一次对话都像一次重启，过往的交流痕迹被轻易抹去。

行业早已意识到这个痛点，并推出了各式“记忆”方案来修补：有的将对话历史存入数据库，有的利用向量搜索召回相关内容，还有的为用户创建静态的“个人档案”。这些方法听起来不错，但Kenotic Labs的研究团队发现，它们大多只是在做信息的“存储”与“检索”，却回避了一个更本质的问题：AI究竟该如何真正地、持续地“了解”一个人？

正是为了回答这个问题，团队构建了一套名为ATANT（叙事真相验收自动化测试）的评估框架。这套框架首次从学术层面，为AI的“连续性”能力提供了明确定义和一套可实操的衡量标准。

一、“记住”和“了解”之间，究竟差了什么

在深入框架之前，有必要厘清一个关键概念：“记忆”与“连续性”有何不同？

这可以用档案员来比喻。普通档案员的工作是归档文件，并在你需要时，从海量卷宗中找出最相关的那一份。这对应着“记忆+检索”——存、找、取。目前多数AI记忆方案正停留于此。

而一个真正了解你的人——比如你的主治医师或挚友——所做的远不止于此。他们不仅能调取你的历史记录，更能构建出动态的认知：“你上次来的时候，血压偏高，那时你正经历一段艰难时期；现在指标好转了，看来你开始的锻炼计划有效，不过记得你提过的旧伤，运动方式需要留意。”这种能力，才是所谓的“连续性”。它并非简单检索，而是基于碎片信息，重建出对用户当前状态的理解。它能分辨哪些信息依然有效，哪些已经过时，相似事件背后有何不同背景，并能将相关线索编织成完整的现状图景。

简而言之，检索回答的是“过去记录了什么”，而连续性回答的是“现在的实际情况是什么”。当交流仅限于一两次时，这种差别微乎其微；但当互动跨越数月、经历诸多变化后，两种系统的表现将天差地别。

二、连续性的七条铁律：一个合格的AI“老友”必须做到的事情

为了将“连续性”从模糊概念转化为可测量的标准，研究团队通过大量真实叙事测试，提炼出任何声称具备此能力的系统必须满足的七项属性。这些属性并非理论推演，而是在系统构建与测试中，通过“缺失此项能力会导致何种崩溃”的方式逐一验证得出的。

第一条是“超越会话的持久性”。基础但关键：系统关闭重启后，能否毫无损耗地找回所有先前信息？这是许多系统面临的首道关卡。

第二条是“更新处理能力”。生活是流动的。用户可能结束一段关系，开始新的旅程。系统必须能接纳新信息，准确反映当前状态，同时清晰区分“现在”与“过去”，而非新旧信息混杂或覆盖。

第三条是“时间顺序”。人类表达时间常是模糊的——“上周”、“下个月初”、“大概三周前”。系统必须正确解析这些相对时间，将其锚定为具体时间点，并理解事件的前后逻辑与当前相关性。

第四条是“消歧义能力”。这是最具挑战性的一环。当数据库中存在数百个用户的生活叙事时，难免出现相似情节（如“工作面试”、“家人生病”）。系统必须精准地将问题与正确的用户及其上下文匹配，杜绝张冠李戴。

第五条是“重建能力”。当被问及“我现在的感情状况如何”时，系统不应只抛出一个名字或一条记录，而应能整合所有相关碎片——对方信息、近期动态、待决事项——形成一个连贯的概述。

第六条是“模型独立性”。连续性应作为系统的基础属性存在，其正确性不依赖于某个特定的大语言模型。用模型A写入的信息，用模型B读取时，准确性不应下降。

第七条是“操作实用性”。一个真正的连续性系统，必须能在至少两个截然不同的应用领域（如医疗咨询与个人日程管理）中正常工作，而无需对其核心架构进行修改。它应是通用能力，而非场景定制工具。

三、测试框架的设计：像给建筑做全套验收检查

定义了“是什么”，接下来便是“如何测”。

研究团队设计了一套包含十个检查点的评估方法，分为三大组。前四个检查点（CP1-CP4）检验“写入路径”：系统在接收用户输入后，能否正确理解、分类、存储并索引信息。中间四个检查点（CP5-CP8）检验“读取路径”：面对用户提问，系统能否正确解析问题、定位信息、整合碎片并给出答案。最后两个检查点（CP9-CP10）则横跨读写两端，检验时间推理与情境适应能力。

具体而言，在写入路径中，CP1检验输入分类，CP2检验事实提取与存储，CP3检验预测性索引（即预判用户未来的查询方式），CP4检验类型标注。在读取路径中，CP5检验问题分类，CP6检验候选答案是否包含正确事实，CP7检验多源信息聚合，CP8则是最终裁决——系统答案是否包含了所有预设的“必须出现的关键词”。

CP8是整个评估体系的核心，是评分的唯一依据。其他九个检查点则充当诊断工具，当CP8失败时，用以定位具体故障环节。

判定方式 deliberately 设计得直接明了：每道测试题都预设一组关键词，只要系统回答中包含所有这些关键词（不区分大小写，允许子串匹配），即视为通过。这种方法虽有局限，但优势显著——整个评估过程是确定性的、可重复的，无需另一个AI进行主观评判。

四、测试题库的构建：250个真实人生片段组成的考卷

有了评估方法，还需真实的测试内容。团队构建了一个包含250个叙事、总计1835道验证题的语料库，这是框架中最耗费心血的部分之一。

这些故事并非机械的数据点，而是模拟真实人生的多轮对话，时间跨度模拟数小时至数周，覆盖个人生活的多个维度。团队选取了六个核心领域：职业发展、人际关系、健康、学习、日常生活以及人生大事。选择这些领域意图深刻：连续性能力的本质，在于“陪伴并推动一个人的生活进程”，它不应仅是处理工作的工具。

每个故事都精心设置了“陷阱”，以考验系统的极限能力。例如：单句内含多个事实；使用共享主语结构；存在复杂的代词指代链；包含信息更新；植入通用知识干扰项；混合情绪与否定表达；以及使用含义模糊的谓词。

这250个故事分五个阶段构建，每阶段50个，从基础覆盖到泛化测试、新型模式、边缘案例，最后是对抗性故事。难度逐级攀升，旨在检验系统面对日益复杂和意外表达时的稳健性。

五、四个合规等级：从入门到精通的连续性成绩单

为了给处于不同发展阶段的系统提供清晰的定位坐标，研究团队定义了四个由易到难的合规等级。

最基础的是“ATANT-Core”等级：要求对50个故事进行“隔离模式”测试（即数据库每次只存一个故事的数据）。通过则证明系统在六大生活领域具备基本连续性。

第二级是“ATANT-Stress”等级：要求对全部250个故事进行隔离模式测试。通过则表明系统的连续性能力可泛化至各种新颖的叙事模式。

第三级是“ATANT-Cumulative”等级：要求对50个故事进行“累积模式”测试（所有50个故事的数据同时存在于数据库中）。通过则证明系统在多个叙事共存时能正确消歧义。

最高级是“ATANT-Scale”等级：要求对250个故事进行累积模式测试。通过则证明其消歧义能力在大规模数据负载下依然有效。这是最严峻的考验，也最接近真实应用场景。

每个等级下设金、银、铜牌，对应100%、95%-99%、90%-94%的通过率。

六、从58%到100%：一次真实的架构蜕变记录

研究团队并未止步于提出框架，更记录了其自有系统（NURA Memory Pipeline）在此框架下的完整演进历程。

故事始于2026年1月。当时系统采用一种依赖大语言模型进行评估的“遗留架构”，在50个故事上的通过率仅为58%。经过调优，2月曾提升至72%，但随后出现了令人挫败的“过度调优回归”——分数跌回58%。这明确信号表明，问题根源在于架构缺陷，而非参数设置。

转折点在2026年3月8日。团队采用全新架构，彻底摒弃评估环节的LLM依赖，转向基于语法的分类、确定性路径收敛和结构化匹配。结果令人振奋：50个故事，304道题，通过率100%。

进展随后加速：3月9日，100个故事（671题）保持100%；3月10日，150个故事（1057题）仍为100%；3月12日，完整250个故事（1835题）在隔离模式下满分通过；至3月14日，成功通过50个故事的累积模式测试（304题，100%）。

短短六天，系统在日益严苛的条件下实现了满分突破。这强有力地说明：一旦架构正确，连续性问题可以被系统化解决，而非陷入无休止的调参黑洞。

在最终的250故事累积模式测试中，系统取得了96%的通过率（1835题中通过1761题）。那4%的缺口，主要源于当250个故事共存时，不同故事中名称相近的谓词相互竞争，系统需依靠上下文、实体信息与路径收敛来区分——这代表了当前研究的前沿挑战。

团队也坦诚报告了另一类失败：在类型标注检查点（CP4）上，通过率仅为51.4%。当故事中间出现极其小众的专业术语时，系统难以准确分类。不过，团队特别指出，这类诊断性失败并不影响最终答案的准确性（CP8通过率独立于此）。

七、这项研究告诉我们什么，又坦承了什么不足

论文中，研究团队直接讨论了ATANT框架当前的几点局限。

首先，关键词匹配的验证方式存在内在弱点。系统只需在答案中嵌入关键词即可通过，即便整体回答逻辑混乱。这意味着CP8只验证了“是否说了该说的话”，而非“说的话是否构成连贯有用的答案”。未来版本需要引入对重建质量的专门评估指标。

其次，语料库的多样性有限。所有250个故事均由同一位作者编写，语言风格、文化背景的多样性未能充分体现。不同用户群体的表达差异尚未覆盖。

再次，语言单一性。目前语料库仅为英文，多语言场景下的连续性能力仍是未知数。

最后，也是团队特别呼吁的一点：截至目前，仅有团队自有系统接受了ATANT测试。一个评估框架的价值，很大程度上取决于其被不同架构的独立团队广泛使用并产生可比结果。团队在论文中明确邀请所有从事AI连续性研究的团队运行ATANT并公布结果。

这项研究的核心主张——连续性是一个架构问题，而非调参问题——在遗留系统58%的天花板与新架构快速满分的对比中得到了充分印证。缺乏连续性设计的系统，其性能会在调优中此消彼长；而从架构层面解决了持久化、更新、时序、消歧义与重建的系统，则能迅速达到并保持高准确率。

归根结底，这关乎我们与AI之间关系的本质。如果每次对话AI都如同初识，那它终究只是一个聪明的工具。但如果AI能真正理解你的经历、在乎的事物以及事情的演变，它才有可能成为一个真正的长期伙伴。ATANT框架所做的，正是为这个目标绘制第一张清晰的地图，指明了路径、里程碑与尚未填补的沟壑。

对普通用户而言，这意味着未来的AI助手有望真正“认识”你——不是通过一份静态档案，而是通过对你生活持续、动态的理解。对开发者而言，这意味着评估AI的标准终于可以超越“答对多少知识题”，转向“它是否真正陪伴用户穿越了时间”。

Q&A

Q1：ATANT框架和传统的AI记忆系统（比如RAG检索增强生成）有什么本质区别？

A：RAG等系统核心是“相似度检索”——根据问题寻找最相似的存储内容。而ATANT测试的“连续性”要求的是“状态重建”——系统不仅能找到相关旧记录，还需能正确区分信息的时效性、归属，并将多个碎片拼合成完整的当前状态。简言之，检索回答“过去记录了什么”，连续性回答“现在的实际情况是什么”，目标根本不同。

Q2：ATANT里的“累积模式”测试为什么比“隔离模式”难那么多？

A：隔离模式下，数据库仅存有一个故事的数据，干扰极少。累积模式下，250个用户的生活故事共存于同一数据库。当系统被问及“她妈妈身体怎么样了”时，必须准确判定“她”指代哪位用户，避免混淆。故事数量增至250个时，相似主题信息大量堆积，消歧义难度呈指数级上升，这正是当前96%通过率中那4%缺口的主要来源。

Q3：ATANT评估框架对普通用户使用AI助手有什么实际意义？

A：对用户而言，ATANT提供了一套具体标准，用以判断AI产品是否具备真正的长期陪伴能力，而非仅凭“对话是否流畅”。一个获得ATANT-Scale金牌认证的AI助手，意味着它在250个用户场景共存的极端条件下，仍能准确记忆你的事、区分你与他人，并在你生活变化后更新认知。这比笼统的“具备记忆功能”宣传要具体和可靠得多。

来源:https://www.techwalker.com/2026/0422/3184748.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：中科大美团联手破解AI偏科难题让大模型兼顾准确性与思维多样性下一篇：Meta AI新研究揭示旧数据复用如何提升40%训练效率