Moorcheh AI记忆助手：让AI真正记住你的简单方法

首页

热心网友

转载

2026-05-16

这篇研究来自Moorcheh AI与EdgeAI Innovations联合团队，于2026年4月以预印本形式发布在arXiv平台，编号为arXiv:2604.22085v1。

当AI有了

和AI聊得热火朝天，下次打开对话框，它却一脸茫然，仿佛初次见面——这种体验是不是很熟悉？你明明告诉过它你喜欢美式不加糖，项目截止日是下周五，讨厌冗长的回复，可它转头就忘得一干二净。这感觉，就像雇了个每天上班前都会格式化自己大脑的员工，你得不停地重复自我介绍。

这个被称为“跨会话持久性缺失”的问题，说白了就是AI没有真正的记忆。随着AI助手日益深入工作与生活，这个“小毛病”正演变成一个严重的工程瓶颈。行业预测显示，AI智能体市场将从2025年的78亿美元激增至2030年的520亿美元以上，到2026年底，超过40%的企业应用将嵌入AI智能体。这意味着，为AI打造一个可靠的“记忆系统”，已是迫在眉睫。

对此，Moorcheh AI与EdgeAI Innovations的研究团队提出了一个名为**Memanto**的解决方案。他们的思路颇为巧妙：当主流方案纷纷把记忆系统设计得越来越复杂时，Memanto反其道而行，采用了一套更简洁的架构，却在两个主流的AI记忆能力测试榜单上，分别取得了89.8%和87.1%的准确率，创下了当前的最佳成绩。

一、AI的记忆困境：为什么“更复杂”不等于“更聪明”

要理解Memanto的价值，得先看看现有AI记忆系统的“通病”在哪里。

不妨把AI助手的记忆问题比作管理一座图书馆。存入记忆就像收藏一本书，需要回忆时，则像让管理员去找书。

目前主流的AI记忆框架，如Mem0、Zep、Letta、A-MEM等，普遍在图书馆内部构建了一张复杂的“关系网”，即知识图谱。这套逻辑是预先标注好书籍间的关联，理论上能顺着网络快速找到相关内容。

然而，这种做法在实际运行中产生了所谓的“记忆税”。每存入一本书（一条记忆），系统都需要调用大型语言模型来提取实体、更新图谱和向量索引，这个过程可能耗时2到3秒。对于日处理上千条消息的AI客服，累积的延迟不容小觑。更麻烦的是，系统需要同时维护向量和图数据库两套基础设施，复杂度陡增。

研究团队仔细分析了Mem0公开的实验数据，发现了一个耐人寻味的细节：在其消融实验中，带知识图谱的版本相比纯向量版本，准确率仅提升了约2个百分点。这意味着，巨大的架构复杂度换来的性能增益却微乎其微。这促使团队思考：知识图谱或许并非提升记忆质量的关键。

二、Memanto的设计哲学：六条“好记忆”应该具备的特质

在设计Memanto之前，团队做了一件有趣的事：他们直接询问了AI本身。通过与Anthropic的Claude模型深入对话，让其描述自身记忆机制的局限。Claude给出了详尽的“自我诊断”，其指出的七个核心缺陷，最终直接映射为Memanto的六条设计原则。

第一条原则是“主动查询，而非被动注入”。 当前多数系统的做法是在对话开始时，将用户所有历史信息一股脑塞进AI的上下文窗口。这好比每天上班前，有人把一整摞档案堆在你桌上。但如果今天你只需处理一封邮件，这些档案不仅无用，还占据了宝贵的工作空间。更好的方式是配备一个“图书管理员”，让AI能随时主动查询与当前任务相关的记忆。

第二条原则是“时间感知与衰减”。 记忆并非同等重要。昨天提到的“明天下午三点开会”与半年前提到的“我喜欢蓝色设计”，权重截然不同。优秀的记忆系统应能感知时间，对临近事件赋予更高权重，让陈旧信息自然衰减。

第三条原则是“置信度与溯源追踪”。 AI所知信息的来源各异：有用户明确陈述的事实，有AI自行推断的结论，也有已过时的旧闻。可靠系统需记录信息的“可信度”和“来源”，避免AI对一条陈年推断言之凿凿。

第四条原则是“分类分层存储”。 这一点借鉴了认知科学。心理学家塔尔文曾区分情节记忆（具体事件）、语义记忆（事实知识）和程序记忆（技能方法）。这三类记忆服务于不同目的，混杂存储会相互干扰。

第五条原则是“矛盾感知”。 如果AI一月份记住“项目截止日是3月15日”，三月份又被告知“截止日推迟至4月1日”，两条记忆便产生矛盾。若系统不能主动发现并处理，AI将同时持有两个冲突“事实”，随着时间推移，这种“约束漂移”会导致其内部世界模型越来越混乱。

第六条原则是“零延迟写入”。 对于实时运作的AI工作流，记忆写入必须是即时的。每一毫秒的延迟，都意味着AI无法访问自己最新的认知。

三、技术核心：Moorcheh的信息论搜索引擎是如何工作的

Memanto的性能支柱，是其底层自主研发的“信息论搜索引擎”。

传统的向量搜索可以这样理解：你去一个大图书馆找书，管理员根据你问题的“方向”，在地图上找到方向最接近的书架。这种方式的核心是计算向量间的“几何距离”。

ITS引擎则做了根本性改变。其核心思路是：不再问“这条记忆在几何空间里离问题有多近”，而是问“这条记忆能减少你对当前问题多少不确定性”。用信息论的话说，就是用“信息增益”替代“几何距离”作为相关性判据。

为了让搜索既准又快，ITS还采用了“最大信息二值化”技术。简单说，它将高维浮点数向量压缩成紧凑的二进制表示，压缩比高达32倍，同时信息损失可忽略不计。好比将一份详尽地图简化为关键路标齐全的速查版。

这套设计带来两大优势。一是速度：在MAIR基准测试中，ITS引擎的距离计算延迟仅9.6毫秒，而同类产品PGVector和Qdrant需要37到86毫秒；其端到端速度比Pinecone加Cohere的组合方案快6.6倍，可持续支撑每秒超2000次查询，且准确率无损。二是确定性：相同问题每次返回完全相同的结果，不会因索引状态波动而产生差异。对于需要稳定输出的AI智能体，这一特性至关重要——微小的检索差异可能引发完全不同的推理路径。

最关键的是，ITS引擎在写入数据时完全无需构建索引。这意味着新记忆存入后，不到10毫秒即可被检索到，且无需调用任何大语言模型进行处理。

四、十三种记忆类型：给每条记忆贴上“正确的标签”

Memanto实现了一套包含13个类别的语义记忆分类体系，每个类别都有明确的含义、优先级和衰减逻辑。

这13个类别是：事实（客观信息，如“用户在太平洋时区”）、偏好（倾向，如“喜欢深色主题”）、决策（影响未来的选择，如“选用PostgreSQL”）、承诺（许诺或义务，如“周五前交报告”）、目标（希望达成的状态，如“Q4达到一万用户”）、事件（已发生的历史，如“下午两点与CEO会议”）、指令（规则准则，如“始终验证输入”）、关系（实体连接，如“Alice管理Bob”）、上下文（情境信息，如“当前正在进行预算评审”）、学习（经验教训，如“用户需要更简单的新手引导”）、观察（发现的规律，如“周五流量达峰值”）、错误（需避免的失误，如“勿用已弃用API”）、制品（文档或代码引用，如“Q3预算表格”）。

该分类体系有双重作用。一方面，当AI需查询特定信息时，可仅在对应类别中搜索，避免无关记忆干扰。另一方面，不同类别的记忆天然适用不同的“保质期”逻辑：承诺类记忆对时间极度敏感，事实类记忆高度稳定，上下文类记忆则快速衰减。这些差异被自动纳入检索权重的计算。

五、矛盾处理：当新记忆与旧记忆打架时

Memanto的另一特色是内置的矛盾检测与解决机制，这在当前主流竞品中是缺失的。

当系统存入一条新记忆时，它会自动在同类别的命名空间内，通过语义相似度匹配现有记忆，判断是否存在内容矛盾。一旦发现矛盾，系统不会静默覆盖或保留冲突，而是主动通知AI智能体，并提供三种解决选项：用新记忆替换旧记忆、保留旧记忆忽略新信息、或将两条记忆均标注“存在冲突”以待人工审核。

这个机制在长期运行的AI部署中影响深远。根据MemoryAgentBench的测试数据，当前所有被评估的AI记忆系统均在“多跳矛盾”场景（需跨越多条记忆才能发现的矛盾）中失败。这正是“约束漂移”问题——没有矛盾检测的系统，会随时间默默积累内部矛盾，最终导致AI行为难以预测。

六、五阶段拆解实验：究竟是哪一步带来了性能提升

为厘清Memanto各项设计的贡献，研究团队设计了一个五阶段的递进式消融实验，在两个主流基准上逐步叠加改进，精确量化每一步的效果。两个基准分别是LongMemEval（500道题，涵盖跨会话推理、时间推理等六类能力）和LoCoMo（多轮对话记忆测试）。

第一阶段（基线）： 检索上限10条，相似度阈值0.15，推理模型为Claude Sonnet 4。此时LongMemEval准确率56.6%，LoCoMo为76.2%。两者近20个百分点的差距，主要源于LongMemEval问题措辞更长、主题更泛，导致关键信息语义相似度被稀释，在0.15阈值下被过滤。

第二阶段（扩大检索范围）： 将检索上限提至40条，阈值降至0.10。仅此调整，LongMemEval准确率跃升至77.0%，提升20.4个百分点，是实验中单步最大提升；LoCoMo也提升6.6个百分点至82.8%。

这一结果揭示了关键的设计启示：传统信息检索追求“精准”，但AI智能体的记忆系统，“召回率”比“精准率”更重要。与其让系统替AI预先筛选，不如多提供些“原材料”，让AI凭借自身强大的推理能力去辨别有用信息。AI本身就是比任何预设规则都更强大的过滤器。

第三阶段（优化提示词）： 将生成与评判用的提示词替换为Hindsight代码库的优化版本。LongMemEval提升2.2个百分点，LoCoMo提升0.1个百分点。提升有限，说明了一个常被夸大的事实：当检索层存在缺陷时，再好的提示词工程也难有作为。

第四阶段（最大化召回）： 将检索上限进一步提高至100条，阈值降至0.05，并改用动态阈值门控。LongMemEval再提升5.8个百分点至85.0%，LoCoMo再提升3.4个百分点至86.3%。分析发现，错误并非因信息过多导致AI困惑，而是检索系统始终未能找出那句“被稀释的关键信息”。扩大检索范围，正是给这类信息更多被找到的机会。

第五阶段（升级推理模型）： 将推理模型换为Gemini 3，以与其他系统公平对比。最终LongMemEval达到89.8%，LoCoMo达到87.1%，模型升级本身贡献了4.8个百分点的提升。这一步的意义在于隔离变量，清晰展示多少提升来自架构设计，多少来自底层模型能力。

七、横向对比：Memanto在竞争格局中的位置

与所有公开发布成绩的同类系统横向比较后，竞争格局相当清晰。

在纯向量系统阵营中，Memanto以89.8%和87.1%的成绩大幅领先于Mem0（66.9%/66.9%）和LangMem（58.1%/58.1%）。在混合图谱加向量阵营中，EmergenceMem（86.0%）、Supermemory（85.2%）和ENGRAM（78.0%）均未超过Memanto。

唯一在总成绩上超过Memanto的是Hindsight系统（LongMemEval 91.4%， LoCoMo 89.6%）。但Hindsight实现此成绩的代价极高：它同时使用了图数据库、在写入时调用大模型、采用多路并行检索、并通过递归反思进行后处理。研究团队为每个系统打了“架构复杂度分”（满分4分，每使用一项上述功能得1分），Hindsight得满分4分，而Memanto为0分。换言之，Memanto以最简单的架构，实现了仅次于最复杂系统的性能，差距仅1.6到2.5个百分点。

从运营成本看，这笔账更直观：对于一个日执行一万次记忆操作的AI智能体，Memanto日均费用估算约0.5美元，Mem0图谱版约2.32美元，Zep约1.70美元。仅与Mem0图谱版相比，每个智能体每年可节省约662美元。对于部署大量AI智能体的企业，这个数字将以倍数放大。

八、细化成绩：每类问题的表现如何

在最终配置下，Memanto在LongMemEval六个细分类别的表现为：单会话助手类100.0%，单会话用户信息类95.7%，单会话偏好类93.3%，知识更新类93.6%，时间推理类88.0%，多会话推理类81.2%。总体均分89.8%。

在LoCoMo四个细分类别的表现为：单跳推理78.7%，多跳推理70.8%，开放域问答92.4%，时间推理85.4%。总体均分87.1%。

多会话推理（81.2%）和多跳推理（70.8%）是相对薄弱的环节，这符合预期：这两类问题要求系统从散落于不同时间、会话的多个记忆碎片中综合提炼答案，难度本质高于单会话内的检索。这也是团队未来重点改进的方向之一。

九、客观看待局限性：这项研究还有哪些没解决的问题

研究团队在论文中亦坦诚列出了Memanto当前尚未解决的几个问题。

测试场景的局限性是其一。 LongMemEval和LoCoMo均聚焦于对话场景。但现实中，研究型智能体、代码生成智能体、多智能体协作等工作流各有其独特的记忆需求，目前尚缺乏足够的基准进行评测。

标注质量是另一个问题。 人工抽查发现，LongMemEval约有5%的问题存在标注不一致，LoCoMo这一比例约为6-7%。这意味着即便记忆系统回答正确，也可能因参考答案本身有歧义而被判错，构成了一个与架构质量无关的性能天花板。随着各系统成绩逼近此天花板，现有基准区分架构优劣的能力将减弱，开发更有针对性的评估协议势在必行。

记忆类型的手动分配仍是临时方案。 目前，将新记忆归类为“承诺”、“事实”还是“上下文”，需由用户在写入时手动指定。自动分类功能正在通过规则决策树开发中，届时将消除这一手动步骤。

多智能体协作场景下的记忆共享亦是未来工作。 当前Memanto的命名空间架构下，每个智能体拥有独立隔离的记忆空间。不同智能体间的记忆共享（及相应的访问控制与一致性协议）仍在开发中。

结语

说到底，Memanto这项研究讲述了一个在技术领域反复上演的故事：有时候，更简单的方案才是更好的答案。

当整个行业竞相在AI记忆系统中堆砌知识图谱、多路检索、递归反思时，Moorcheh团队选择了一条不同的路——将底层向量搜索做得足够精准，把记忆类型分得足够清晰，让矛盾检测足够及时，然后把真正的推理工作交还给语言模型本身。最终，他们在两个主流基准上，以最简单的架构取得了仅次于最复杂系统的成绩，同时将运营成本压缩到了竞品的四分之一。

这对普通用户而言，意味着未来AI助手真正“记住”你的可能性越来越大，且这种记忆不会因时间推移而变得混乱不堪，因为系统会主动梳理矛盾、管理时效。对企业而言，部署具备可靠记忆的AI智能体，也不再需要接受“记忆越好、账单越贵、架构越复杂”的捆绑套餐。

一个值得深思的视角是：如果AI自身都能准确描述其记忆系统的缺陷（正如本研究中Claude所做的那样），那么未来AI系统的改进，是否会越来越多地由AI参与设计？这个方向，或许比任何单一的技术突破都更具想象空间。