Moorcheh AI记忆助手:让AI真正记住你的简单方法
这篇研究来自Moorcheh AI与EdgeAI Innovations联合团队,于2026年4月以预印本形式发布在arXiv平台,编号为arXiv:2604.22085v1。

和AI聊得热火朝天,下次打开对话框,它却一脸茫然,仿佛初次见面——这种体验是不是很熟悉?你明明告诉过它你喜欢美式不加糖,项目截止日是下周五,讨厌冗长的回复,可它转头就忘得一干二净。这感觉,就像雇了个每天上班前都会格式化自己大脑的员工,你得不停地重复自我介绍。
这个被称为“跨会话持久性缺失”的问题,说白了就是AI没有真正的记忆。随着AI助手日益深入工作与生活,这个“小毛病”正演变成一个严重的工程瓶颈。行业预测显示,AI智能体市场将从2025年的78亿美元激增至2030年的520亿美元以上,到2026年底,超过40%的企业应用将嵌入AI智能体。这意味着,为AI打造一个可靠的“记忆系统”,已是迫在眉睫。
对此,Moorcheh AI与EdgeAI Innovations的研究团队提出了一个名为**Memanto**的解决方案。他们的思路颇为巧妙:当主流方案纷纷把记忆系统设计得越来越复杂时,Memanto反其道而行,采用了一套更简洁的架构,却在两个主流的AI记忆能力测试榜单上,分别取得了89.8%和87.1%的准确率,创下了当前的最佳成绩。
一、AI的记忆困境:为什么“更复杂”不等于“更聪明”
要理解Memanto的价值,得先看看现有AI记忆系统的“通病”在哪里。
不妨把AI助手的记忆问题比作管理一座图书馆。存入记忆就像收藏一本书,需要回忆时,则像让管理员去找书。
目前主流的AI记忆框架,如Mem0、Zep、Letta、A-MEM等,普遍在图书馆内部构建了一张复杂的“关系网”,即知识图谱。这套逻辑是预先标注好书籍间的关联,理论上能顺着网络快速找到相关内容。
然而,这种做法在实际运行中产生了所谓的“记忆税”。每存入一本书(一条记忆),系统都需要调用大型语言模型来提取实体、更新图谱和向量索引,这个过程可能耗时2到3秒。对于日处理上千条消息的AI客服,累积的延迟不容小觑。更麻烦的是,系统需要同时维护向量和图数据库两套基础设施,复杂度陡增。
研究团队仔细分析了Mem0公开的实验数据,发现了一个耐人寻味的细节:在其消融实验中,带知识图谱的版本相比纯向量版本,准确率仅提升了约2个百分点。这意味着,巨大的架构复杂度换来的性能增益却微乎其微。这促使团队思考:知识图谱或许并非提升记忆质量的关键。
二、Memanto的设计哲学:六条“好记忆”应该具备的特质
在设计Memanto之前,团队做了一件有趣的事:他们直接询问了AI本身。通过与Anthropic的Claude模型深入对话,让其描述自身记忆机制的局限。Claude给出了详尽的“自我诊断”,其指出的七个核心缺陷,最终直接映射为Memanto的六条设计原则。
第一条原则是“主动查询,而非被动注入”。 当前多数系统的做法是在对话开始时,将用户所有历史信息一股脑塞进AI的上下文窗口。这好比每天上班前,有人把一整摞档案堆在你桌上。但如果今天你只需处理一封邮件,这些档案不仅无用,还占据了宝贵的工作空间。更好的方式是配备一个“图书管理员”,让AI能随时主动查询与当前任务相关的记忆。
第二条原则是“时间感知与衰减”。 记忆并非同等重要。昨天提到的“明天下午三点开会”与半年前提到的“我喜欢蓝色设计”,权重截然不同。优秀的记忆系统应能感知时间,对临近事件赋予更高权重,让陈旧信息自然衰减。
第三条原则是“置信度与溯源追踪”。 AI所知信息的来源各异:有用户明确陈述的事实,有AI自行推断的结论,也有已过时的旧闻。可靠系统需记录信息的“可信度”和“来源”,避免AI对一条陈年推断言之凿凿。
第四条原则是“分类分层存储”。 这一点借鉴了认知科学。心理学家塔尔文曾区分情节记忆(具体事件)、语义记忆(事实知识)和程序记忆(技能方法)。这三类记忆服务于不同目的,混杂存储会相互干扰。
第五条原则是“矛盾感知”。 如果AI一月份记住“项目截止日是3月15日”,三月份又被告知“截止日推迟至4月1日”,两条记忆便产生矛盾。若系统不能主动发现并处理,AI将同时持有两个冲突“事实”,随着时间推移,这种“约束漂移”会导致其内部世界模型越来越混乱。
第六条原则是“零延迟写入”。 对于实时运作的AI工作流,记忆写入必须是即时的。每一毫秒的延迟,都意味着AI无法访问自己最新的认知。
三、技术核心:Moorcheh的信息论搜索引擎是如何工作的
Memanto的性能支柱,是其底层自主研发的“信息论搜索引擎”。
传统的向量搜索可以这样理解:你去一个大图书馆找书,管理员根据你问题的“方向”,在地图上找到方向最接近的书架。这种方式的核心是计算向量间的“几何距离”。
ITS引擎则做了根本性改变。其核心思路是:不再问“这条记忆在几何空间里离问题有多近”,而是问“这条记忆能减少你对当前问题多少不确定性”。用信息论的话说,就是用“信息增益”替代“几何距离”作为相关性判据。
为了让搜索既准又快,ITS还采用了“最大信息二值化”技术。简单说,它将高维浮点数向量压缩成紧凑的二进制表示,压缩比高达32倍,同时信息损失可忽略不计。好比将一份详尽地图简化为关键路标齐全的速查版。
这套设计带来两大优势。一是速度:在MAIR基准测试中,ITS引擎的距离计算延迟仅9.6毫秒,而同类产品PGVector和Qdrant需要37到86毫秒;其端到端速度比Pinecone加Cohere的组合方案快6.6倍,可持续支撑每秒超2000次查询,且准确率无损。二是确定性:相同问题每次返回完全相同的结果,不会因索引状态波动而产生差异。对于需要稳定输出的AI智能体,这一特性至关重要——微小的检索差异可能引发完全不同的推理路径。
最关键的是,ITS引擎在写入数据时完全无需构建索引。这意味着新记忆存入后,不到10毫秒即可被检索到,且无需调用任何大语言模型进行处理。
四、十三种记忆类型:给每条记忆贴上“正确的标签”
Memanto实现了一套包含13个类别的语义记忆分类体系,每个类别都有明确的含义、优先级和衰减逻辑。
这13个类别是:事实(客观信息,如“用户在太平洋时区”)、偏好(倾向,如“喜欢深色主题”)、决策(影响未来的选择,如“选用PostgreSQL”)、承诺(许诺或义务,如“周五前交报告”)、目标(希望达成的状态,如“Q4达到一万用户”)、事件(已发生的历史,如“下午两点与CEO会议”)、指令(规则准则,如“始终验证输入”)、关系(实体连接,如“Alice管理Bob”)、上下文(情境信息,如“当前正在进行预算评审”)、学习(经验教训,如“用户需要更简单的新手引导”)、观察(发现的规律,如“周五流量达峰值”)、错误(需避免的失误,如“勿用已弃用API”)、制品(文档或代码引用,如“Q3预算表格”)。
该分类体系有双重作用。一方面,当AI需查询特定信息时,可仅在对应类别中搜索,避免无关记忆干扰。另一方面,不同类别的记忆天然适用不同的“保质期”逻辑:承诺类记忆对时间极度敏感,事实类记忆高度稳定,上下文类记忆则快速衰减。这些差异被自动纳入检索权重的计算。
五、矛盾处理:当新记忆与旧记忆打架时
Memanto的另一特色是内置的矛盾检测与解决机制,这在当前主流竞品中是缺失的。
当系统存入一条新记忆时,它会自动在同类别的命名空间内,通过语义相似度匹配现有记忆,判断是否存在内容矛盾。一旦发现矛盾,系统不会静默覆盖或保留冲突,而是主动通知AI智能体,并提供三种解决选项:用新记忆替换旧记忆、保留旧记忆忽略新信息、或将两条记忆均标注“存在冲突”以待人工审核。
这个机制在长期运行的AI部署中影响深远。根据MemoryAgentBench的测试数据,当前所有被评估的AI记忆系统均在“多跳矛盾”场景(需跨越多条记忆才能发现的矛盾)中失败。这正是“约束漂移”问题——没有矛盾检测的系统,会随时间默默积累内部矛盾,最终导致AI行为难以预测。
六、五阶段拆解实验:究竟是哪一步带来了性能提升
为厘清Memanto各项设计的贡献,研究团队设计了一个五阶段的递进式消融实验,在两个主流基准上逐步叠加改进,精确量化每一步的效果。两个基准分别是LongMemEval(500道题,涵盖跨会话推理、时间推理等六类能力)和LoCoMo(多轮对话记忆测试)。
第一阶段(基线): 检索上限10条,相似度阈值0.15,推理模型为Claude Sonnet 4。此时LongMemEval准确率56.6%,LoCoMo为76.2%。两者近20个百分点的差距,主要源于LongMemEval问题措辞更长、主题更泛,导致关键信息语义相似度被稀释,在0.15阈值下被过滤。
第二阶段(扩大检索范围): 将检索上限提至40条,阈值降至0.10。仅此调整,LongMemEval准确率跃升至77.0%,提升20.4个百分点,是实验中单步最大提升;LoCoMo也提升6.6个百分点至82.8%。
这一结果揭示了关键的设计启示:传统信息检索追求“精准”,但AI智能体的记忆系统,“召回率”比“精准率”更重要。与其让系统替AI预先筛选,不如多提供些“原材料”,让AI凭借自身强大的推理能力去辨别有用信息。AI本身就是比任何预设规则都更强大的过滤器。
第三阶段(优化提示词): 将生成与评判用的提示词替换为Hindsight代码库的优化版本。LongMemEval提升2.2个百分点,LoCoMo提升0.1个百分点。提升有限,说明了一个常被夸大的事实:当检索层存在缺陷时,再好的提示词工程也难有作为。
第四阶段(最大化召回): 将检索上限进一步提高至100条,阈值降至0.05,并改用动态阈值门控。LongMemEval再提升5.8个百分点至85.0%,LoCoMo再提升3.4个百分点至86.3%。分析发现,错误并非因信息过多导致AI困惑,而是检索系统始终未能找出那句“被稀释的关键信息”。扩大检索范围,正是给这类信息更多被找到的机会。
第五阶段(升级推理模型): 将推理模型换为Gemini 3,以与其他系统公平对比。最终LongMemEval达到89.8%,LoCoMo达到87.1%,模型升级本身贡献了4.8个百分点的提升。这一步的意义在于隔离变量,清晰展示多少提升来自架构设计,多少来自底层模型能力。
七、横向对比:Memanto在竞争格局中的位置
与所有公开发布成绩的同类系统横向比较后,竞争格局相当清晰。
在纯向量系统阵营中,Memanto以89.8%和87.1%的成绩大幅领先于Mem0(66.9%/66.9%)和LangMem(58.1%/58.1%)。在混合图谱加向量阵营中,EmergenceMem(86.0%)、Supermemory(85.2%)和ENGRAM(78.0%)均未超过Memanto。
唯一在总成绩上超过Memanto的是Hindsight系统(LongMemEval 91.4%, LoCoMo 89.6%)。但Hindsight实现此成绩的代价极高:它同时使用了图数据库、在写入时调用大模型、采用多路并行检索、并通过递归反思进行后处理。研究团队为每个系统打了“架构复杂度分”(满分4分,每使用一项上述功能得1分),Hindsight得满分4分,而Memanto为0分。换言之,Memanto以最简单的架构,实现了仅次于最复杂系统的性能,差距仅1.6到2.5个百分点。
从运营成本看,这笔账更直观:对于一个日执行一万次记忆操作的AI智能体,Memanto日均费用估算约0.5美元,Mem0图谱版约2.32美元,Zep约1.70美元。仅与Mem0图谱版相比,每个智能体每年可节省约662美元。对于部署大量AI智能体的企业,这个数字将以倍数放大。
八、细化成绩:每类问题的表现如何
在最终配置下,Memanto在LongMemEval六个细分类别的表现为:单会话助手类100.0%,单会话用户信息类95.7%,单会话偏好类93.3%,知识更新类93.6%,时间推理类88.0%,多会话推理类81.2%。总体均分89.8%。
在LoCoMo四个细分类别的表现为:单跳推理78.7%,多跳推理70.8%,开放域问答92.4%,时间推理85.4%。总体均分87.1%。
多会话推理(81.2%)和多跳推理(70.8%)是相对薄弱的环节,这符合预期:这两类问题要求系统从散落于不同时间、会话的多个记忆碎片中综合提炼答案,难度本质高于单会话内的检索。这也是团队未来重点改进的方向之一。
九、客观看待局限性:这项研究还有哪些没解决的问题
研究团队在论文中亦坦诚列出了Memanto当前尚未解决的几个问题。
测试场景的局限性是其一。 LongMemEval和LoCoMo均聚焦于对话场景。但现实中,研究型智能体、代码生成智能体、多智能体协作等工作流各有其独特的记忆需求,目前尚缺乏足够的基准进行评测。
标注质量是另一个问题。 人工抽查发现,LongMemEval约有5%的问题存在标注不一致,LoCoMo这一比例约为6-7%。这意味着即便记忆系统回答正确,也可能因参考答案本身有歧义而被判错,构成了一个与架构质量无关的性能天花板。随着各系统成绩逼近此天花板,现有基准区分架构优劣的能力将减弱,开发更有针对性的评估协议势在必行。
记忆类型的手动分配仍是临时方案。 目前,将新记忆归类为“承诺”、“事实”还是“上下文”,需由用户在写入时手动指定。自动分类功能正在通过规则决策树开发中,届时将消除这一手动步骤。
多智能体协作场景下的记忆共享亦是未来工作。 当前Memanto的命名空间架构下,每个智能体拥有独立隔离的记忆空间。不同智能体间的记忆共享(及相应的访问控制与一致性协议)仍在开发中。
结语
说到底,Memanto这项研究讲述了一个在技术领域反复上演的故事:有时候,更简单的方案才是更好的答案。
当整个行业竞相在AI记忆系统中堆砌知识图谱、多路检索、递归反思时,Moorcheh团队选择了一条不同的路——将底层向量搜索做得足够精准,把记忆类型分得足够清晰,让矛盾检测足够及时,然后把真正的推理工作交还给语言模型本身。最终,他们在两个主流基准上,以最简单的架构取得了仅次于最复杂系统的成绩,同时将运营成本压缩到了竞品的四分之一。
这对普通用户而言,意味着未来AI助手真正“记住”你的可能性越来越大,且这种记忆不会因时间推移而变得混乱不堪,因为系统会主动梳理矛盾、管理时效。对企业而言,部署具备可靠记忆的AI智能体,也不再需要接受“记忆越好、账单越贵、架构越复杂”的捆绑套餐。
一个值得深思的视角是:如果AI自身都能准确描述其记忆系统的缺陷(正如本研究中Claude所做的那样),那么未来AI系统的改进,是否会越来越多地由AI参与设计?这个方向,或许比任何单一的技术突破都更具想象空间。
Q&A
Q1:Memanto和普通AI聊天记忆有什么不同?
A:普通AI聊天记忆是在每次对话开始时,将历史内容“塞”进上下文,好比把所有文件堆在桌上。Memanto则是在AI需要时主动查询相关记忆,更像一位随时可咨询的图书管理员。同时,Memanto能检测矛盾信息、区分13种记忆类型,并支持跨对话的持久存储,写入后不到10毫秒即可检索,无需等待索引构建。
Q2:LongMemEval和LoCoMo是用来测什么的?
A:LongMemEval是一个包含500道题的AI记忆能力基准测试,覆盖跨会话推理、时间推理、知识更新等六类场景,对话内容最长可达百万字符。LoCoMo则专注于多轮对话场景下的记忆连续性,测试单跳、多跳、时间推理等能力。两者是目前业内评测AI长期记忆能力最主流的两套标准。
Q3:Memanto的“矛盾检测”具体怎么用?
A:当AI被告知“项目截止日是4月15日”,后来又收到“截止日改至5月1日”时,Memanto会检测到这两条记忆冲突,并主动通知智能体。用户可选择用新记忆替换旧记忆、忽略新信息保留旧记忆、或将两条记忆均标注“存在冲突”以待人工处理,从而避免矛盾信息静默共存,逐步侵蚀AI的判断一致性。
相关攻略
想象一下,将手机中那些繁琐的操作——例如打开某个应用、寻找特定设置、完成一连串步骤——全部交给一个真正理解你意图的AI来处理。这个愿景并不新鲜,但过去,真正可用的系统几乎被少数科技巨头所垄断。近期,一项由南京大学、商汤科技、南洋理工大学、上海人工智能实验室、香港大学及西安交通大学联合开展的研究,为这
这项由深圳安泊泰科技与复旦大学联合组建的优势AI智能体实验室(A3 Lab)推出的研究成果,于2026年4月以预印本形式发布,论文编号为arXiv:2604 17091v1。 在与AI助手进行长对话时,你是否经常遇到这样的困扰:对话时间越长,AI似乎越容易“犯迷糊”?它可能忘记了你最初设定的关键条件
这项由韩国汉阳大学自然语言处理团队主导的创新研究,以预印本形式于2026年4月发表在权威学术平台arXiv上,论文编号为arXiv:2604 17886v1。该研究深入探讨了AI个性化记忆的核心挑战,为构建真正“懂你”的智能助手提供了新思路。读者可通过该编号检索并下载完整论文进行深入研读。 你是否遇
你是否曾对手机AI助手感到失望?当你随口说“帮我订份午餐”,它却反复追问细节;或者明明你不吃辣,它却推荐川菜馆;又或者,你每天固定时间手动设置勿扰模式,它却总在不合时宜时弹出通知。 这些日常困扰,共同揭示了一个核心痛点:我们手机中的AI助手,本质上仍是等待精确指令的“执行工具”,而非真正理解我们习惯
当人工智能从对话交流进化到直接操控计算机、执行命令、处理文件时,一个全新的智能时代已然开启。这类被称为“计算机使用智能体”的AI,被赋予了在数字世界中的“手脚”,能够将语言指令转化为实际行动。然而,能力越强,责任与风险也同步放大。一个核心的安全隐忧随之浮现:这些聪明的AI助手,是否会在看似合规的操作
热门专题
热门推荐
英伟达Omniverse定位为物理AI操作系统。松应科技推出ORCALab1 0,旨在构建基于国产GPU的物理AI训练体系。针对机器人行业数据成本高、仿真迁移难的问题,平台提出“1:8:1黄金数据合成策略”,并通过高精度仿真提升数据可用性。平台将仿真与训练集成于个人设备,降低开发门槛,核心战略是在英伟达生态垄断下推动国产替。
Concordium是一个注重合规与隐私的区块链平台,其原生代币为CCD。该平台通过内置身份验证机制平衡隐私与监管要求,旨在服务企业级应用。CCD用于支付交易手续费、网络治理及生态内服务结算。其经济模型包含释放与销毁机制,以维持代币价值稳定。项目在合规金融、供应链、数字身份等领域有应用潜力。
上海人工智能实验室联合多家机构发起国产软硬件适配验证计划,致力于打造覆盖AI全流程的验证平台与自主生态社区。该平台旨在解决国产算力与应用协同难题,构建从芯片到应用的全链路验证体系,支持多种软硬件适配,推动国产AI技术向“好用、易用”发展。商汤科技依托AI大装置深度参与,已。
具身智能行业资本火热,但曾估值超200亿元的达闼科技迅速崩塌。其失败主因在于创始人黄晓庆以通信行业思维经营机器人业务,过度依赖政商关系与资本运作,技术产品突破有限;同时股权结构复杂分散,倚重政府基金,最终因融资断档与商业化不足导致团队离散。这折射出第一代创业者跨。
TurboQuant论文被质疑弱化与RaBitQ的关联,并存在理论比较与实验公平性问题。谷歌借助平台影响力将其定义为突破性成果,凸显了大厂在学术生态中的结构性优势。类似争议在伦理AI、芯片等领域亦有体现,反映了产业界将利益嵌入研究流程的机制。当前AI研究日益由大厂主导,其通过资本、渠道与话语权塑造。





