UCLA打造老员工记忆库，让AI智能体成为专业同事

时间：2026-06-02 11:44

近期，一项由加州大学洛杉矶分校（UCLA）团队主导的研究以预印本形式发布，为AI智能体的“长期记忆”能力评估提供了新的标尺。论文编号为arXiv:2605 12493v1，为希望深入探究的读者提供了完整的参考。一段关于“老员工”的灵魂拷问在任何组织里，最有价值的员工往往不是学历最高的那位，而是那

近期，一项由加州大学洛杉矶分校（UCLA）团队主导的研究以预印本形式发布，为AI智能体的“长期记忆”能力评估提供了新的标尺。论文编号为arXiv:2605.12493v1，为希望深入探究的读者提供了完整的参考。

一段关于“老员工”的灵魂拷问

在任何组织里，最有价值的员工往往不是学历最高的那位，而是那位待了十年、对内部系统了如指掌的“老员工”。他知道报销系统哪个版本有隐藏的bug，清楚申请打印权限必须走哪个流程，这些知识在任何官方文档中都找不到，只存在于他的经验里。

现在，一个核心问题摆在了科学家面前：如何让AI智能体也拥有这种“老员工”式的经验？这正是UCLA这项研究试图回答的。他们构建了一套名为LongMemEval-V2（简称LME-V2）的全新评测基准，专门用来衡量AI智能体在反复操作复杂网页系统后，能否真正积累起类似人类的环境经验。

为什么AI的“记忆”是个大问题

要理解这项研究的价值，首先得明白AI智能体通常的工作场景。你可以把它想象成一个被派去操作网页系统的“虚拟员工”，无论是处理电商订单、提交企业工单，还是在论坛互动，它都需要一步步点击、填写和导航。

问题在于，每次执行新任务时，AI智能体都像第一天上班的新人——它对眼前这个具体系统一无所知，只能依靠训练时学到的通用知识来摸索。如果系统设计存在反直觉的环节，比如某个按钮需要先完成其他操作才会出现，那么无论是新人还是AI，都很可能踩坑。更关键的是，AI踩过的坑，下次很可能还会再踩，因为它缺乏一个能够持续积累和调用经验的“长期记忆”机制。

目前，学术界关于AI记忆的研究大多集中在两个方向：一是记住用户对话历史，二是从超长文档中检索信息。这两种场景都相对“干净”，而现实中的智能体操作环境则“脏”得多——充斥着噪音操作记录、复杂的页面状态变化、偶发性失败案例，以及那些只有反复实践才能领会的“系统潜规则”。LME-V2正是为了填补这片空白而诞生的评测工具。

LME-V2是什么——一套专门刁难AI“老员工”的考题

LME-V2的核心设计思路非常直观：将大量AI操作网页的历史记录（研究者称之为“干草堆”）提供给记忆系统，然后提出精心设计的问题（即“针”），检验它能否从中找到正确答案。

测试环境基于两个成熟的平台：WebArena和WorkArena。前者模拟了定制版的Magento电商后台和类似Reddit的论坛；后者模拟了企业级工单系统ServiceNow。这些都不是简单的演示环境，而是存在大量独特配置、与公开版本行为迥异的专属系统，这正是考验AI“经验”的关键。

研究团队从这些环境中收集了1540条AI操作轨迹，平均每条包含28.1个操作状态，整体任务成功率约为52%。近一半的失败轨迹被特意保留，因为许多宝贵的“踩坑”经验恰恰来源于此。

所有测试题目均由人工标注，共计451道，覆盖五大记忆能力维度：

静态状态回忆：考察对页面布局、按钮位置、表单字段等固定元素的记忆。
动态状态追踪：考察对操作引发的页面状态变化的理解，例如某个字段在特定操作后是否会出现或消失。
流程知识：考察完成某类任务的标准操作步骤，类似于掌握工作SOP。
环境陷阱：考察对特定系统中反复出现的“坑”的认知，例如知道该系统的搜索逻辑是“大于等于”匹配。
前提意识：考察能否识别题目本身包含了错误假设，例如问题提及一个不存在的按钮。

这五个维度，完整对应了一位有经验的同事在实际工作中所需的知识层次。

题目有多难——连最强的AI也只能答对14%

为了验证题目确实在考察“环境经验”而非“通用知识”，研究团队设置了一个对照实验：直接将题目抛给当前最顶尖的大语言模型，不提供任何操作历史。

参与测试的模型包括GPT-5.2、Gemini-3.1-Pro、Claude Opus 4.6、Grok-4.20等。结果颇具说服力：表现最好的Kimi-K2.5准确率仅为14.1%，其他模型大多在10%左右徘徊，GPT-5.2低至4.7%，Grok-4.20更是只有2.4%。

这个结果清晰地表明，题目所考察的知识确实不在这些模型的通用知识库内。尽管它们可能了解Magento或ServiceNow的公开版本，但对于经过深度定制的测试环境，其独特逻辑只能从实际操作历史中习得。

另一个方向的验证则提供了乐观信号：当模型获得“神谕”级别的帮助——即直接拿到包含答案的操作轨迹时，表现大幅提升。例如，Qwen3.5-9B准确率可达约60%，GPT-5.4-mini约为65%。如果进一步优化，只提供关键状态切片并辅以策略笔记，准确率能进一步提升至80%以上。最亮眼的是，让编程智能体Codex自行检查轨迹文件并作答，准确率飙升至89.7%。

这组数据传递出一个关键信息：题目设计是合理的，答案确实隐藏在历史轨迹中，关键在于需要一个足够高效的“记忆系统”将其挖掘出来。

干草堆有多大——这是一个规模空前的考验

LME-V2提供了两个级别的“干草堆”供记忆系统处理。小号版本（LME-V2-Small）是所有问题共享一个包含100条轨迹的历史库，总计约2560万个token。大号版本（LME-V2-Medium）则为每道题单独配备约500条轨迹的历史库，总token量高达约1.148亿。

这个规模是碘伏性的。目前主流大模型的上下文窗口通常在10万到100万token之间，而LME-V2-Medium的单题历史量直接突破1亿token。这意味着任何试图“一口吞下”全部历史的方案都行不通，必须设计专门的记忆系统来进行分阶段处理、存储和检索。

与已有的记忆评测基准相比，LME-V2在规模上实现了数量级的领先，并且是首个将静态记忆、动态追踪、流程知识、环境陷阱和前提意识这五大维度整合到同一框架下进行系统评测的工作。

如何评测——“记忆系统”到底要做什么

为确保评测的公平性与可比性，研究团队设计了一套名为“上下文收集”的评测框架，为所有参赛的记忆系统制定了统一规则。

任何记忆系统都需要提供两个核心接口：“插入”（Insert）用于在轨迹流入时处理并存储信息；“查询”（Query）用于在接到问题时返回一段紧凑的证据内容。这段证据随后会被截断至20万token以内，交由一个固定的“阅读模型”（研究中为Qwen3.5-9B）来生成最终答案。

这个设计的精妙之处在于，它将记忆系统的检索质量与阅读模型的推理能力清晰分离。由于阅读模型是固定的，最终准确率的差异就直接反映了不同记忆系统所检索证据的精准度和有用性。同时，系统还会记录每次查询的耗时，因为一个实用的记忆系统必须在准确与效率之间取得平衡。

AgentRunbook——研究团队自己设计的两套解法

面对这一挑战，UCLA团队提出了两套记忆方案，统称为“AgentRunbook”，可以理解为“智能体的操作手册”。

第一套方案：AgentRunbook-R（基于RAG检索） 这套方案的思路是，在轨迹流入时，利用大语言模型对其进行处理，并将信息存入三个不同的知识池： 1. 原始状态切片池：存储每个操作状态及其前后状态的局部快照（包括页面结构文本和截图）。 2. 状态转换事件池：存储相邻状态之间发生的变化，例如点击某个按钮后页面元素的增删。 3. 流程与提示笔记池：存储从整条轨迹中提炼出的高层次知识，如任务标准步骤、系统陷阱和特有规律。查询时，一个LLM控制器会分析问题，并同时向这三个池子发起针对性的检索，最终合并结果形成证据包。

第二套方案：AgentRunbook-C（基于编程智能体） 这套方案的思路更为直接：既然编程智能体擅长操作文件和调用工具，何不将所有轨迹原样存为文件，然后让编程智能体去文件中查找答案？在插入阶段，每条轨迹被存储为一个包含JSON数据文件和截图的目录。查询时，系统为编程智能体准备一个“工作台”，其中包含历史库的索引文件、用于高效检查轨迹的辅助脚本以及详细的工作流说明文档。编程智能体遵循工作流，先通过索引粗筛相关轨迹，再用脚本精确定位，最后输出证据片段和分析笔记。

两套方案各有侧重：AgentRunbook-R速度快，平均查询延迟约26秒，适合对实时性要求高的场景；AgentRunbook-C精度高，但查询时间更长，在大号测试集上平均需要约140秒。

实验结果——数字背后的故事

在LME-V2-Small测试集上，基线模型（无检索）的准确率仅为1.3%。最简单的RAG方案提升至42.8%，加入笔记后达到51.0%。AgentRunbook-R进一步将整体准确率推至58.6%，尤其在静态类题目上达到66.1%。而表现最佳的是AgentRunbook-C，整体准确率74.9%，静态类题目高达82.0%。

在更具挑战的LME-V2-Medium测试集上，所有方案表现均有下滑，但排名保持不变：AgentRunbook-C以70.1%领先，AgentRunbook-R为57.0%，简单RAG降至38.1%。

从效率角度看，AgentRunbook-R在约26秒内能达到近60%的准确率，而未经优化的Codex智能体需要约177-186秒才能达到69-70%的准确率。AgentRunbook-C则在约108-140秒的延迟下实现了70-75%的准确率，在速度与精度之间找到了新的平衡点。

错误分析揭示了一个关键模式：检索失败（即记忆系统根本未找到包含答案的轨迹）是主要的失分原因。从简单RAG到AgentRunbook-C，检索失误逐级减少，同时“阅读错误”（已找到证据但答错）也随之降低，这说明提供更精准的证据本身就能提升最终答案的质量。值得注意的是，AgentRunbook-R在“前提意识”类题目上提升有限，因为它只是呈现证据，未主动分析矛盾；而AgentRunbook-C的工作流要求编程智能体在发现矛盾时主动标记，因此在这类题目上表现更优。

编程智能体的操作行为——它究竟是怎么找答案的

研究团队进一步分析了AgentRunbook-C与普通Codex在查询时的工具调用行为差异。

在LME-V2-Medium上，普通Codex平均每次查询会执行约21.8次“原始轨迹探索”操作，类似于大海捞针。而AgentRunbook-C平均仅执行约1.2次原始探索，绝大部分检索（约18次）都是“定向检索”——先阅读索引文件定位相关轨迹，再用辅助脚本精确检验。

从时间分布看，AgentRunbook-C能在前几步就迅速进入定向检索阶段，而普通Codex则会在后期陷入大量无效的文件探索。这正是AgentRunbook-C在比普通Codex快约32%的同时，准确率还能更高的根本原因：预设的工作流和索引文件极大地减少了无效探索。

研究的边界与现实考量

研究团队也对这项工作的局限性进行了坦诚说明。

首先，LME-V2目前专注于网页浏览类智能体。虽然这是一个非常广泛的应用场景，但编程智能体、计算机操控类智能体等其他类型可能有完全不同的记忆需求和挑战，LME-V2的结论不能直接推广。

其次，LME-V2是基于预先收集的静态轨迹历史进行评测，而非智能体实时操作中的在线学习。这种离线评测便于复现，但可能无法完全模拟智能体在持续使用中行为分布动态变化的复杂情况。

最后，AgentRunbook-C虽然表现出色，但它本质上是在现有编程智能体框架上添加的“脚手架”。未来，如果能从底层设计出与记忆、规划、执行深度整合的系统，或者训练出能自适应调整存储检索策略的智能记忆控制器，性能可能会有更大的飞跃。

归根结底，LME-V2这项研究最核心的贡献，并非其提出的两套解决方案本身——尽管AgentRunbook-C已经显著提升了基线水平——而在于它清晰地定义了“什么叫做有经验的AI同事”，并构建了一套能够系统、量化地评测这种经验积累质量的工具。

当前，AI助手正被越来越多地部署到各类企业系统中。但在多数情况下，它们每次执行任务都像新来的实习生，对系统的门道一无所知。如何让AI从“会操作”升级为“懂系统”，是决定其能否真正减轻人类工作负担的关键。LME-V2将这个问题从一个抽象概念，转变为了一个可量化、可比较、可优化的具体任务，这本身就是推动领域前进的重要一步。

目前的最佳方案AgentRunbook-C在小号测试集上达到了74.9%的准确率，这意味着每四道题仍有一道答错。在对操作准确性要求极高的企业环境中，这个错误率显然还不够低。更何况，即便是“找到了正确证据但阅读模型仍然答错”这类问题，目前的框架也尚未根本解决。未来的研究空间，依然广阔。

Q&A

Q1：LongMemEval-V2测试的是什么类型的AI记忆能力？

A：LongMemEval-V2测试的是AI智能体在反复操作特定网页系统后积累的“环境经验”。它涵盖五类能力：对页面布局的静态记忆、对操作引发变化的动态追踪、对任务流程步骤的知识掌握、对系统特有陷阱的认知，以及识别问题本身存在错误前提的能力。这区别于常规的“记住聊天记录”型记忆，更接近一位熟悉公司内部系统的老员工所拥有的经验。

Q2：AgentRunbook-C和普通的RAG检索方法相比优势在哪？

A：AgentRunbook-C的核心优势在于其检索策略。它将操作轨迹存为文件，让编程智能体借助索引文件和辅助脚本进行精准定位，避免了大量无效的全局搜索。在准确率上，它在小号测试集达到74.9%，远超最强RAG方案的58.6%。在效率上，它比未经改造的编程智能体快约32%。其根本优势在于，通过工作流文档引导智能体进行定向检索，大幅减少了漫无目的的探索。

Q3：LME-V2基准和之前的AI记忆评测有什么不同？

A：主要区别在于规模和评测维度的深度。LME-V2-Medium的单题历史库超过1亿token，规模比此前最长的类似基准高出约两个数量级。在内容上，LME-V2是首个同时覆盖静态状态记忆、动态追踪、流程知识、环境陷阱和前提意识五大维度的基准。它基于真实的网页智能体多模态操作轨迹（包含截图），而非使用合成的对话记录或简化的游戏环境，因此更能反映智能体在复杂现实任务中的记忆需求。

来源：https://www.163.com/dy/article/KT898C4P0511DTVV.html

AI智能

上一篇谷歌联手伊利诺伊大学让AI研究助手学会反思错误 下一篇腾势N9闪充版上市40.98万起零百3.7秒驾控新王

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。