首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
蒙特利尔大学联合研发AI助手实现按需记忆技术突破

蒙特利尔大学联合研发AI助手实现按需记忆技术突破

热心网友
68
转载
2026-05-28

这项由ServiceNow AI Research、蒙特利尔大学、麦吉尔大学、蒙特利尔理工学院以及加拿大高级研究机构CIFAR共同主导的前沿研究,于2026年5月以预印本形式发布在arXiv平台,论文编号为arXiv:2605.21463。

蒙特利尔大学等机构联合研发:AI助手终于学会了

你是否曾有这样的经历:朋友热情推荐一家餐厅,说“那家的红烧肉堪称一绝”,结果你兴冲冲前往,却发现今日菜单上根本没有红烧肉,只有清蒸鱼。朋友的记忆本身没错,但它基于过去的情境,无法适配你当前的需求。

当前的人工智能助手正面临类似的困境。当AI需要处理复杂的多步骤任务——例如在线购物、操作企业软件或完成虚拟家务时——它往往需要借鉴过去的经验来提升效率。为此,研究者们为AI构建了“记忆库”,用于存储历史经验以供后续检索。

然而,问题随之而来:这种检索出的记忆往往是僵化的。就像朋友那句“红烧肉一绝”的推荐被生硬地套用,AI在面对与过去“相似但不完全相同”的新任务时,检索到的旧经验会携带过时的具体细节,从而将AI引向错误的方向,导致任务失败。

为此,该研究团队提出了一种全新的思路。他们设计了一个名为**Mem-π**(读作“Mem-pi”)的创新框架,将AI的记忆模式从“静态档案检索”转变为“动态情境化建议生成”。更重要的是,该系统还学会了智能判断:何时应该提供建议,何时应该保持沉默。

一、从“检索档案”到“生成建议”:记忆范式的根本性变革

目前主流的AI记忆系统,其工作模式类似于图书管理员。系统维护一个庞大的经验库(“书籍”),当新任务出现时,便根据相似度检索出最相关的历史经验直接使用。这种方法被称为检索增强生成(RAG),其优点是可靠性高,但缺点同样明显:历史经验绑定于特定情境,无法灵活适应新的变化。

例如,记忆库中有一条经验是“提取店铺排名前2的搜索关键词”,而当前任务要求“找出前3个关键词”。RAG系统会直接给出“提取前2个”的旧建议,导致错误。原因在于,旧经验中的具体数字“2”被不加修改地应用于新任务。

Mem-π采用了截然不同的路径。它并不维护一个需要频繁检索的静态数据库,而是将海量历史经验“内化”到一个专门的“记忆策略模型”(πmem)中。当面临新任务时,该模型并非翻找旧档案,而是基于对任务当前上下文的理解,实时生成一段量身定制的指导建议。这好比一位经验丰富的大厨,无需查阅固定菜谱,便能根据现有食材和客人口味,即时构思出最佳烹饪方案。

此外,这位“AI大厨”还具备一项关键能力:自知之明。当它判断当前任务过于简单,或自己的建议可能产生干扰时,会主动选择“弃权”——即不提供任何建议。这种“按需发言”的机制,是Mem-π超越传统方法的核心优势之一。

二、两阶段训练法:先广泛学习,再实战精进

Mem-π的记忆策略模型是如何炼成的?其训练过程分为两个清晰的阶段,宛如一位厨师的成长历程。

第一阶段称为“经验蒸馏”。在此阶段,模型需要“阅读”大量由历史任务轨迹提炼而成的“经验提示库”。这些提示由专门工具(JEF-Hinter)生成,能够从冗长的操作记录中提取出关键、可复用的步骤建议。通过监督学习,模型大量吸收这些通用知识,将其内化为自身能力。

完成初步学习后,模型虽知识丰富,但尚不“精明”——它不知道何时该发言,也不确定自己的建议是否真正有效。于是进入第二阶段:“适应蒸馏”。

在此阶段,模型被置于真实的任务环境中,通过强化学习进行实战锤炼。强化学习的核心逻辑是:模型的行为(生成建议或选择弃权)会获得来自下游任务成功与否的反馈。通过反复试错,模型逐渐学会两件事:第一,生成真正有助于任务成功的建议;第二,准确判断在何种情况下保持沉默更为有利。

为了支持“弃权”能力,研究团队在模型的词汇表中引入了两个特殊标记:`[GENERATE]`(生成建议)和`[ABSTAIN]`(选择弃权)。对于每个新任务,模型必须首先做出“说与不说”的决策,只有在选择“说”之后,才会进一步生成具体内容。

三、解耦式训练:分离“决策”与“内容”的学习过程

这里存在一个微妙的技术挑战,也是本论文最具创新性的设计之一。

如果使用常规方法同时训练模型学习“是否发言”和“发言内容”,会导致学习信号的不均衡。“是否发言”仅涉及一两个标记的决策,而“发言内容”可能包含数十上百个词汇。在参数更新时,内容部分的梯度会轻易淹没决策部分的信号,导致模型无法有效学会何时该保持沉默。

为解决这一问题,团队设计了“决策-内容解耦策略优化”方法。具体而言,在训练时,对于每个任务,模型被强制要求生成一组结构化的输出选项:包含一个“弃权”版本和三个不同的“生成建议”版本。随后,学习信号被拆分为两层: 决策层信号:专门评估“弃权”与“生成建议”哪个对任务更有利,此信号仅用于优化决策标记(`[GENERATE]`/`[ABSTAIN]`)。 内容层信号:专门评估三个生成版本中哪个建议内容更好,此信号仅用于优化建议内容部分的词汇。

更为精妙的是,内容层的学习还设置了“门控”机制——仅当“生成建议”的整体收益高于“弃权”时,内容层的梯度才会被激活并用于更新模型。这确保了模型不会在“本应闭嘴”的情况下,反而因为内容被优化而变得更爱说话。同时,模型还受到“建议长度惩罚”的约束,鼓励其生成简洁、精炼的指导,而非冗长的叙述。

四、四大测试基准:在多元场景中验证效能

研究团队在四个差异显著的复杂任务环境中全面评估了Mem-π的性能,涵盖了网页交互、企业软件、命令行操作和文本游戏等领域。

  1. WebArena:一个包含812个真实网页交互任务的仿真平台,覆盖电商购物、内容管理、代码仓库、论坛及地图服务五大领域,要求AI执行多步骤的点击、填写和搜索操作。
  2. WorkArena:基于ServiceNow企业服务平台构建,测试AI处理企业工作流的能力,包括菜单导航、表单填写、列表筛选和知识库查询等33类任务模板。
  3. LifelongAgentBench (LAB):专注于测试AI在终端环境中长期复用经验的能力,包含数据库(SQL)和操作系统(Bash)两大技能集,共计超过1000个任务。
  4. ALFWorld:一个文本化的家务模拟环境,AI需要通过文字指令在多房间场景中完成寻找、清洁、加热物品等一系列规划任务。

对比的基线方法包括:无记忆的基础模型、传统RAG检索、以及多种先进的记忆增强方法。所有实验均使用独立的模型:下游任务执行模型为gpt-5.4-mini,而Mem-π的记忆策略模型则基于Qwen-2.5-7B-Instruct构建。

五、性能表现:全面领先,关键场景提升显著

实验结果清晰表明,Mem-π在所有四个基准测试上均取得了最佳性能。

在最具挑战性的WebArena上,Mem-π将平均任务成功率从基础模型的27.1%提升至43.1%,相对提升幅度接近50%。在部分子任务上提升尤为惊人,例如在内容管理系统(CMS)任务中,成功率从14.6%跃升至42.8%。在WorkArena和ALFWorld等基准上,Mem-π也带来了显著且一致的提升。

一个有趣的发现是:仅完成第一阶段“经验蒸馏”的Mem-π模型,其表现就已与一些需要完整强化学习训练的先进记忆方法持平。这说明,将经验知识“内化”到模型参数中,本身就是一种极其有效的初始化策略。而第二阶段的强化学习则在此基础上,进一步带来了约8个百分点的性能增益,证明了两个阶段相辅相成、缺一不可。

六、消融实验:验证每个设计组件的必要性

为证实每个设计选择的有效性,研究团队进行了一系列“拆解”实验(消融实验),观察移除某个组件后性能下降的程度。

  • 移除第一阶段初始化:性能显著下降,证明没有前期的知识积累,强化学习难以收敛。
  • 合并两个训练阶段:性能下降更大,表明“知识学习”和“决策精炼”两个目标存在内在冲突,分阶段训练更优。
  • 移除结构化对比采样(即强制包含弃权版本):这是导致性能下降最关键的强化学习设计,证明模型必须通过与“弃权”选项的明确对比,才能学会何时该沉默。
  • 移除门控机制:性能下降,证实该机制能有效防止模型在应该弃权时,反而因内容被优化而变得“多嘴”。
  • 移除长度惩罚:性能轻微下降,说明简洁的建议确实更有利于任务执行。

七、深度洞察:弃权是智慧,而非怯懦

研究团队进一步分析了Mem-π的弃权行为与任务难度之间的关系,揭示了一个深刻的模式。

他们将任务按基础模型的成功率分为五组(从最难到最易)。分析发现,对于最简单的任务组(基础成功率80%-100%),Mem-π在约71%的情况下选择弃权;而对于最困难的任务组(基础成功率0%-20%),弃权率仅为13%。同时,性能提升最大的恰恰是最困难的任务组。

这一模式清晰地表明,Mem-π学会了一种精准的“干预智慧”:对于简单任务,基础模型已能胜任,额外建议多是画蛇添足;而对于复杂任务,则积极提供关键性指导。这种“该出手时才出手”的能力,是其高效性的核心。

八、模型迁移性:弱模型训练的记忆,强模型能否用?

这是一个具有重要实践价值的问题:用一个较小的开源模型训练出的记忆策略,能否直接迁移到更强大的闭源模型上使用?

实验给出了肯定答案。在WebArena上,使用Qwen2.5-7B训练的记忆策略,在搭配更强的GPT-5.4-mini执行任务时,带来的性能提升(16.0个百分点)依然是传统RAG方法(4.3个百分点)的近4倍。这意味着一套训练好的Mem-π记忆策略具有良好的通用性和迁移价值。

九、效率优势:用更少的词汇,实现更好的效果

Mem-π不仅在效果上领先,在效率上也更胜一筹。在WebArena上,Mem-π平均每个任务仅向下游模型注入138个词的记忆提示,比仅完成第一阶段的版本节省31%的词汇量,比另一先进记忆方法节省38%。同时,其任务成功率却更高。这得益于其弃权机制:避免了在不必要的任务上浪费“口舌”,从而将有限的“注意力预算”集中在最需要干预的复杂任务上。

十、案例剖析:理解成功与失败的边界

通过对WebArena测试案例的深入分析,可以更具体地理解Mem-π的优势与局限。

成功案例(Mem-π胜出):典型情况是“数量不匹配”。例如,新任务要求“列出前3名”,而记忆库中最相似的经验是关于“前2名”的。RAG会直接建议“读取前两行”,导致错误。Mem-π则能根据当前任务上下文中的“3”,动态生成“取前三行”的正确建议。

弃权成功案例:例如,任务要求“寻找能存放40张Switch游戏卡的最合适收纳方案”。记忆库中的经验局限于“游戏卡盒”这类狭窄产品。RAG给出此建议会限制搜索范围。Mem-π判断无需额外限制,选择弃权,让基础模型自由搜索,最终找到了更优的通用收纳盒方案。

失败案例:Mem-π偶尔也会犯错。在一个“预览Magento主题”的任务中,Mem-π错误地生成了“不要点击操作列”的建议,而正确操作恰恰需要点击该列的“查看”链接。此时,直接复制旧步骤的RAG反而成功了。这类因“过度生成”而导致的错误虽占比极少,但也揭示了生成式方法潜在的风险。

此外,还存在一些所有方法均无法解决的任务,通常源于底层工具或环境的客观限制。

本质上,Mem-π框架所做的,是赋予AI助手一种符合常识的“沟通智慧”:懂得在适当的时机,提供有针对性的帮助,而非机械地复述过去。这听起来简单,但对AI系统而言,实现它需要精巧的设计。

这项研究的意义远超性能指标的提升。它揭示了一个更深层的原理:在AI系统中,记忆不应是被动的档案库,而应是一个能感知情境、主动决策的认知过程。这与认知科学对人类记忆的理解——记忆是依据当前需求进行的动态重构,而非静态回放——不谋而合。

对于普通用户而言,这一研究方向预示着未来的AI助手将更加“贴心”和“可靠”——它不会事无巨细地插嘴,而是在你真正需要时,提供恰到好处、切中要害的协助。

研究团队也展望了未来的方向,包括实现闭环的持续记忆学习(让AI在运行中不断更新记忆策略),以及开发可追溯源头的记忆机制(在保持灵活性的同时兼顾可靠性与可解释性)。

Q&A

Q1:Mem-π的弃权机制是如何训练的?为什么不让模型一直提供建议?

A:Mem-π通过强化学习中的“结构化对比采样”来训练弃权行为。在训练中,模型被强制要求同时生成一个弃权版本和多个建议版本,并通过对比学习哪种选择对任务更有利。研究发现,对于简单任务,多余的建议反而会成为干扰信息,降低成功率。弃权机制让模型学会“不该说话时保持沉默”,这不仅平均节省了约31%的提示词长度,也显著提升了整体任务表现。

Q2:Mem-π与传统RAG记忆最核心的区别是什么?

A:最核心的区别在于记忆的运用方式。RAG是“检索-复制”模式,从记忆库中找到最相似的旧经验直接使用,遇到细节差异(如数字、名称变化)容易出错。Mem-π是“理解-生成”模式,它将历史经验内化为模型能力,面对新任务时,能基于对当前上下文的理解,动态生成适配的、修正了细节的新建议。简言之,RAG是“复印旧文件”,Mem-π是“理解后撰写新指南”。

Q3:Mem-π的记忆模型和执行任务的主模型是同一个吗?

A:不是。它们是两个独立的模型。Mem-π的记忆策略模型(πmem)是一个专门训练用于生成任务建议的较小模型(基于Qwen-2.5-7B)。执行具体任务的下游智能体可以是另一个更强大的模型(如论文中使用的gpt-5.4-mini)。这种解耦设计带来了灵活性和实用性:企业可以用较小的私有模型训练记忆策略,然后无缝对接不同的、可能更强大的任务执行模型;训练好的记忆策略也具备良好的可迁移性。

来源:https://www.techwalker.com/2026/0527/3188410.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

AI做PPT哪个好用 五款实用工具推荐提升效率
AI教程
AI做PPT哪个好用 五款实用工具推荐提升效率

一、哪个ai做ppt好用?五个实用工具推荐 在追求效率的当下,快速制作一份专业且吸睛的PPT,已成为职场人士与学生群体的共同难题。人工智能技术的介入,正彻底颠覆这一传统流程。今天,我们就来深入盘点市面上哪些AI工具能真正成为你的PPT制作得力助手,以及它们如何革新我们的工作模式。 AI做PPT的应用

热心网友
05.28
蒙特利尔大学联合研发AI助手实现按需记忆技术突破
AI资讯
蒙特利尔大学联合研发AI助手实现按需记忆技术突破

这项由ServiceNow AI Research、蒙特利尔大学、麦吉尔大学、蒙特利尔理工学院以及加拿大高级研究机构CIFAR共同主导的前沿研究,于2026年5月以预印本形式发布在arXiv平台,论文编号为arXiv:2605 21463。 你是否曾有这样的经历:朋友热情推荐一家餐厅,说“那家的红烧

热心网友
05.28
AI制作PPT工具推荐与高效制作技巧全解析
AI教程
AI制作PPT工具推荐与高效制作技巧全解析

一、解决你的演示难题:什么ai可以写ppt吗 当职场人士搜索“什么AI可以写PPT”时,其核心诉求是寻找能够优化工作流程、提升演示文稿制作效率的智能化解决方案。随着人工智能技术的成熟,利用AI辅助PPT创作已成为提升办公生产力的关键趋势。 什么ai可以写ppt的应用领域 AI在PPT制作中的应用已全

热心网友
05.27
AI写作工具哪个好用 推荐几款实用的AI助手
AI教程
AI写作工具哪个好用 推荐几款实用的AI助手

在信息过载的当下,灵感枯竭、写作卡顿是许多内容创作者的共同痛点。如何高效应对各类写作任务,持续产出优质内容?AI写作工具的出现,为我们提供了一个强大的解决方案。简单来说,AI写作工具是利用人工智能技术,辅助用户完成从选题构思、大纲搭建到内容成稿的全过程。你只需输入核心关键词或一个大致方向,就能快速获

热心网友
05.27
免费AI制作PPT工具:一键生成高质量模板与实用技巧
AI教程
免费AI制作PPT工具:一键生成高质量模板与实用技巧

一、AI写PPT免费工具如何高效提升PPT制作与设计水平 在当今快节奏的工作与学习环境中,无论是进行关键的职场汇报还是重要的学术展示,一份结构清晰、视觉出色的PPT都扮演着至关重要的角色。然而,时间往往是最稀缺的资源。因此,“AI写PPT免费”以及如何借助各类AI工具大幅提升PPT设计效率,已成为广

热心网友
05.27

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Paralives首发销量充足 支撑后续开发无需DLC
游戏攻略
Paralives首发销量充足 支撑后续开发无需DLC

《Paralives》开发商承诺所有后续更新永久免费,拒绝付费DLC模式。15人小团队依靠首发销售额即可支撑多年运营,无需依赖额外内容包维持开发,展现了与《模拟人生》系列不同的差异化竞争思路。

热心网友
05.28
比亚迪宋Ultra DM-i上市12.99万 承诺城市领航安全兜底
业界动态
比亚迪宋Ultra DM-i上市12.99万 承诺城市领航安全兜底

2025年5月28日,比亚迪王朝网全新力作——宋Ultra DM-i正式推向市场,共推出5款配置车型,官方售价区间为12 99万至15 99万元。此次定价策略极具突破性:一款拥有310公里纯电续航能力的中型插电混动SUV,直接下探至13万元级别市场。作为王朝网络的新旗舰,该车明确瞄准高频出行需求场景

热心网友
05.28
折叠屏iPhone Ultra外观已定,第三方保护壳亮相
科技数码
折叠屏iPhone Ultra外观已定,第三方保护壳亮相

先来关注一个有趣的细节:苹果首款折叠屏手机,传闻将于今年秋季正式亮相。产品命名可能为iPhone Ultra,也有媒体称之为iPhone Fold——无论最终叫什么,这都将标志着苹果在折叠形态领域首次“出手”。 近日,配件厂商iFunSmart已率先上架iPhone Ultra的首批保护壳——这绝非

热心网友
05.28
山寨币ETF批量上市后市场表现分析 哪些项目值得关注
web3.0
山寨币ETF批量上市后市场表现分析 哪些项目值得关注

山寨币ETF迎来批量上市潮,首批项目市场表现如何?一文分析 Binance币安 欧易OKX ️ Huobi火币️ 最近,市场出现了一个不容忽视的新动向:XRP、DOGE、LTC、HBAR等现货ETF已经悄然登陆美国市场。与此同时,A VAX、LINK等资产的同类产品也正在审批流程中。进入11月以来,

热心网友
05.28
即使在大幅涨价后 Steam Deck 玩家热情依旧再次售罄
游戏攻略
即使在大幅涨价后 Steam Deck 玩家热情依旧再次售罄

近日,公司对SteamDeck1TBOLED版涨价300美元至949美元,上架短短不到24小时便再度售罄。据外界分析,该公司从中国大量补货并分批投放库存,高溢价未影响众多玩家的抢购热情与速度,其人气极其旺盛无比足以支撑快速清空。

热心网友
05.28