首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
中科少年班校友打造进化式AI记忆,创新解题效率减半

中科少年班校友打造进化式AI记忆,创新解题效率减半

热心网友
91
转载
2026-01-19

今年 26 岁的魏天心,是中国科学技术大学少年班毕业生,目前在美国伊利诺伊大学香槟分校读博,同时也是谷歌 DeepMind 的实习生。实习期间,他与所在团队围绕大模型智能体在长期使用过程中如何积累和利用经验这一问题,构建了名为 Evo-Memory 的评测框架,用于系统性刻画智能体在测试阶段的记忆进化行为,即如何在持续使用过程中,像人脑一样不断积累经验,并逐步提升解决问题的能力。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈


图 | 魏天心(来源:魏天心)

魏天心让 Evo-Memory 去挑战数学竞赛题目、研究生级别的科学问题、甚至让其在虚拟实验室里完成复杂的多步骤人物。结果发现在某个虚拟任务中,新型 AI 的步骤从平均 22.6 步减少到了 11.5 步,这说明其学会了更优的路径和方法。

即使任务的难度突然变化,或者记忆里混入了一些失败经验,记忆进化之后的 AI 也能保持稳定的表现,因为它会主动整理和优化记忆,而不是被杂乱的信息干扰。


(来源:https://arxiv.org/abs/2511.20857)

有了 Evo-Memory:AI 变得会更会搜索,面对新问题的时候 AI 会迅速在记忆里找到类似的情况;AI 也会变得更会思考,不仅会查看旧有答案,还会分析此前在给出旧有答案时是怎么想的以及使用了什么方法;AI 还会变得更会自我优化,每当解决一个新的问题,AI 就会把这次的经验比如怎么想的、怎么做的、结果如何等内容整理好,整理好之后还会扔掉没用的、突出有用的。

这个过程叫做测试时进化,即每次在被使用以及每次在解决问题的时候,AI 都在实时地自我学习和自我进化。为了测试这种能力,魏天心设计了一个名为 Evo-Memory 的基准测试,把数学题、科学实验和虚拟世界任务等十多种不同类型的挑战,编成连续的任务流,让 AI 一个一个去完成,结果发现它果然可以借助以往经验解决新问题。

魏天心告诉 DeepTech:“我们此次成果的核心贡献是系统性地定义、设计并评估了大模型智能体的测试时学习能力。也就是在不改变模型训练参数的前提下,让智能体通过自我演化,实现跨任务、跨时间的持续改进。”


(来源:https://arxiv.org/abs/2511.20857)

过去两年,大模型和 AI 智能体的能力提升很快,但在实际部署后魏天心发现它们几乎不会从经验中学习。大多数评测默认它们是一次性系统,而在现实中,智能体是长期运行的。

它会不断遇到新情况、会犯错、会修正,这才符合真实世界的背景。因此,本次研究不仅关注它当下的能力,更关注它能否持续进化、持续从经验中学习,并把这种进化变成可控、可衡量的一个系统性过程。

为了让 AI 学会进化记忆,魏天心构建了一个基准测试框架,对相关方法进行了全面评估,并在其中提出并实现了两种关键测试方法,用于刻画智能体在持续学习过程中的记忆进化行为:

第一个方法叫做 ExpRAG,负责经验检索与聚合。其实它是一个错题本,每当 AI 遇到新题目的时候,它就会立马去错题本里搜搜看,看看是否有类似的旧题目和旧答案。然后,它会把找到的旧有例子和当前题目放在一起思考并给出新答案,最后再把这次的新经历记录到错题本里。

第二个方法叫做 ReMem,它能让 AI 进行协同的推理、行动和记忆,并能给 AI 装上“三核处理器”。首先是思考核,专门负责分析问题和制定计划;其次是行动核,专门负责执行具体的操作或者给出答案;再次是记忆整理核,这是一个全新的部分,它专门负责管理经验宝箱,实时地判断哪些记忆有用、哪些应该合并或删除,让记忆库始终保持在最佳状态。

这三个核心协同工作,让 AI 在解决问题的同时,不仅可以思考怎么做,还能同步思考自己之前学的哪些经验能够用上、这次的新经验应该怎么存,真正实现了边学边用和越用越聪明。


(来源:https://arxiv.org/abs/2511.20857)

魏天心补充称:“研究过程总体顺利,但有几个发现很有意思。一是如果记忆模块设计不当,无法正确从经验中学习,错误可能会随时间积累,导致效果反而变差。二是目前很多方法难以在不同数据集上取得稳定的提升。

这说明提升空间还很大,而且目前的方法大多只是提出了新的测试流程,尚未触及更本质的层面。未来,我认为会有更多工作出现,进行更深入的分析和分离实验,以获得更本质的结论。”

谈及在 DeepMind 的实习体会,他表示:“首先,DeepMind 最直观的感受是研究氛围十分浓厚,同时内部交流非常开放。你可以很容易地在内部找到在相关方向有深入研究的研究人员进行讨论,无论资历或岗位背景,都可以围绕具体研究问题直接沟通,使想法能够被快速反馈和打磨。

此外,公司的整体工作环境和支持条件包括食堂健身房等都非常好。在实习过程中,我还进一步了解了公司重点关注的前沿研究方向和核心业务,这对我后续的研究方向和发展规划产生了积极影响。”

一步步走到今天,他也感恩于父母的帮助和支持。他回忆称:“一方面,父母没有给我很大压力,不会因为我某次考试或状态的起伏而施加额外压力。另一方面,对于一些关键机会,比如报考中科大少年班或者参加竞赛学习,都是父母建议和鼓励我去尝试的。

如果没有他们的信息搜集和建议,我可能在高二时就不知道还有这样的渠道,从而错过机会。所以,父母在信息搜集和长远规划上的作用非常大。作为学生,准备高考和竞赛压力大,很容易忽略这些信息,而父母从旁观者的角度能更好地帮助梳理。”

目前,魏天心在美国伊利诺伊大学香槟分校读博士五年级,主要研究方向是大模型与智能体的高效化研究,包括长期推理、自我进化以及在推荐系统等领域的应用。

参考资料:

相关论文 https://arxiv.org/abs/2511.20857

运营/排版:何晨龙

来源:https://www.163.com/dy/article/KJKVEBLS05119734.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

中科院计算所XBridge:语言模型秒变多语言专家的翻译桥梁
科技数码
中科院计算所XBridge:语言模型秒变多语言专家的翻译桥梁

这项由中科院计算技术研究所智能信息处理实验室和AI安全重点实验室联合开展的研究,发表于2026年3月的arXiv预印本平台(论文编号:arXiv:2603 17512v1),为解决大型语言模型的多语

热心网友
03.30
林俊杰离职后,首次发布长篇告别自述
科技数码
林俊杰离职后,首次发布长篇告别自述

新京报贝壳财经讯(记者罗亦丹)3月26日,在本月初离职,广受科技圈关注的原阿里千问技术负责人林俊旸在社交账号发布了一篇名为From "Reasoning " Thinking to "Agentic "

热心网友
03.27
普林斯顿团队颠覆传统模型推理,速度提升19%的神奇方法
科技数码
普林斯顿团队颠覆传统模型推理,速度提升19%的神奇方法

在人工智能飞速发展的今天,大型语言模型已经成为我们日常生活中不可或缺的助手。然而,就像一台高性能跑车需要不断优化才能跑得更快一样,这些AI模型在生成文本时也面临着速度瓶颈。最近,由普林斯顿大学和LM

热心网友
03.26
MIT团队突破:AI系统如何掌握真实工程推理能力?
科技数码
MIT团队突破:AI系统如何掌握真实工程推理能力?

这项由麻省理工学院机械工程系和土木环境工程系联合开展的研究发表于2026年3月,论文编号为arXiv:2603 04124v1。研究团队针对一个关键问题展开探索:当我们用严格的奖励机制训练小型AI模

热心网友
03.16
MIT全新RandOpt算法,破解大模型训练久耗痛点
AI
MIT全新RandOpt算法,破解大模型训练久耗痛点

只需向模型添加高斯噪声,性能就能比肩甚至超越GRPO PPO等经典调参算法。MIT新论文向大家都在头疼的“调参”开炮了!为了将预训练模型变成某一任务领域专家,无数人夜以继日,纷纷掉发。然而现在,一对

热心网友
03.16

最新APP

凡人传说
凡人传说
角色扮演 03-30
恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29
暗黑之地
暗黑之地
角色扮演 03-28
你比我猜
你比我猜
休闲益智 03-26

热门推荐

英雄联盟手游改名攻略:3步轻松修改昵称与教程
游戏攻略
英雄联盟手游改名攻略:3步轻松修改昵称与教程

英雄联盟手游的玩家们经常会有修改游戏昵称的需求,特别是当初随便取名的玩家现在想要换个更酷炫的ID。LOL手游确实提供了修改昵称的功能,但需要满足一定条件才能操作。想要修改LOL手游

热心网友
03.30
选购RGB Mini-LED电视避坑指南
娱乐
选购RGB Mini-LED电视避坑指南

买RGB-Mini LED电视怕踩坑?今后有了全球统一“金标准”!3月26日,全球消费电子领域最具权威性的机构——美国消费技术协会(CTA)正式发布并生效RGB-Mini LED技术认定标准。作为拥

热心网友
03.30
vivo X300 Ultra蔡司镜头解析:14-400mm全焦段直出2500万像素
iphone
vivo X300 Ultra蔡司镜头解析:14-400mm全焦段直出2500万像素

3月30日消息,在今天的新品发布会上,vivo X300 Ultra影像规格正式公布,搭载蔡司大师镜头群,覆盖14mm超广角至400mm超长焦全焦段,全焦段均可直出2500万像素。具体来看,超广角采

热心网友
03.30
PPT动态图表制作详解:3步轻松插入与动画设置
电脑教程
PPT动态图表制作详解:3步轻松插入与动画设置

PPT中插入动态图表有四种方法:一、Excel嵌入链接图表,修改源数据后更新链接即可刷新;二、用动画分步呈现自绘图表元素,点击逐项显现;三、嵌入Power BI在线图表,需联网并登

热心网友
03.30
力箭二号首飞成功:发射空间试验飞船与“迷你太空实验室”
科技数码
力箭二号首飞成功:发射空间试验飞船与“迷你太空实验室”

30日晚,微信公众号“中科宇航”发布消息,30日19时00分,中科宇航力箭二号遥一运载火箭· 国际纺都号在东风商业航天创新试验区成功发射,将新征程01卫星、新征程02卫星和天视卫星01星精准送入预

热心网友
03.30