清华姚班校友提出嵌套学习，破解AI"灾难性遗忘"难题

首页

热心网友

转载

2025-11-14

谷歌研究院在持续学习领域取得重要突破，其提出的"嵌套学习"架构被NeurIPS 2025会议收录。这项研究通过重新定义机器学习模型的构建方式，为破解大模型"灾难性遗忘"问题提供了全新思路。实验表明，基于该架构的Hope模型在语言建模和长序列记忆任务中的表现超越Transformer架构，标志着大模型向自我进化能力迈出关键一步。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

"灾难性遗忘"被视为神经网络领域的顽疾，表现为模型在学习新任务时迅速丧失原有能力。典型案例包括掌握减法运算后遗忘加法规则、切换游戏场景时性能骤降、微调过程中出现风格偏移等。这种现象源于传统模型将知识固化在静态参数中，导致新信息输入时必然覆盖旧知识，与人类持续积累知识的能力形成鲜明对比。

研究团队创新性地提出将模型解构为多层嵌套的优化系统。不同于传统将网络结构与训练算法分离的做法，嵌套学习认为二者本质是同一优化过程的不同层级。在这种视角下，每个子模块都拥有独立的信息流和更新频率，形成类似人脑的多时间尺度学习机制。例如，浅层模块快速适应即时输入，深层模块则缓慢整合长期知识。

实验中构建的Hope模型验证了理论可行性。该架构在Titans长期记忆机制基础上，通过递归自指结构实现无限层级的学习嵌套。配合连续记忆系统（CMS），模型能动态调整各组件的更新频率：高频模块处理当前上下文，低频模块巩固历史知识。这种设计使Hope在语言建模任务中取得更低的困惑度，在长序列处理中超越TTT和Mamba2等先进模型。

技术细节显示，嵌套学习将优化器重构为联想记忆模块。传统动量优化器通过点积相似度计算样本关系，而新框架采用标准损失函数作为优化目标，显著提升对噪声数据的鲁棒性。在记忆系统方面，连续记忆谱系突破Transformer的短期-长期二分法，通过多频率更新实现更精细的知识管理。这种设计使模型既能快速响应新信息，又能稳定保持历史知识。

研究团队通过多维度实验验证技术优势。在持续学习场景中，Hope模型在知识整合任务上准确率提升12%；长序列处理方面，其有效上下文窗口扩展至传统模型的3倍。这些成果表明，当架构设计与优化算法形成统一优化系统时，模型将获得更强的表达力和自修正能力。

该研究为弥合机器学习与人脑神经可塑性之间的差距提供了新范式。通过模拟人脑中不同脑区的协同工作机制，嵌套学习架构使人工神经网络首次具备类似的多尺度更新能力。这项突破不仅解决了灾难性遗忘的技术难题，更为开发真正具备持续学习能力的通用人工智能奠定基础。

来源:https://www.itbear.com.cn/html/2025-11/1018974.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：全球首套AI姿态控制器升空，卫星实现自主控制下一篇：钼业2025财年Q2财报：AI拉动营收增长，短期承压长期看好

热门推荐

web3.0

比特币重探7万美元,市场已全面消化美伊战争风险？

清明节假期期间，A 股和港股休市，但比特币行情永不停歇。 4月6日，当多数市场还在假期中沉睡时，比特币已经悄然启动。价格从亚洲早盘的低点67400美元出发，一路向上试探，盘中最高涨破70300美元，不仅刷新了3月26日以来的高位，较日内低点的涨幅也超过了4%。以太坊的表现同样不俗，从2050美元附近

热心网友

04.07