清华姚班校友提出嵌套学习,破解AI"灾难性遗忘"难题
谷歌研究院在持续学习领域取得重要突破,其提出的"嵌套学习"架构被NeurIPS 2025会议收录。这项研究通过重新定义机器学习模型的构建方式,为破解大模型"灾难性遗忘"问题提供了全新思路。实验表明,基于该架构的Hope模型在语言建模和长序列记忆任务中的表现超越Transformer架构,标志着大模型向自我进化能力迈出关键一步。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
"灾难性遗忘"被视为神经网络领域的顽疾,表现为模型在学习新任务时迅速丧失原有能力。典型案例包括掌握减法运算后遗忘加法规则、切换游戏场景时性能骤降、微调过程中出现风格偏移等。这种现象源于传统模型将知识固化在静态参数中,导致新信息输入时必然覆盖旧知识,与人类持续积累知识的能力形成鲜明对比。
研究团队创新性地提出将模型解构为多层嵌套的优化系统。不同于传统将网络结构与训练算法分离的做法,嵌套学习认为二者本质是同一优化过程的不同层级。在这种视角下,每个子模块都拥有独立的信息流和更新频率,形成类似人脑的多时间尺度学习机制。例如,浅层模块快速适应即时输入,深层模块则缓慢整合长期知识。
实验中构建的Hope模型验证了理论可行性。该架构在Titans长期记忆机制基础上,通过递归自指结构实现无限层级的学习嵌套。配合连续记忆系统(CMS),模型能动态调整各组件的更新频率:高频模块处理当前上下文,低频模块巩固历史知识。这种设计使Hope在语言建模任务中取得更低的困惑度,在长序列处理中超越TTT和Mamba2等先进模型。
技术细节显示,嵌套学习将优化器重构为联想记忆模块。传统动量优化器通过点积相似度计算样本关系,而新框架采用标准损失函数作为优化目标,显著提升对噪声数据的鲁棒性。在记忆系统方面,连续记忆谱系突破Transformer的短期-长期二分法,通过多频率更新实现更精细的知识管理。这种设计使模型既能快速响应新信息,又能稳定保持历史知识。
研究团队通过多维度实验验证技术优势。在持续学习场景中,Hope模型在知识整合任务上准确率提升12%;长序列处理方面,其有效上下文窗口扩展至传统模型的3倍。这些成果表明,当架构设计与优化算法形成统一优化系统时,模型将获得更强的表达力和自修正能力。
该研究为弥合机器学习与人脑神经可塑性之间的差距提供了新范式。通过模拟人脑中不同脑区的协同工作机制,嵌套学习架构使人工神经网络首次具备类似的多尺度更新能力。这项突破不仅解决了灾难性遗忘的技术难题,更为开发真正具备持续学习能力的通用人工智能奠定基础。
热门专题
热门推荐
清明节假期期间,A 股和港股休市,但比特币行情永不停歇。 4月6日,当多数市场还在假期中沉睡时,比特币已经悄然启动。价格从亚洲早盘的低点67400美元出发,一路向上试探,盘中最高涨破70300美元,不仅刷新了3月26日以来的高位,较日内低点的涨幅也超过了4%。以太坊的表现同样不俗,从2050美元附近
4月5日消息,日前,REDMI K90至尊版通过3C认证,预计将于本月发布。今日,小米中国区市场部总经理魏思琪用小米新机发布微博,不出意外,这正是即将登场的REDMI K90至尊版,这将是小米首款配
WPS演示中图表不随数据更新时,可通过四种方法实现自动同步:一、用OFFSET+COUNTA定义动态名称绑定图表;二、用组合框控件联动VLOOKUP提取数据;三、用数据透视图配合切
聚焦数字技术,释放创新动能。为集中展示静安区区块链技术从“实验室”走向“应用场”的丰硕成果,挖掘一批可复制、可推广的行业解决方案,加速构建区块链产业生态闭环,静安区数据局特推出“静安区区块链创新应用
太空中的马桶堵了,边飞边修还能勉强用。但中东被点燃的火药桶,美国怎么来扑灭?靠一再延期的“最后通牒”?还是靠无底线的轰炸?2300万美元的马桶美国航空航天局4名宇航员1日搭乘“猎户座”飞船升空,执行





