谷歌“嵌套学习”突破：解决AI持续学习中的灾难性遗忘难题

时间：2025-11-10 19:53

大型语言模型虽在诸多领域展现出强大能力，但始终面临一个关键难题：难以像人类大脑那样持续学习新技能，同时不遗忘旧知识。传统模型的知识获取主要依赖预训练数据和有限的上下文窗口，当新数据涌入时，直接更新模

大型语言模型虽然在诸多领域展现出强大能力，但始终面临一个关键难题：难以像人类大脑那样持续学习新技能，同时不遗忘旧知识。传统模型的知识获取主要依赖预训练数据和有限的上文窗口，当新数据涌入时，直接更新模型参数往往会导致“灾难性遗忘”——新任务表现提升的同时，旧任务性能大幅下滑。这一瓶颈严重制约了AI向更通用、更智能的方向发展。

为突破这一困境，谷歌研究院提出了一项名为“嵌套学习”的全新机器学习范式，并在NeurIPS 2025会议上详细阐述了其核心机制。该范式颠覆了传统将模型架构与优化算法分开设计的思路，将复杂模型视为一系列相互嵌套或并行的优化问题。每个问题拥有独立的“上下文流”和更新速率，形成多层次的计算结构，从而为缓解灾难性遗忘提供了新的理论框架。

基于这一范式，研究团队开发了两项关键技术：一是“深度优化器”，通过将优化器本身转化为可学习的模块，并优化其底层目标函数，使其对不完整或噪声数据更具适应性；二是“连体内存系统”，将模型内存设计为由多个更新频率不同的模块组成的光谱结构，实现从短期记忆到长期记忆的平滑过渡。这种分层内存机制显著提升了模型处理超长信息序列的能力。

为验证理论有效性，团队构建了名为“Hope”的概念验证模型。该模型基于Titans架构，深度整合了连体内存系统，通过自我参照机制动态优化内存结构，实现了近乎无限层级的上下文学习。实验数据显示，在语言建模和常识推理任务中，Hope的困惑度显著低于现代循环模型和标准Transformer，准确性提升幅度尤其明显。

在针对长文本记忆能力的“大海捞针”测试中，Hope的表现尤为突出。该测试要求模型从超长文本中精确定位并回答特定信息点，模拟人类在浩如烟海的数据中提取关键内容的能力。实验结果表明，Hope的内存管理效率远超现有模型，证实连体内存系统是处理超长信息序列的有效方案。这一突破为开发真正具备“温故知新”能力的AI系统奠定了技术基础。

NIAH测试作为评估大型语言模型长文本理解能力的基准工具，通过模拟“草堆中找针”的场景，要求模型在极长文本中准确识别并回答特定问题。Hope在该测试中的优异表现，不仅验证了嵌套学习范式的实用性，也为未来AI在复杂信息处理领域的应用提供了新方向。

来源：https://www.itbear.com.cn/html/2025-11/1015232.html

上一篇中国电信数字人释放：筑基产业新场景的5大技术路径 下一篇选购指南：插混车型开19万公里，电池依然保持80%以上

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。