伯克利研究揭示持续学习优势 OpenAI面临新挑战

首页

热心网友

转载

2026-05-19

AI工程师Dan McAteer最近有个大胆的预言：2026年，持续学习（continual learning）将迎来爆发。这个判断的底气，来自伯克利等机构刚刚发布的一项突破性研究。

他们提出的FST框架，通过一种“快慢分层”的机制，让大模型在连续学习多个任务时，既能快速适应新知识，又能牢牢记住旧本领，从而有望解决困扰AI领域长达三十年的“灾难性遗忘”死局。有观点认为，这一突破的意义，可能远超当前火热的推理能力变革。

当“推理天才”遭遇“学习失忆”

过去两年，整个AI圈的叙事几乎被“推理”一词垄断。从OpenAI的o系列到DeepSeek的R1，再到Claude的思考模式，头部实验室的产品形态各异，但内核高度一致：提升模型的深度推理能力，被视为通往更高级智能的必经之路。

这个共识如此之强，以至于在今天，如果一个项目不能讲清楚自己在“推理”上的布局，恐怕连投资人的第一轮门槛都迈不过去。

然而，我们似乎忘了追问一个根本问题：什么是真正的智能？

不妨打个比方：一个学生，能在高考考场上对任何一道题目进行无懈可击的深度推理，逻辑链条完美。但前提是，他的知识库永远停留在16岁初中毕业的那一刻，此后再未更新。你会将这种能力称为“智能”吗？

这并非修辞，而是当前最先进大语言模型的真实写照。无论是GPT-5、Claude还是Gemini，它们在每次对话开始时，都像一个“昨日毕业、今日醒来”的天才——可以在单次会话中越挖越深，但只要对话框关闭，记忆便瞬间清空，回归到出厂设置般的状态。

它们就像数字世界的西西弗斯，不断将“推理”的巨石推向山顶，但每一次起点都是山脚，永无积累。

一堵三十年未被推倒的墙

为什么模型无法从与你的对话中学习？为什么昨天教它的东西，今天它就忘得一干二净？

这背后是AI领域一个长达三十年的经典难题：持续学习。其目标是让模型像人类一样，能够“温故而知新”，在不断吸收新知识的同时，不遗忘旧技能。然而，这条路上横亘着三个顽固的“老对手”：

首因偏差：模型早期学到的数据会顽固地主导其后续的学习策略，形成难以扭转的思维定式。
损失函数弹性：模型每学会一个新任务，其神经网络的“可塑性”就降低一分，最终会彻底丧失学习新事物的能力。
灾难性遗忘：这是最著名的问题。当模型学习新任务时，旧任务的能力会突然崩塌。让它学数学，它可能就忘了怎么写代码。

这些问题在小模型时代就已存在。进入大模型时代，它们并未消失，只是被一种“鸵鸟策略”暂时掩盖了：我们干脆放弃了让模型在部署后持续学习，只在训练阶段一次性灌注海量知识，之后便将其“冻结”。

因此，我们今天使用的所有大模型，本质上都是“冻结的天才”——强大，但活在永恒的当下；聪明，却无法变得更聪明。

破局思路：向大脑学习“快慢分工”

最近，由Databricks、伯克利和经典机器学习学派研究者组成的豪华团队，在这堵墙上撬开了一道缝隙。这项研究阵容堪称梦幻，包括Databricks联合创始人兼Apache Spark作者Matei Zaharia、伯克利教授及vLLM作者之一Joseph Gonzalez，以及机器学习元老级人物Inderjit Dhillon等。