伯克利研究揭示持续学习优势 OpenAI面临挑战

时间：2026-05-19 20:48

伯克利等机构的研究提出FST框架，通过快慢权重分工实现持续学习，有效克服灾难性遗忘。实验表明，该框架使模型能连续学习多个任务，而传统方法则易丧失可塑性。这挑战了当前AI行业过度聚焦推理能力的现状，为持续学习的工程化探索开辟了新方向。

AI工程师Dan McAteer近期提出了一个颇具前瞻性的预言：到2026年，持续学习（Continual Learning）技术有望迎来关键性突破。其核心机制在于，通过一种创新的分层学习架构——让模型通过记忆与上下文进行快速适应，同时让模型权重进行缓慢而稳定的调整——模型得以长期保持学习的可塑性，从而有效规避灾难性遗忘问题。有分析指出，这一进展对于人工智能发展的深远意义，或许将超越当前备受瞩目的推理能力优化。

这一预言的依据，源于近期由伯克利等顶尖机构联合进行的一项AI实验。研究人员让同一个大语言模型连续学习三个截然不同的任务：首先是需要进行多跳检索的事实核查任务HoVer，其次是代码生成与推理任务CodeIO，最后是物理问题求解任务Physics。每个任务仅训练200步便立即切换，以此高度模拟现实世界中任务流不断变化的动态学习环境。

实验结果显示，当采用当前主流的强化学习范式进行训练时，模型能够在第一个HoVer任务上顺利掌握。但切换到第二个CodeIO任务时，学习进程便完全停滞，模型似乎丧失了学习新任务的能力。

然而，当研究人员启用其提出的全新框架FST（Fast-Slow Training，快慢训练）后，同一个模型却成功连续攻克三关，掌握了所有任务。

这一对比结果或许揭示了一个关键问题：过去两年整个AI行业重点投入的某个主流技术方向，其能力天花板可能首次显现。

标题：Learning, Fast and Slow: Towards LLMs That Adapt Continually预印本：https://arxiv.org/abs/2605.12484项目主页：https://gepa-ai.github.io/gepa/blog/2026/05/11/learning-fast-and-slow/

这引发了行业深思：如果我们集体押注的技术路径，正在将模型塑造成“仅擅长解决固定题型却无法学习新知识的专家”，那么我们最终追求的究竟是具备成长性的人工智能，还是一个日益精巧的“模仿者”？

「推理」成为AI发展的核心叙事

回顾过去两年的AI发展轨迹，几乎所有头部实验室的研究重心都高度聚焦于一点：提升模型的“思考”深度。无论是OpenAI的o系列模型、DeepSeek的R1，还是Claude的思考模式，其产品形态虽有差异，但内核都指向同一个行业共识——推理能力被视为AI迈向更高阶智能的关键钥匙。

这一共识的影响力极为深远。如今在一线投资机构面前，如果项目方无法清晰阐述自身在“AI推理”领域的布局与进展，恐怕难以获得深入洽谈的机会。其影响力之大，甚至让我们几乎忽略了一个更为根本的追问：我们所热衷讨论的“推理”，其本质究竟是什么？

我们可以做一个类比：一个学生能够对任何一道高考题进行极其深刻的思考，推理链条严谨，逻辑结构完美。但存在一个前提——他的知识体系自初中毕业后便完全停滞，所有认知都永久定格在16岁的状态。

那么，我们是否还愿意将这种静态的能力称为真正的“智能”？

这个比喻并非单纯的修辞，它恰恰映射了当前最先进大语言模型的真实困境。无论是GPT-5、Claude还是Gemini，所有主流模型在每次开启新对话时，都如同一个记忆被重置的“天才”。它们可以在单次会话中对特定问题进行深度推理，但只要会话结束，所有临时形成的“记忆”便被清空，瞬间回归到初始的“出厂设置”。这好比在推理的山峰上不断攀爬的数字西西弗斯——每次攀登都能到达新的高度，但每次起点都重回山脚。

问题在于，为何我们长期以来对此习以为常，甚至未曾察觉其局限性？

在AI历史上探索了30年的难题，让行业望而却步

为什么GPT无法从与你的对话中持续学习？为什么昨天教授给它的知识，今天在新的会话中便消失无踪？这背后是AI研究领域一道矗立了三十年、至今未被完全攻克的技术高墙。

这个领域即“持续学习”（Continual Learning），旨在让模型能够像人类一样，持续地学习新知识并巩固旧知识，实现“温故而知新”。然而，自1990年代起，相关研究便持续面临三大经典挑战：

首先是“首因偏差”，即模型早期学习的数据会对其最终策略产生顽固的主导影响，早期形成的模式会深刻制约后续所有的学习过程。

其次是“可塑性丧失”，即模型的学习弹性会随着任务数量的增加而衰减。每掌握一个新任务，其适应和学习新事物的内在能力就会削弱一分，直至达到某个临界点后完全丧失学习能力。

最后是最为著名的“灾难性遗忘”。当试图让模型学习一个新任务时，它先前已掌握的能力可能会突然崩溃。例如，教它数学解题后，它可能忘记了如何编写代码；转而教它编程，它又可能丧失流畅对话的能力。

这三个问题在小模型时代就已存在。进入大模型时代，它们并未消失或减弱，只是被一种“捷径”策略所掩盖：行业选择放弃让模型在部署后“持续学习”，转而只在训练阶段一次性注入海量数据，之后便将模型参数“冻结”。因此，我们今天使用的所有大语言模型，本质上都是“被冻结的智能体”——它们聪明，但无法变得更聪明；强大，却困在一个没有记忆延续的永恒当下。

这正是为什么在大模型时代，持续学习一直是一个“愿景美好但实践艰难”的议题。许多尝试者都在这堵高墙前折戟。

然而最近，这堵墙似乎被一组研究者推开了一道缝隙。他们所做的关键创新，并非发明一个极度复杂的全新算法，而是进行了一次更为根本的“职能重构”——重新设计学习机制的分工。

仿生大脑：让AI实现快慢分层学习

这项重磅研究汇聚了Databricks的工程实力、伯克利的系统思维以及经典机器学习学派的智慧。其作者阵容堪称豪华，包括Databricks联合创始人兼Apache Spark作者Matei Zaharia、伯克利教授及vLLM作者之一Joseph Gonzalez、UT Austin与Google的机器学习元老Inderjit Dhillon，以及多位伯克利的博士研究员。

当这三股顶尖力量共同聚焦于持续学习这一方向时，其产出的价值便值得高度重视。他们提出的框架名为FST（快慢训练），其核心思想却异常简洁：不要让同一组模型参数同时承担两个相互冲突的职能。

在传统的强化学习训练中，模型仅有一组参数。这组参数既要负责“快速适应当前任务的特殊需求”，又要承担“保留通用的、可迁移的推理能力”。这两者在本质上是矛盾的：前者要求参数快速变化，后者则要求参数保持稳定。

FST的解决方案是，将这两项职能分配给两套不同的“权重”。一套是“快权重”，负责通过上下文学习进行快速、灵活的短期适应；另一套是“慢权重”，负责通过缓慢的调整来沉淀长期、稳定的知识。两者采用交替更新的机制——定期使用强化学习微调慢权重，同时利用一个名为GEPA的提示优化器来自动演化快权重。

有趣的是，人类大脑的学习机制与此高度相似。

在项目博客中，GEPA团队直接引用了神经科学中的“互补学习系统”理论。该理论指出，大脑的海马体类似于“快权重”，它能在短时间内记住诸如会议细节等具体信息；而大脑的新皮层则类似于“慢权重”，它需要数月甚至数年的时间，将那些真正有价值的信息缓慢地整合进长期认知结构。

新的记忆从未被直接写入大脑的长期存储区。它们首先在海马体中“临时存储”，在睡眠中被反复“重播”和巩固，最终只有极少数精华部分被缓慢渗透进新皮层——其余大部分则被自然遗忘。FST框架首次让大模型拥有了这种仿生的、分层的记忆与学习结构。

实验数据也充分证明了其有效性。

在CodeIO任务上，FST仅用了传统强化学习三分之一训练步数就达到了同等性能，数据效率提升了3倍。在达到相同准确率的情况下，FST训练出的模型与基础模型之间的KL散度（用于衡量分布差异）比强化学习模型低70%，这意味着“知识遗忘”现象减少了70%。

最关键的是可塑性测试：在完成数学任务训练后，再次训练HoVer-hard任务时，经传统强化学习训练过的模型几乎完全丧失了学习新任务的能力（可塑性坍塌至接近零），而经FST训练过的模型，其可塑性几乎恢复到了基础模型的水平，能够继续高效学习。

这是一种性能上的数量级提升。当然，FST并非一个完美的终极算法。其中的GEPA和CISPO组件可以被其他提示优化器和强化学习算法替代，其工程实现也仍处于相对早期的阶段。但这项工作的真正重要性，或许不在于FST这个具体方法本身能否成为最终解决方案，而在于它提出的“快慢分工”作为一种新的AI训练范式，第一次让持续学习从一个美好的理论构想，转变为一个可被工程化探索的清晰技术路径。

尚未形成的行业共识

必须客观认识到，关于持续学习的技术共识正在酝酿之中，但远未定型。这是当前最真实的市场与技术状态。

业界领袖们给出的时间预测也各不相同。OpenAI前首席科学家Ilya Sutskever认为，超级智能应被重新定义为“持续学习器”，而非一个静态的AGI产品。他估算，实现真正的持续学习可能还需要5到20年时间。Ilya的预测一贯比行业共识更为保守，但其过往的保守判断事后常被证明更具前瞻性。5到20年这个区间本身意味着，即便是他也承认这个问题终将被攻克，分歧主要在于实现的时间表。

而前特斯拉AI总监、OpenAI创始成员Andrej Karpathy的看法则更为审慎。在他看来，持续学习确实是一个真实存在的挑战，但用现有的技术路径去解决可能尚不充分。他的疑虑更多集中在工程实践层面，而非否定方向本身。

无论如何，技术变革的齿轮已经开始转动。如果说以深度推理为核心的时代在2024年开启，并可能在2026年达到一个阶段性的顶峰；那么，以持续学习为标志的AI新时代，很可能就在2026年前后拉开序幕。下一轮人工智能技术竞赛的浪潮，不会等到2027年才到来。

参考资料：

https://arxiv.org/pdf/2605.12484

https://gepa-ai.github.io/gepa/blog/2026/05/11/learning-fast-and-slow/

https://x.com/daniel_mac8/status/2055975372345274519

来源：https://36kr.com/p/3815882289192713

OpenAI