游乐游手机版
首页/业界动态/文章详情

强化学习新突破:Sutton用经典公式解决流式学习缺陷

时间:2026-05-11 19:37
2024年底,一篇题为《流式深度强化学习终于跑通了》的论文在学术界引发了广泛关注。来自阿尔伯塔大学Mahmood团队的研究者,在论文中揭示了一个核心困境:强化学习本应具备“边交互边学习”的能力,但在深度神经网络时代,一旦移除经验回放缓冲区并将批量大小设为1,训练过程便会迅速崩溃。他们将这一现象命名为

2024年底,一篇题为《流式深度强化学习终于跑通了》的论文在学术界引发了广泛关注。来自阿尔伯塔大学Mahmood团队的研究者,在论文中揭示了一个核心困境:强化学习本应具备“边交互边学习”的能力,但在深度神经网络时代,一旦移除经验回放缓冲区并将批量大小设为1,训练过程便会迅速崩溃。他们将这一现象命名为“流式壁垒”

当时,他们提出的StreamX系列算法,通过精心设计的超参数、稀疏初始化及多种稳定化技巧,初步跨越了这一障碍。

然而,仅仅一年半后,该团队与来自Openmind研究院的合作者共同发表的新研究,提出了一个颠覆性的观点:流式壁垒的根本原因,或许并非“数据量不足”,而是“学习步长的度量单位存在偏差”

传统步长设定:为何成为流式学习的瓶颈?

设想你正在学习驾驶,练习倒车入库。教练的指令是“每次踩下油门0.1秒”。但问题在于:相同的0.1秒,在上坡与下坡、空载与满载的不同条件下,车辆实际移动的距离可能天差地别。结果可能是精准入库,也可能因误差过大而撞墙。

传统基于梯度的学习,其步长设置正面临类似困境:它规定了模型参数每次更新的“固定距离”,却无法控制这一更新对模型实际输出(如价值预测或动作选择)产生的具体影响。在批量训练模式下,成百上千个样本的梯度被平均,极端波动得以稀释。然而,在纯粹的“流式”环境中,每一步仅有一个样本,缺乏平均机制。一旦梯度方向或幅度不稳定,更新量便会剧烈震荡——时而前进过多,时而后退过猛,最终导致整个学习过程失稳崩溃。

这种“更新过冲与欠冲”的难题在强化学习中尤为突出,因为每个时间步的梯度不仅大小不一,其方向本身也处于快速变化之中。

核心理念转变:从“走多远”到“改变多少”

那么,是否存在更优的解决方案?来自Openmind研究院的Arsalan Sharifnassab与阿尔伯塔大学的Mohamed Elsayed、A. Rupam Mahmood及Richard Sutton等人在最新论文中提出了一个简洁而有力的思路:与其硬性规定参数移动的步长,不如直接设定我们希望模型输出发生多大改变,并据此反向推导出所需的步长。

这一思想并非无源之水。早在1967年,日本学者Nagumo和Noda在自适应滤波领域提出的“归一化最小均方”算法,其核心便是通过期望的输出变化来动态调整步长。不过,该算法仅适用于线性模型。

如今,研究者们将这一原理成功推广至复杂的深度强化学习场景,并将其命名为“意图更新”。其核心在于:在每次参数更新前,先明确“本次更新希望达成的目标”,然后计算出能精准实现该目标的步长。

具体而言,在价值函数学习(预测未来累积奖励)中,意图被定义为:每次更新后,当前状态的价值预测误差应缩小一个固定比例(例如5%)。在策略学习(优化决策行为)中,意图则是:当前动作的被选概率,每一步仅允许发生“适度”的变化

回到驾驶的比喻:这相当于司机每次操作前,先决定“我需要让车辆向前精确移动20厘米”,然后根据实时路况(坡度、载重)自动计算出所需的油门深度,而非机械地执行固定时长的踩踏动作并听凭结果随机波动。

图灵奖得主的持续探索:夯实强化学习基石

这篇论文的作者名单中,有一位里程碑式的人物:Richard S. Sutton——2024年图灵奖得主,被公认为“现代强化学习之父”。

Sutton在学术界的地位举足轻重。他不仅提出了时间差分学习与策略梯度算法,奠定了现代强化学习的算法基础,还与Andrew Barto合著了该领域的经典教科书。2024年,他与Barto共同荣获图灵奖,以表彰他们“为强化学习奠定了概念与算法基础”。

获奖后,Sutton并未止步,而是将奖金投入其创立的非营利研究机构——Openmind研究院,旨在支持年轻研究者在无商业化压力的环境下探索基础科学问题。本篇关于流式学习与意图更新的论文,正是该机构产出的重要成果之一。

论文第一作者Sharifnassab此前刚在ICML 2025发表了MetaOptimize框架,专注于在线自动调整学习率。这两个课题高度聚焦于同一个根本问题:如何让“步长”这一最基础的组件,自身变得更加智能与自适应。

算法实现:简洁而高效的设计

“意图更新”的数学形式相当优雅。其核心公式可概括为:步长 = “期望的输出变化量” / “梯度对输出的实际影响力度”。

在价值学习中,“实际影响力度”由梯度向量的范数衡量(反映了当前参数区域的“陡峭”程度):在陡峭区域,步长自动减小;在平缓区域,步长自动增大。从而确保每次更新对价值函数产生的“冲击”幅度基本一致。

在策略学习中,“期望变化量”与优势函数(当前动作优于平均水平的程度)成比例。同时,通过滑动平均进行归一化,确保长期来看策略更新的幅度稳定在可解释、可控的范围内。

研究者将这一核心机制与两项成熟的工程技术相结合:RMSProp风格的对角缩放(处理不同参数维度的尺度差异)和资格迹(助力奖励信号在时间步上有效传播)。

最终,他们构建了三个完整的算法:用于价值预测的Intentional TD (λ)、用于离散动作控制的Intentional Q (λ),以及用于连续控制的Intentional Policy Gradient

性能评估:流式学习媲美主流批量算法

论文在多个标准基准任务上对方法进行了全面评估,结果令人瞩目。

在MuJoCo连续控制任务(包括Ant、Humanoid、HalfCheetah等复杂仿真机器人)上,新方法Intentional AC在纯粹的流式设置下(批量大小=1,无任何经验回放缓冲区),其最终性能多次接近甚至比肩SAC算法——后者是使用大规模回放缓冲区的、当前连续控制领域的黄金标准。在计算效率上,优势更为显著:Intentional AC单次更新所需的浮点运算量,仅为SAC单次更新的约1/140

在Atari和MinAtar离散动作游戏上,Intentional Q-learning的表现与使用回放缓冲区的DQN算法相当,并且仅用同一套超参数就成功在所有任务上运行,无需针对每个游戏进行繁琐的调参。

研究者还专门验证了“意图”是否被准确达成。他们测量了实际更新量与预期更新量的比值。在禁用资格迹的简化设置下,该比值的标准差极低(0.016到0.029),99分位数均在1.07以内。这表明,在绝大多数情况下,更新确实精准地实现了“预设的改变目标”。

此外,消融实验表明,即使移除RMSProp归一化或某些辅助项,性能虽有下降但仍具竞争力,而“意图缩放”机制本身才是性能提升的首要贡献者,其他组件主要起辅助稳定作用。

挑战与未来方向

“意图更新”框架在鲁棒性上也展现出优势。当研究者逐步移除StreamX方法所依赖的各种稳定化技巧(如稀疏初始化、奖励缩放、输入归一化、LayerNorm)时,Intentional AC的性能衰减远小于原始的StreamAC。这说明,意图缩放从原理上降低了对这些外部“辅助工具”的依赖。

然而,论文也坦诚指出了当前方法的一个局限:在策略学习中,步长依赖于当前采样到的具体动作,这可能导致不同的动作在更新中被隐性地赋予不同权重,从而在理论上可能引入策略梯度方向的偏差。在Humanoid等任务中,通过测量期望更新方向的余弦相似度,研究者发现这种偏差影响甚微(接近0.96);但在Ant-v4任务中,对齐度的中位数降至0.63,表明该问题在某些场景下仍需关注。

作者指出,未来的研究应探索与动作选择无关的步长策略,使得“意图”在期望意义上也能保持无偏。这是该方向留给后续研究者的一个明确课题。

结论:迈向持续在线自适应的智能体

当前主流的大模型训练范式,依赖于对海量静态数据的批量学习与反复迭代。这套“先训练,后部署”的路线虽成效显著,但模型一旦训练完成便基本固化,难以从后续持续的实时交互中进行高效、低成本的在线更新。

流式强化学习所追求的,是一种截然不同的范式:不依赖海量经验回放,无需庞大GPU集群,让智能体能够将每一步实时经历即刻转化为参数更新,实现持续、廉价、自适应的终身学习。这无疑更贴近人类与动物在环境中“边做边学”的自然模式。

从2024年“初步跑通”的突破,到本篇论文提出的“意图更新”原则,流式深度强化学习正以前所未有的速度走向成熟。它并非旨在取代批量训练的大模型,但对于需要长期在线适应的机器人、边缘计算设备,以及任何无法承担大规模回放缓冲区与高算力负载的应用场景而言,这条技术路径正展现出越来越强的实用价值与说服力。

步长不再仅仅是一个需要反复调试的超参数,它本质上成为了AI智能体每一步“意图改变多少”的清晰承诺。当这一承诺变得可度量、可控制,整个学习过程,也就获得了前所未有的稳定性。

来源:https://36kr.com/p/3803073505369865
上一篇开源AI智能体团队协作平台Multica使用指南 下一篇北航开源端智能体自进化观测压缩框架TACO详解
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
荣耀智能生态新品:平板20全彩类纸屏,小耳钉获Hi-Res认证
业界动态 · 2026-06-01

荣耀智能生态新品:平板20全彩类纸屏,小耳钉获Hi-Res认证

就在上周,荣耀举办了一场盛大的智能新品发布会,集中展示了2026年夏季的全线新品——荣耀600系列、荣耀平板20、荣耀手表6 Plus,以及造型前卫的荣耀Earbuds耳夹式耳机Pro。我们把时间线拉回到5月25日,先来重点聊聊学生群体和职场用户最关注的两款产品:被称为“备考神器”的荣耀平板20,以

标致姜戈125复古踏板上市 配置厚道9980元
业界动态 · 2026-06-01

标致姜戈125复古踏板上市 配置厚道9980元

近日,标致摩托正式推出了全新入门级复古踏板车——Django Compact(国内市场命名为姜戈125),该车提供三个版本,起售价仅为9980元。 作为Django系列的最新成员,姜戈125的定位非常清晰:一款紧凑型城市通勤踏板车。外观方面,它继承了家族经典的复古设计语言,整体基调未变,但在诸多细节

618投影仪选购指南 500到3000元这6款值得入
业界动态 · 2026-06-01

618投影仪选购指南 500到3000元这6款值得入

如果要说提升居家幸福感的最快方式,智能投影仪无疑是首选。近年来,家庭娱乐方式不断升级,投影仪凭借大屏沉浸感和护眼优势,尤其受到租房族和年轻家庭的青睐。但面对市面上琳琅满目的投影仪型号和复杂参数,很多人陷入选择困难。其实,选购投影仪不必盲目追求高配,符合自身预算和使用场景的才是最佳选择。 2026年6

华东大厂下单万台B300 AI芯片以旧换新遇冷 老股东锁定三年
业界动态 · 2026-06-01

华东大厂下单万台B300 AI芯片以旧换新遇冷 老股东锁定三年

算力军备竞赛再升级:B300价格突破500万,华东大厂或下单超万台 算力市场的风向,正在发生转变。伴随着OpenClaw掀起的浪潮,国内Token调用量猛增,算力需求再次被点燃。此前一直由买方主导的算力市场,如今正悄然向卖方倾斜。 多位业内人士透露,市场对高性能GPU的渴求在持续升温,尤其是B300

凯迪仕携AI智能锁亮相文博会人工智能展区聚焦文化科技融合
业界动态 · 2026-06-01

凯迪仕携AI智能锁亮相文博会人工智能展区聚焦文化科技融合

5 月 21 日至 25 日,第二十二届中国(深圳)国际文化产业博览交易会在深圳国际会展中心盛大开幕。作为全国文化产业的重要展示窗口,本届文博会突出“文化与科技深度融合”主题,将人工智能、大模型、智能硬件等前沿技术置于核心位置,成为现场最受关注的关键词。观众在展区中能直观感受到文化产业数智化转型的新