首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
强化学习新突破:Sutton用经典公式解决流式学习缺陷

强化学习新突破:Sutton用经典公式解决流式学习缺陷

热心网友
99
转载
2026-05-11

2024年底,一篇题为《流式深度强化学习终于跑通了》的论文在学术界引发了广泛关注。来自阿尔伯塔大学Mahmood团队的研究者,在论文中揭示了一个核心困境:强化学习本应具备“边交互边学习”的能力,但在深度神经网络时代,一旦移除经验回放缓冲区并将批量大小设为1,训练过程便会迅速崩溃。他们将这一现象命名为“流式壁垒”

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

当时,他们提出的StreamX系列算法,通过精心设计的超参数、稀疏初始化及多种稳定化技巧,初步跨越了这一障碍。

然而,仅仅一年半后,该团队与来自Openmind研究院的合作者共同发表的新研究,提出了一个颠覆性的观点:流式壁垒的根本原因,或许并非“数据量不足”,而是“学习步长的度量单位存在偏差”

传统步长设定:为何成为流式学习的瓶颈?

设想你正在学习驾驶,练习倒车入库。教练的指令是“每次踩下油门0.1秒”。但问题在于:相同的0.1秒,在上坡与下坡、空载与满载的不同条件下,车辆实际移动的距离可能天差地别。结果可能是精准入库,也可能因误差过大而撞墙。

传统基于梯度的学习,其步长设置正面临类似困境:它规定了模型参数每次更新的“固定距离”,却无法控制这一更新对模型实际输出(如价值预测或动作选择)产生的具体影响。在批量训练模式下,成百上千个样本的梯度被平均,极端波动得以稀释。然而,在纯粹的“流式”环境中,每一步仅有一个样本,缺乏平均机制。一旦梯度方向或幅度不稳定,更新量便会剧烈震荡——时而前进过多,时而后退过猛,最终导致整个学习过程失稳崩溃。

这种“更新过冲与欠冲”的难题在强化学习中尤为突出,因为每个时间步的梯度不仅大小不一,其方向本身也处于快速变化之中。

核心理念转变:从“走多远”到“改变多少”

那么,是否存在更优的解决方案?来自Openmind研究院的Arsalan Sharifnassab与阿尔伯塔大学的Mohamed Elsayed、A. Rupam Mahmood及Richard Sutton等人在最新论文中提出了一个简洁而有力的思路:与其硬性规定参数移动的步长,不如直接设定我们希望模型输出发生多大改变,并据此反向推导出所需的步长。

这一思想并非无源之水。早在1967年,日本学者Nagumo和Noda在自适应滤波领域提出的“归一化最小均方”算法,其核心便是通过期望的输出变化来动态调整步长。不过,该算法仅适用于线性模型。

如今,研究者们将这一原理成功推广至复杂的深度强化学习场景,并将其命名为“意图更新”。其核心在于:在每次参数更新前,先明确“本次更新希望达成的目标”,然后计算出能精准实现该目标的步长。

具体而言,在价值函数学习(预测未来累积奖励)中,意图被定义为:每次更新后,当前状态的价值预测误差应缩小一个固定比例(例如5%)。在策略学习(优化决策行为)中,意图则是:当前动作的被选概率,每一步仅允许发生“适度”的变化

回到驾驶的比喻:这相当于司机每次操作前,先决定“我需要让车辆向前精确移动20厘米”,然后根据实时路况(坡度、载重)自动计算出所需的油门深度,而非机械地执行固定时长的踩踏动作并听凭结果随机波动。

图灵奖得主的持续探索:夯实强化学习基石

这篇论文的作者名单中,有一位里程碑式的人物:Richard S. Sutton——2024年图灵奖得主,被公认为“现代强化学习之父”。

Sutton在学术界的地位举足轻重。他不仅提出了时间差分学习与策略梯度算法,奠定了现代强化学习的算法基础,还与Andrew Barto合著了该领域的经典教科书。2024年,他与Barto共同荣获图灵奖,以表彰他们“为强化学习奠定了概念与算法基础”。

获奖后,Sutton并未止步,而是将奖金投入其创立的非营利研究机构——Openmind研究院,旨在支持年轻研究者在无商业化压力的环境下探索基础科学问题。本篇关于流式学习与意图更新的论文,正是该机构产出的重要成果之一。

论文第一作者Sharifnassab此前刚在ICML 2025发表了MetaOptimize框架,专注于在线自动调整学习率。这两个课题高度聚焦于同一个根本问题:如何让“步长”这一最基础的组件,自身变得更加智能与自适应。

算法实现:简洁而高效的设计

“意图更新”的数学形式相当优雅。其核心公式可概括为:步长 = “期望的输出变化量” / “梯度对输出的实际影响力度”。

在价值学习中,“实际影响力度”由梯度向量的范数衡量(反映了当前参数区域的“陡峭”程度):在陡峭区域,步长自动减小;在平缓区域,步长自动增大。从而确保每次更新对价值函数产生的“冲击”幅度基本一致。

在策略学习中,“期望变化量”与优势函数(当前动作优于平均水平的程度)成比例。同时,通过滑动平均进行归一化,确保长期来看策略更新的幅度稳定在可解释、可控的范围内。

研究者将这一核心机制与两项成熟的工程技术相结合:RMSProp风格的对角缩放(处理不同参数维度的尺度差异)和资格迹(助力奖励信号在时间步上有效传播)。

最终,他们构建了三个完整的算法:用于价值预测的Intentional TD (λ)、用于离散动作控制的Intentional Q (λ),以及用于连续控制的Intentional Policy Gradient

性能评估:流式学习媲美主流批量算法

论文在多个标准基准任务上对方法进行了全面评估,结果令人瞩目。

在MuJoCo连续控制任务(包括Ant、Humanoid、HalfCheetah等复杂仿真机器人)上,新方法Intentional AC在纯粹的流式设置下(批量大小=1,无任何经验回放缓冲区),其最终性能多次接近甚至比肩SAC算法——后者是使用大规模回放缓冲区的、当前连续控制领域的黄金标准。在计算效率上,优势更为显著:Intentional AC单次更新所需的浮点运算量,仅为SAC单次更新的约1/140

在Atari和MinAtar离散动作游戏上,Intentional Q-learning的表现与使用回放缓冲区的DQN算法相当,并且仅用同一套超参数就成功在所有任务上运行,无需针对每个游戏进行繁琐的调参。

研究者还专门验证了“意图”是否被准确达成。他们测量了实际更新量与预期更新量的比值。在禁用资格迹的简化设置下,该比值的标准差极低(0.016到0.029),99分位数均在1.07以内。这表明,在绝大多数情况下,更新确实精准地实现了“预设的改变目标”。

此外,消融实验表明,即使移除RMSProp归一化或某些辅助项,性能虽有下降但仍具竞争力,而“意图缩放”机制本身才是性能提升的首要贡献者,其他组件主要起辅助稳定作用。

挑战与未来方向

“意图更新”框架在鲁棒性上也展现出优势。当研究者逐步移除StreamX方法所依赖的各种稳定化技巧(如稀疏初始化、奖励缩放、输入归一化、LayerNorm)时,Intentional AC的性能衰减远小于原始的StreamAC。这说明,意图缩放从原理上降低了对这些外部“辅助工具”的依赖。

然而,论文也坦诚指出了当前方法的一个局限:在策略学习中,步长依赖于当前采样到的具体动作,这可能导致不同的动作在更新中被隐性地赋予不同权重,从而在理论上可能引入策略梯度方向的偏差。在Humanoid等任务中,通过测量期望更新方向的余弦相似度,研究者发现这种偏差影响甚微(接近0.96);但在Ant-v4任务中,对齐度的中位数降至0.63,表明该问题在某些场景下仍需关注。

作者指出,未来的研究应探索与动作选择无关的步长策略,使得“意图”在期望意义上也能保持无偏。这是该方向留给后续研究者的一个明确课题。

结论:迈向持续在线自适应的智能体

当前主流的大模型训练范式,依赖于对海量静态数据的批量学习与反复迭代。这套“先训练,后部署”的路线虽成效显著,但模型一旦训练完成便基本固化,难以从后续持续的实时交互中进行高效、低成本的在线更新。

流式强化学习所追求的,是一种截然不同的范式:不依赖海量经验回放,无需庞大GPU集群,让智能体能够将每一步实时经历即刻转化为参数更新,实现持续、廉价、自适应的终身学习。这无疑更贴近人类与动物在环境中“边做边学”的自然模式。

从2024年“初步跑通”的突破,到本篇论文提出的“意图更新”原则,流式深度强化学习正以前所未有的速度走向成熟。它并非旨在取代批量训练的大模型,但对于需要长期在线适应的机器人、边缘计算设备,以及任何无法承担大规模回放缓冲区与高算力负载的应用场景而言,这条技术路径正展现出越来越强的实用价值与说服力。

步长不再仅仅是一个需要反复调试的超参数,它本质上成为了AI智能体每一步“意图改变多少”的清晰承诺。当这一承诺变得可度量、可控制,整个学习过程,也就获得了前所未有的稳定性。

来源:https://36kr.com/p/3803073505369865
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

强化学习新突破:Sutton用经典公式解决流式学习缺陷
业界动态
强化学习新突破:Sutton用经典公式解决流式学习缺陷

2024年底,一篇题为《流式深度强化学习终于跑通了》的论文在学术界引发了广泛关注。来自阿尔伯塔大学Mahmood团队的研究者,在论文中揭示了一个核心困境:强化学习本应具备“边交互边学习”的能力,但在深度神经网络时代,一旦移除经验回放缓冲区并将批量大小设为1,训练过程便会迅速崩溃。他们将这一现象命名为

热心网友
05.11
深度学习与强化学习和多模态学习有什么区别
业界动态
深度学习与强化学习和多模态学习有什么区别

深度学习、强化学习与多模态学习:三种AI核心技术的全景对比 在人工智能这片广阔的技术版图上,深度学习、强化学习和多模态学习构成了鼎立之势。它们各自定义了不同的范式,解决着不同层面的问题,但彼此之间又存在着微妙的联系与互补。今天,我们就来拆解一下这三种技术的核心定义、独特气质以及它们大展拳脚的应用疆域

热心网友
04.28
强化学习(RL)大模型是什么
业界动态
强化学习(RL)大模型是什么

强化学习大模型:当“AI大脑”学会在复杂世界中做决策 说起当下机器学习领域的硬核玩家,强化学习大模型绝对算一个。它本质上,是将那个让AlphaGo一战成名的强化学习,与如今叱咤风云的大规模模型做了个“强强联合”,专门用来攻克那些需要连续做判断、做决策的复杂难题。 定义与原理:不只是“试错”,更是“策

热心网友
04.26
强化学习人工智能技术是什么?
业界动态
强化学习人工智能技术是什么?

强化学习:从试错博弈中寻找最优解 想象一下,给一个智能程序一个目标,却不教它具体怎么做,只让它自己一遍遍尝试,从每次行动的“对”与“错”中自己摸索规律,最终找到实现目标的最佳路径。这就是强化学习的核心魅力所在。 简单说,强化学习是一种让智能体通过与环境持续互动、不断试错来进行自我升级的人工智能方法。

热心网友
04.25
基于深度强化学习的Agent 智能体
业界动态
基于深度强化学习的Agent 智能体

基于深度强化学习的Agent智能体 当我们谈论当前人工智能的前沿时,“基于深度强化学习的Agent智能体”绝对是一个绕不开的核心概念。那么,它究竟是什么?简单说,它是将两项顶尖技术——深度学习和强化学习——进行深度融合的产物。 深度学习的核心作用 先说深度学习。这项技术堪称现代AI的基石,其核心在于

热心网友
04.25

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

PUBG赏金行动5月13日上线玩法解析与体验分享
游戏攻略
PUBG赏金行动5月13日上线玩法解析与体验分享

PUBG全新限时合作模式“赏金行动”将于5月13日正式上线!本次更新是PUBG与经典合作劫案游戏《收获日》的开发商Starbreeze深度联动,共同打造的全新PvE合作玩法。模式开放时间将持续至6月10日,为玩家提供了充足的时间来深入体验这场独特的团队劫案冒险。 该模式的核心玩法是“团队合作劫案”。

热心网友
05.11
小红书启动新一轮期权回购计划在职离职员工价格不同
科技数码
小红书启动新一轮期权回购计划在职离职员工价格不同

小红书近期启动今年首次期权回购,在职员工每股25 5美元,离职员工每股21美元。回购价较去年3月上涨2 2倍,为去年4月以来第三次回购。公司期权授予价已调至每股30美元,潜在收益显著。近期有基金以高估值出售老股,市场看好其利润增长与估值支撑。

热心网友
05.11
字节跳动推出多闪挑战微信社交霸主地位
科技数码
字节跳动推出多闪挑战微信社交霸主地位

字节跳动旗下社交应用“多闪”与“可颂”月活显著增长。公司调整策略,依托抖音生态,以兴趣社交连接用户,通过游戏化功能增强粘性,并瞄准年轻群体对轻松社交的需求,尝试以兴趣链部分替代传统关系链,旨在盘活生态内熟人关系,探索差异化路径。

热心网友
05.11
荣耀600系列5月发布 肖战代言影像旗舰点亮四城地标
科技数码
荣耀600系列5月发布 肖战代言影像旗舰点亮四城地标

荣耀600系列将于5月发布,由代言人肖战助阵,并通过北京、上海等四城地标大屏进行线下预热。国际版与国行版设计风格各异,后者后盖融入“幸运星”图案。新系列搭载骁龙8至尊版平台,配备2亿像素主摄与3 5倍长焦镜头,并新增AI物理按键以提升智能交互体验。

热心网友
05.11
摩根大通看好比亚迪三大亮点 H股目标价120港元评级增持
科技数码
摩根大通看好比亚迪三大亮点 H股目标价120港元评级增持

摩根大通报告指出,比亚迪电话会议透露三大积极信号:国内销量指引达350万至400万辆,高于市场预期;海外需求强劲,150万辆目标或可上调;搭载新技术的车型将推动产品结构升级,显著提升平均售价与盈利能力。基于此,摩根大通维持“增持”评级,H股目标价120港元。

热心网友
05.11