清华破解强化学习安全悖论,14项测试基准实现全SOTA

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
新智元报道
编辑:LRST
【新智元导读】清华大学李升波教授团队提出RACS算法,通过引入「探险者」策略主动探索违规边界,破解安全强化学习的「安全性悖论」。该方法在不增加采样成本的前提下,显著提升违规样本质量与系统安全认知,实现安全与性能的双赢,刷新多项基准的SOTA成绩。
随着强化学习(RL)在虚拟世界的统治级表现,将其迁移至自动驾驶、机器人控制等真实物理系统已成为行业共识。然而,物理世界的高风险特性画出了一道不可逾越的红线——「零约束违反」。
为了守住这道红线,学界提出了多种方案:OpenAI结合拉格朗日乘子法动态权衡安全与性能,UC Berkeley提出的CPO算法利用信赖域将策略限制在可行空间内。
然而,现有方法始终面临一个核心痛点:策略难以做到严格的「零违反」。大多数算法只能将违规控制在极低水平,一旦试图追求绝对的零违规,就会遭遇巨大阻力。
清华大学李升波教授课题组于安全强化学习领域获得突破性进展,首次在理论层面揭示并证明了安全强化学习(Safe RL)中的一个反直觉现象——「安全性悖论」(Safety Paradox):策略越追求安全,反而可能越不安全。

论文链接:https://openreview.net/forum?id=BHSSV1nHvU
代码仓库:https://github.com/yangyujie-jack/Feasible-Dual-Policy-Iteration
在安全强化学习中,智能体通常依赖交互数据学习一个可行性函数(Feasibility Function),以此判断当前状态是否长期安全,从而规避危险区域。
然而,研究通过严格的理论证明揭示了一个严峻事实:
随着策略变得越来越安全,其产生的违规样本会变得极度稀疏。这直接导致可行性函数的估计误差急剧增大,进而使指导策略优化的约束函数出现偏差,最终导致策略安全性崩塌。
这就像一个从未见过悬崖的人,在行走时即便再小心翼翼,也会因为缺乏对「悬崖边缘」的确切认知,而无法精准判断危险界限究竟在哪里。越是刻意追求安全,对危险边界的认知就越模糊,最终反而导致安全防线失效。 这就是所谓的「安全性悖论」——策略陷入了一个自我挫败的死循环。

针对这一困境,团队提出了Region-wise Actor-Critic-Scenery(RACS)算法,通过引入专门收集违规样本的「探险者」策略,成功打破悖论,在权威基准Safety-Gymnasium上刷新了SOTA成绩,该工作发表于人工智能顶会ICLR 2026。
破局之道RACS算法
既然「不敢越雷池一步」会导致认知盲区,那么破解之道便是主动探险、直面危险。
研究团队提出了Region-wise Actor-Critic-Scenery(RACS)算法,创造性地引入了双策略架构:
(1)原始策略(Primal Policy):扮演「守规矩的执行者」。它负责在满足安全约束的前提下,尽可能最大化任务奖励。
(2)对偶策略(Dual Policy):扮演「无畏的探险者」。它的目标与前者相反,旨在策略性地最大化约束违反,主动触探原始策略不敢涉足的危险边界。
通过这种「左右互搏」的机制,RACS在不增加总采样成本的前提下,显著提升了关键违规样本的比例,从而让系统对「安全边界」有了清晰、精准的认知。
为了解决双策略数据混合带来的分布偏移(Distributional Shift)问题,RACS采用了重要性采样(Importance Sampling)技术进行数学修正,并约束对偶策略与原始策略间的KL散度,确保训练过程的平稳收敛。

实验结果:刷新SOTA
研究团队在安全强化学习权威基准Safety-Gymnasium上进行了广泛验证。结果表明,RACS在14项任务中的综合性能达到了State-of-the-art(SOTA)水平:


(1)安全性显著提升:RACS实现了最低的平均约束违反次数(Cost),显著优于现有的拉格朗日乘子法或信赖域方法。特别是在HalfCheetahVelocity、Walker2dVelocity等任务中,实现了严格的零约束违反。
(2)控制性能无退化:在保证安全性的同时,RACS的平均累积回报(Return)依然位居榜首,实现了安全与性能的双赢。在高维的HumanoidVelocity、复杂的PointPush(推箱子导航避障)等多项高难度任务中,安全指标与任务性能均名列前茅。
为探究性能提升的根本原因,研究团队统计了增加对偶策略后的关键指标变化:



(1)违规样本显著增加:在所有 14 项任务中,对偶策略成功采集了大量高价值的违规样本,大部分任务中的样本量提升了一个数量级。
(2)估计误差大幅降低:统计显示,可行性函数的拟合误差显著减小,尤其是「低估风险」(误差小于零)的频率大幅降低。这意味着系统不再将危险状态误判为安全,从而从根本上提升了策略的安全性。
总结与展望
该研究从理论上揭示了强化学习中的「安全性悖论」,阐明了违规样本稀疏性与可行性函数估计误差之间的内在因果。
RACS算法通过对偶策略的「对抗式」探索打破了「安全性悖论」,证明了一个深刻的道理:为了真正的安全,必须充分地了解危险。
该研究为自动驾驶、机器人等高风险场景下的强化学习落地提供了坚实的理论基础与有效的解决方案。
参考资料:
https://openreview.net/forum?id=BHSSV1nHvU
相关攻略
智通财经APP获悉,因谷歌(GOOGL US)研究人员宣传一项新的压缩技术引发市场对需求的担忧,计算机内存及存储产品股价大幅下挫,但这一冲击可能只是短期扰动,而非生存威胁。韩国交易所市场上,AI应用
新智元报道编辑:LRST【新智元导读】清华大学李升波教授团队提出RACS算法,通过引入「探险者」策略主动探索违规边界,破解安全强化学习的「安全性悖论」。该方法在不增加采样成本的前提下,显著提升违规样
【编者按】在人工智能技术浪潮席卷全球的今天,“超级智能”(Superintelligence)已从科幻叙事与理论推想,日益演变为一个严肃的学术议题与未来现实关切。这一概念自哲学与计算机科学领域萌芽,
热门专题
热门推荐
vivo浏览器清理书签有三种方法:一、书签管理界面多选删除;二、备份有用书签后清空全部再重添;三、导出HTML文件在电脑编辑后重新导入。如果您在使用 vivo 浏览器时发现书签列表
在当今数字化教学的时代,组卷网app为教师们提供了强大的教学辅助功能。其中,创建班级是利用该app开展教学活动的重要第一步。下面就详细介绍一下如何在组卷网app上创建班级。打开组卷
1 点击开始游戏;2 打开后,继续点击本地联机;3 找到房间,点击开启局域网;4 然后点击右上角的分享;5 最后找到想要邀请的好友,点击邀请,好友同意后就可以进入自己创建的房间。详
头号禁区山城钥匙怎么获取?在游戏中有许多优质的资源,而这些资源基本上都在上锁的房间里面。一旦在打开之后就可以获得金币箱,高级物资,还有稀有的武器配件,但玩家就需要先获取头号禁区山城
波波浏览器已保存密码需通过身份验证才能查看明文:一、在设置→隐私与安全→已保存的密码中验证后点击眼睛图标显示;二、在已填充登录页点击密码框右侧眼睛图标并验证后实时显示;三、确保密码





