首页 游戏 软件 资讯 排行榜 专题
首页
AI
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

热心网友
50
转载
2026-04-07

面对复杂连续任务的长程规划,现有的生成式离线强化学习方法往往会暴露短板。

它们生成的轨迹经常陷入局部合理但全局偏航的窘境。

它们太关注眼前的每一步,却忘了最终的目的地。



针对这一痛点,厦门大学和香港科技大学提出一种名为MAGE(魔法师,Multi-scale Autoregressive Generation)的离线强化学习新算法。

MAGE与现有序列生成方法不同,MAGE采用自顶向下的“由粗到细”生成策略,先建模轨迹的宏观规划,再逐步细化微观细节。

MAGE的核心思路非常符合人类的直觉:“自顶向下、由粗到细”。

这就好比画一幅素描,你不会一上来就描绘眼睛的睫毛,而是先画出整体的身体轮廓(宏观规划),再逐步细化五官和表情

(微观动作)



△MAGE的思考过程

从一场”迷宫寻宝“揭示AI规划的盲区

为了直观展示现有模型的缺陷,研究团队设计了一个迷宫吃金币小实验。智能体需要从随机起点出发,依靠对环境的长程空间理解,先吃银币,再吃金币,最后抵达终点。



△各个算法在迷宫环境的表现

然而,面对这种需要全局规划的场景,现有的模型纷纷暴露了缺陷。

Decision Transformer受限于单向自回归特性带来的全局上下文缺失,它在长程规划中完全迷失方向,最终连终点都未能抵达。Decision Diffuser则由于扩散模型固有的局部生成偏差,生成的轨迹往往只能保证局部合理;虽然智能体抵达了终点,却遗漏了关键的一枚金币,全局连贯性较差。Hierarchical Diffuser虽然尝试通过分层结构建模全局轨迹,但由于其固定的双层结构过于僵硬高低层策略之间缺乏有效协同,生成的轨迹甚至出现了物理违规的“穿墙”现象,全局规划与局部动作严重脱节。

相比之下,MAGE则通过多尺度“从粗到细”的生成架构成功完成了任务。它首先在最粗的时间尺度上勾勒出包含所有关键节点的宏观全局轮廓,随后利用多尺度Transformer在更细的时间尺度上逐层细化,顺利规划出完整的路径。

MAGE的核心思路:从画大纲到扣细节

MAGE采用“自顶向下、由粗到细”的生成方式。MAGE包含两大核心模块,并辅以精确的控制机制:



△MAGE的架构图

MTAE多尺度轨迹自编码器:MAGE将长序列轨迹转化为从粗到细的多尺度离散Token。粗尺度的Token负责掌控全局长程结构,最细尺度的Token则详细建模短期的动态细节。

多尺度条件引导自回归生成:模型使用Transformer序列化地生成这些多尺度Token。在生成每层时,都会严格以“目标回报”和“初始状态”作为条件进行约束,确保智能体的每一步都在朝着最终目标前进。

条件引导细化与动作决策:因为把连续世界变成离散Token会丢失信息,普通的生成过程容易让轨迹起点偏离现实。为此,MAGE在解码器中集成了轻量级的适配器(adapter)模块,并引入了条件引导损失函数Lcond,强制解码出的初始状态与真实环境是精确对齐的。最后,通过潜在逆动力学模型决定最终的动作。

实验表现:长序列任务全面超越,推理速度满足实时控制

研究团队在包含Adroit、Franka Kitchen、AntMaze等5个离线RL基准测试中,将MAGE与15种具有代表性的基线算法进行了广泛的评估。

多任务表现出色



在极具挑战的高维连续控制Adroit机械臂任务中,面对极其稀疏的奖励,MAGE实现了显著的性能提升,大幅优于对比方法。在强调子目标执行顺序的Franka Kitchen组合任务中,MAGE凭借捕获全局结构和局部细节的能力,以相当大的优势超越了所有竞争算法。



在迷宫导航任务中,MAGE在所有数据集上均取得了最佳性能,证明了其处理长序列导航任务的卓越能力。

极高的推理效率与部署潜力



MAGE在保持高性能的同时,实现了出色的计算效率平衡。实验数据表明,MAGE的运行速度比Hierarchical Diffuser快约50倍,比Decision Diffuser快80倍。其每步推理时间保持在27毫秒,完美满足了真实机器人控制所要求的20 Hz实时运行门槛。

结语

MAGE成功地将多尺度轨迹建模与条件引导相结合,通过“从粗到细”的自回归框架生成连贯且可控的高回报轨迹。当有一天,机器人不再需要人类一口一口地“喂”奖励,而是能够自主审视全局,制定长远计划并流畅执行时,也许具身智能的下一个奇点就真正到来了。

论文链接:
https://arxiv.org/abs/2602.23770
开源代码:
https://github.com/xmu-rl-3dv/MAGE
实验室主页:
https://asc.xmu.edu.cn/

作者介绍:
本文第一作者来自厦门大学空间感知与计算实验室(ASC Lab)2024级硕士生林晨兴、2025级硕士生高鑫辉,通讯作者为厦门大学沈思淇副教授,并由张海鹏、李欣然(香港科技大学)、王海涛、梅松竹副研究员、刘伟权副教授(集美大学)、王程教授共同合作完成。研究团队长期聚焦于强化学习,多智能体系统以及大模型智能体。

来源:https://www.163.com/dy/article/KPR8PN0L0511DSSR.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

阿里官方揭秘欢乐马项目源自ATH郑波团队
AI
阿里官方揭秘欢乐马项目源自ATH郑波团队

周二晚间,AI领域迎来了一则重磅消息。在权威AI评测平台Artificial Analysis的榜单上,一个名为「HappyHorse-1 0」的神秘模型异军突起,一举登顶视频生成能力排行榜,引发了业界的广泛关注与热议。 这一成绩极具含金量。无论是文本生成视频,还是图像生成视频,HappyHorse

热心网友
05.19
世界模型AI直播预约开启引爆人工智能新浪潮
AI
世界模型AI直播预约开启引爆人工智能新浪潮

当AI开始学会“脑补”物理世界的运行规律,并尝试模拟一个动态变化的真实环境时,我们距离那个传说中的通用人工智能(AGI)究竟还有多远? 进入2026年以来,“世界模型”毫无悬念地成为了科技圈最炙手可热的核心议题。它标志着一个关键的范式转变:人工智能正从被动地“感知当下”,迈向主动地对时空与动态变化进

热心网友
05.19
世界模型第二期直播预约AI技术前沿与应用解析
AI
世界模型第二期直播预约AI技术前沿与应用解析

上周三关于“世界模型”的线上沙龙反响空前热烈,这充分表明,从被动感知迈向主动推演,这条被视为实现通用人工智能(AGI)的核心技术路径,正深度吸引着整个AI行业的关注。鉴于持续高涨的讨论热度,我们决定加开一场深度分享会。 那么,这条充满潜力却又极具挑战性的前沿赛道,目前进展到了何种阶段?顶尖的研究者们

热心网友
05.19
许哲诚计算性设计展演评析:数字逻辑与物质建构的生成境域
科技数码
许哲诚计算性设计展演评析:数字逻辑与物质建构的生成境域

数字逻辑与物质建构的深度对话 ——评许哲诚“境域·生成”计算性设计展演 □ 丁雅力(江苏省美术馆策展人) 当代设计与造物的核心范式,正经历着由计算性设计带来的深刻变革。2026年3月20日,南京艺术学院教师许哲诚于南京莫玄空间呈现的“境域·生成”个人专场展演,正是这一前沿趋势的集中体现。本次展览超越

热心网友
05.18
具身智能研发框架Dexbotic重塑机器人开发流程
AI
具身智能研发框架Dexbotic重塑机器人开发流程

近日,开源具身智能原生框架Dexbotic宣布正式支持以RLinf作为其分布式强化学习后端。对具身智能开发者而言,这不仅是一次普通的工程适配,更意味着VLA模型研发中长期存在的「SFT与RL割裂」问题,正在被真正打通。 这是一种典型的「乐高式协作」:双方不强行Fork、不粗暴揉合代码,而是保持清晰边

热心网友
05.13

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Mac Studio M5性能深度解析 五大关键信息助你全面了解
iphone
Mac Studio M5性能深度解析 五大关键信息助你全面了解

苹果MacStudio库存见底,预示新款即将发布。外观预计延续经典紧凑设计,接口布局不变。核心升级为M5Max和M5Ultra芯片,性能大幅提升,但内存供应可能受限。固态硬盘速度有望翻倍。作为苹果专业桌面新旗舰,其起售价可能小幅上调,WWDC大会可能是发布窗口。

热心网友
05.20
尼克尔Z DX 24mm f/1.7镜头 适合C画幅人文扫街售1899元
业界动态
尼克尔Z DX 24mm f/1.7镜头 适合C画幅人文扫街售1899元

对于使用尼康Z卡口APS-C画幅(DX格式)相机(如Z fc、Z30、Z50)的摄影爱好者而言,在套机镜头之外选择一支定焦镜头,是提升创作自由度和画面质量的关键一步。尼克尔 Z DX 24mm f 1 7正是这样一款专为轻量化与大光圈设计的定焦镜头,目前京东售价1899元,为追求便携与画质平衡的用户

热心网友
05.20
彭军直言L3自动驾驶本质仍是L2,现有分级体系亟待重构
业界动态
彭军直言L3自动驾驶本质仍是L2,现有分级体系亟待重构

自动驾驶技术的分级标准正面临行业内部的深度反思与重构。在2026北京车展上,小马智行联合创始人兼CEO彭军发表的观点,将行业关注的焦点从技术参数转向了更为根本的责任归属议题。 彭军明确指出,当前广泛采用的L1至L5自动驾驶分级体系已显得“极其无厘头”。他认为,这些层级划分并非衡量自动驾驶商业化前景的

热心网友
05.20
特斯拉FSD无法升级引车主不满 马斯克承诺遭质疑
业界动态
特斯拉FSD无法升级引车主不满 马斯克承诺遭质疑

4月28日,《商业内幕》发布的一篇深度报道,揭示了特斯拉自动驾驶承诺背后日益凸显的信任危机。多年来,“未来将实现完全自动驾驶”是特斯拉吸引消费者的核心卖点,但对于众多早期支持者而言,这一愿景正变得愈发渺茫。 图1:马斯克确认HW3车型无法升级至无监督版FSD 问题的根源在于硬件代际差异。在近期举行的

热心网友
05.20
龙虾车圈热潮来袭现象深度解析
业界动态
龙虾车圈热潮来袭现象深度解析

当AI智能体不仅能说会道,还能帮你订餐、写报告,甚至用周杰伦的风格唱首歌时,汽车行业的竞争焦点,已经悄然从硬件参数转向了软件生态。这届北京车展,就是最好的证明。 “你能让它用周杰伦那种吐字不清的风格,唱首歌吗?”在火山引擎的展台,一位体验者向工作人员提出了这个有趣的要求。指令下达后,座舱里的“豆包”

热心网友
05.20