首页 游戏 软件 资讯 排行榜 专题
首页
AI
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

热心网友
39
转载
2026-04-15

面对复杂连续任务的长程规划,现有的生成式离线强化学习方法往往会暴露短板。

它们生成的行动轨迹,常常会陷入一种“局部合理但全局偏航”的窘境。问题出在哪?简单说,就是太关注眼前的每一步,却忘了最终的目的地。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈



针对这一核心痛点,厦门大学与香港科技大学的研究团队提出了一种名为MAGE(Multi-scale Autoregressive Generation)的新算法。这个名字很有意思,直译过来就是“魔法师”,其魔力何在?

关键在于,MAGE摒弃了传统的序列生成思路,转而采用一种自顶向下的“由粗到细”生成策略。它先勾勒轨迹的宏观蓝图,再逐步填充微观细节。

MAGE的核心思路:从画大纲到扣细节

这个思路其实非常符合人类的直觉。就像画一幅素描,有经验的画师绝不会一上来就刻画眼睛的睫毛。相反,他会先轻轻几笔,勾勒出整体的身体轮廓和姿态(宏观规划),然后在这个稳固的框架下,逐步细化五官、光影和表情(微观动作)。MAGE所做的,正是将这种“先整体,后局部”的智慧,编码进了算法之中。



△ MAGE的“思考”过程:从宏观轮廓到精细动作

一场“迷宫寻宝”揭示的AI规划盲区

为了直观展示现有模型的缺陷,研究团队设计了一个巧妙的“迷宫吃金币”实验。智能体需要从随机起点出发,它必须理解整个迷宫的空间布局,规划一条长程路径:先吃掉银币,再吃掉金币,最后成功抵达终点。



△ 各个算法在迷宫环境中的表现对比

然而,面对这种需要全局统筹的场景,现有模型纷纷暴露了各自的短板:

Decision Transformer受限于单向自回归的特性,难以获取完整的全局上下文,在长程规划中几乎完全迷失,连终点都未能抵达。
Decision Diffuser虽然基于扩散模型,但其生成过程存在局部偏差,导致轨迹虽能抵达终点,却遗漏了关键的金币,全局连贯性不足。
Hierarchical Diffuser尝试用分层结构建模全局,但其固定的双层架构过于僵硬,高层与底层策略协同不佳,甚至产生了“穿墙”这种物理上不可能的轨迹,全局规划与局部执行严重脱节。

相比之下,MAGE凭借其多尺度“从粗到细”的生成架构,漂亮地完成了任务。它首先在最粗的时间尺度上,勾勒出包含所有关键节点的宏观轮廓,随后利用多尺度Transformer逐层细化,最终规划出一条完整、合理的路径。

MAGE如何工作:两大核心模块与精确控制

那么,MAGE具体是如何实现这一点的呢?其架构主要包含两大核心模块,并辅以精密的控制机制。



△ MAGE的架构图

1. MTAE多尺度轨迹自编码器: 这个模块负责将冗长的连续轨迹,压缩成一系列从粗到细的离散Token。粗尺度的Token掌控全局结构和长程目标,而最细尺度的Token则编码了短期的动态细节。

2. 多尺度条件引导自回归生成: 模型的核心是一个Transformer,它按顺序生成这些多尺度Token。关键在于,在生成每一层时,模型都会严格接受“目标回报”和“初始状态”这两个条件的约束。这就好比给规划过程装上了“指南针”和“锚点”,确保智能体的每一步都朝着最终目标前进,且起点稳固。

3. 条件引导细化与动作决策: 将连续世界离散化难免会丢失信息,普通的生成过程容易导致轨迹起点偏离真实环境。为此,MAGE在解码器中集成了一个轻量级的适配器模块,并引入了条件引导损失函数,强制解码出的初始状态与真实环境精确对齐。最后,通过一个潜在逆动力学模型,将规划好的状态序列转化为最终可执行的动作。

实验表现:长序列任务全面超越,推理速度满足实时控制

为了验证MAGE的有效性,研究团队在Adroit、Franka Kitchen、AntMaze等5个经典的离线强化学习基准测试中,将其与15种代表性基线算法进行了全面对比。

多任务表现出色



在极具挑战性的高维连续控制任务——Adroit机械臂操作中,面对极其稀疏的奖励信号,MAGE实现了显著的性能提升,大幅领先于其他对比方法。而在强调子任务执行顺序的Franka Kitchen组合任务中,MAGE凭借其捕获全局结构和局部细节的卓越能力,以相当大的优势超越了所有竞争算法。



在各类迷宫导航任务中,MAGE在所有测试数据集上均取得了最佳性能,充分证明了其处理长序列、复杂空间规划任务的卓越能力。

极高的推理效率与部署潜力



更令人印象深刻的是,MAGE在保持高性能的同时,实现了出色的计算效率平衡。实验数据显示,MAGE的运行速度比Hierarchical Diffuser快约50倍,比Decision Diffuser快80倍。其单步推理时间稳定在27毫秒左右,完美满足了真实机器人控制所要求的20 Hz实时运行门槛,具备了实际部署的潜力。

结语

总而言之,MAGE成功地将多尺度轨迹建模与条件引导机制相结合,通过“从粗到细”的自回归框架,生成了既连贯又可控的高回报轨迹。这项研究为离线强化学习的长程规划难题提供了一个新颖而有效的解决方案。

可以预见,当未来的机器人或智能体不再需要人类一步步地设计奖励、而是能够自主地审视全局、制定长远计划并流畅执行时,具身智能的发展或许将迎来下一个关键突破。MAGE在这一方向上,迈出了坚实的一步。

论文链接:
https://arxiv.org/abs/2602.23770
开源代码:
https://github.com/xmu-rl-3dv/MAGE
实验室主页:
https://asc.xmu.edu.cn/

作者介绍:
本文第一作者来自厦门大学空间感知与计算实验室(ASC Lab)2024级硕士生林晨兴、2025级硕士生高鑫辉,通讯作者为厦门大学沈思淇副教授,并由张海鹏、李欣然(香港科技大学)、王海涛、梅松竹副研究员、刘伟权副教授(集美大学)、王程教授共同合作完成。研究团队长期聚焦于强化学习,多智能体系统以及大模型智能体。

来源:https://www.163.com/dy/article/KPR8PN0L0511DSSR.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26
AI
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

面对复杂连续任务的长程规划,现有的生成式离线强化学习方法往往会暴露短板。 它们生成的行动轨迹,常常会陷入一种“局部合理但全局偏航”的窘境。问题出在哪?简单说,就是太关注眼前的每一步,却忘了最终的目的地。 针对这一核心痛点,厦门大学与香港科技大学的研究团队提出了一种名为MAGE(Multi-scale

热心网友
04.15
告别手动转格式!GIS+AI Agent,200条乱数据转清晰地图
AI
告别手动转格式!GIS+AI Agent,200条乱数据转清晰地图

工作中数据格式混乱如何高效解决?经纬度格式转换实战指南 在进行黄河流域生态保护或任何涉及空间数据的项目时,最令人头疼的问题莫过于数据格式不统一。尤其是在处理各地上报的经纬度坐标时,同一个字段常常混杂着度分秒(DMS)、十进制度(DD)等多种写法,数据清洗工作费时费力。本文将深入探讨如何利用WorkB

热心网友
04.01
南开大学视频理解新突破:AI如何真正看懂视频细节
科技数码
南开大学视频理解新突破:AI如何真正看懂视频细节

最近,来自南开大学、字节跳动和清华大学的研究团队联合发表了一项关于视频理解的重要研究成果。这项研究发表于2026年2月16日,论文编号为arXiv:2602 13013v1,有兴趣深入了解的读者可以

热心网友
03.11
郭毅可院士:AI引发知识通胀,重塑传统教育前提假设
科技数码
郭毅可院士:AI引发知识通胀,重塑传统教育前提假设

12月12日,第八届 GAIR 全球人工智能与机器人大会于深圳正式拉开帷幕。本次大会为期两天,由GAIR研究院与雷峰网联合主办,高文院士任指导委员会主席,杨强院士与朱晓蕊教授任大会主席。作为 AI

热心网友
12.24

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

重返未来1999梁月塑造如何抽取
游戏攻略
重返未来1999梁月塑造如何抽取

重返未来1999梁月塑造抽取攻略:优先级分析与资源规划 在《重返未来1999》中,梁月作为队伍的核心输出角色,其塑造等级的提升策略直接影响阵容的整体强度与通关上限。许多玩家在面对不同塑造等级的选择时,常常感到困惑。本文将深入解析梁月各阶段塑造的实际价值,助你高效规划抽取资源,实现战力最大化。 重返未

热心网友
04.15
3A大作不香了!近6成PC游戏收入来自小厂 玩家:大厂炒冷饭、GaaS劝退
游戏资讯
3A大作不香了!近6成PC游戏收入来自小厂 玩家:大厂炒冷饭、GaaS劝退

全球游戏市场格局生变:玩家时间与消费正流向“腰部”与“长尾”游戏 快科技4月15日消息,知名市场分析机构Newzoo最新发布的《2026年PC与主机游戏报告》揭示了一个深刻的行业结构性变化。市场表面看似稳定,实则内部增长动力正在发生关键性迁移。 报告的核心洞察指出:虽然顶级的3A大作依然占据媒体头条

热心网友
04.15
大润发优鲜如何查看订单
手机教程
大润发优鲜如何查看订单

在大润发优鲜购物后,如何轻松查看订单详情? 在大润发优鲜平台完成购物后,查看订单是掌握配送进度、核对购物详情以及处理售后事宜的关键一步。那么,具体该如何操作呢?流程其实相当清晰。 首先,需要打开大润发优鲜App。进入应用主界面后,注意力可以放在底部的菜单栏上,那里通常会有一个名为“我的”的选项。点击

热心网友
04.15
S.H.I.T Journal(抖音SHIT) S.H.I.T Journal探索学术去中心化与社区自治的创新模式
AI
S.H.I.T Journal(抖音SHIT) S.H.I.T Journal探索学术去中心化与社区自治的创新模式

S H I T Journal(抖音SHIT)产品介绍 S H I T Journal 网站介绍 说到打破学术壁垒、革新传统出版模式,有一个平台不得不提——S H I T Journal。它正尝试用一种前所未有的方式,将学术评价与发表的权利交还给社区本身。这个平台不仅构建了一个开放的投稿与审稿生态,

热心网友
04.15
GOMPlayer怎么设置视频满屏播放
手机教程
GOMPlayer怎么设置视频满屏播放

GOM Player 全屏播放设置指南:一键开启沉浸式观影模式 想要获得更具冲击力、无干扰的视频观看体验吗?将播放画面铺满整个屏幕是实现沉浸式观影最有效的方式之一。作为一款广受欢迎的多媒体播放软件,GOM Player 提供了直观且灵活的全屏播放设置选项。本文将为您系统讲解几种启用全屏模式的方法,并

热心网友
04.15