首页 游戏 软件 资讯 排行榜 专题
首页
AI
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

热心网友
70
转载
2026-04-07

面对复杂连续任务的长程规划,现有的生成式离线强化学习方法往往会暴露短板。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

它们生成的轨迹经常陷入局部合理但全局偏航的窘境。

它们太关注眼前的每一步,却忘了最终的目的地。



针对这一痛点,厦门大学和香港科技大学提出一种名为MAGE(魔法师,Multi-scale Autoregressive Generation)的离线强化学习新算法。

MAGE与现有序列生成方法不同,MAGE采用自顶向下的“由粗到细”生成策略,先建模轨迹的宏观规划,再逐步细化微观细节。

MAGE的核心思路非常符合人类的直觉:“自顶向下、由粗到细”。

这就好比画一幅素描,你不会一上来就描绘眼睛的睫毛,而是先画出整体的身体轮廓(宏观规划),再逐步细化五官和表情

(微观动作)



△MAGE的思考过程

从一场”迷宫寻宝“揭示AI规划的盲区

为了直观展示现有模型的缺陷,研究团队设计了一个迷宫吃金币小实验。智能体需要从随机起点出发,依靠对环境的长程空间理解,先吃银币,再吃金币,最后抵达终点。



△各个算法在迷宫环境的表现

然而,面对这种需要全局规划的场景,现有的模型纷纷暴露了缺陷。

Decision Transformer受限于单向自回归特性带来的全局上下文缺失,它在长程规划中完全迷失方向,最终连终点都未能抵达。Decision Diffuser则由于扩散模型固有的局部生成偏差,生成的轨迹往往只能保证局部合理;虽然智能体抵达了终点,却遗漏了关键的一枚金币,全局连贯性较差。Hierarchical Diffuser虽然尝试通过分层结构建模全局轨迹,但由于其固定的双层结构过于僵硬高低层策略之间缺乏有效协同,生成的轨迹甚至出现了物理违规的“穿墙”现象,全局规划与局部动作严重脱节。

相比之下,MAGE则通过多尺度“从粗到细”的生成架构成功完成了任务。它首先在最粗的时间尺度上勾勒出包含所有关键节点的宏观全局轮廓,随后利用多尺度Transformer在更细的时间尺度上逐层细化,顺利规划出完整的路径。

MAGE的核心思路:从画大纲到扣细节

MAGE采用“自顶向下、由粗到细”的生成方式。MAGE包含两大核心模块,并辅以精确的控制机制:



△MAGE的架构图

MTAE多尺度轨迹自编码器:MAGE将长序列轨迹转化为从粗到细的多尺度离散Token。粗尺度的Token负责掌控全局长程结构,最细尺度的Token则详细建模短期的动态细节。

多尺度条件引导自回归生成:模型使用Transformer序列化地生成这些多尺度Token。在生成每层时,都会严格以“目标回报”和“初始状态”作为条件进行约束,确保智能体的每一步都在朝着最终目标前进。

条件引导细化与动作决策:因为把连续世界变成离散Token会丢失信息,普通的生成过程容易让轨迹起点偏离现实。为此,MAGE在解码器中集成了轻量级的适配器(adapter)模块,并引入了条件引导损失函数Lcond,强制解码出的初始状态与真实环境是精确对齐的。最后,通过潜在逆动力学模型决定最终的动作。

实验表现:长序列任务全面超越,推理速度满足实时控制

研究团队在包含Adroit、Franka Kitchen、AntMaze等5个离线RL基准测试中,将MAGE与15种具有代表性的基线算法进行了广泛的评估。

多任务表现出色



在极具挑战的高维连续控制Adroit机械臂任务中,面对极其稀疏的奖励,MAGE实现了显著的性能提升,大幅优于对比方法。在强调子目标执行顺序的Franka Kitchen组合任务中,MAGE凭借捕获全局结构和局部细节的能力,以相当大的优势超越了所有竞争算法。



在迷宫导航任务中,MAGE在所有数据集上均取得了最佳性能,证明了其处理长序列导航任务的卓越能力。

极高的推理效率与部署潜力



MAGE在保持高性能的同时,实现了出色的计算效率平衡。实验数据表明,MAGE的运行速度比Hierarchical Diffuser快约50倍,比Decision Diffuser快80倍。其每步推理时间保持在27毫秒,完美满足了真实机器人控制所要求的20 Hz实时运行门槛。

结语

MAGE成功地将多尺度轨迹建模与条件引导相结合,通过“从粗到细”的自回归框架生成连贯且可控的高回报轨迹。当有一天,机器人不再需要人类一口一口地“喂”奖励,而是能够自主审视全局,制定长远计划并流畅执行时,也许具身智能的下一个奇点就真正到来了。

论文链接:
https://arxiv.org/abs/2602.23770
开源代码:
https://github.com/xmu-rl-3dv/MAGE
实验室主页:
https://asc.xmu.edu.cn/

作者介绍:
本文第一作者来自厦门大学空间感知与计算实验室(ASC Lab)2024级硕士生林晨兴、2025级硕士生高鑫辉,通讯作者为厦门大学沈思淇副教授,并由张海鹏、李欣然(香港科技大学)、王海涛、梅松竹副研究员、刘伟权副教授(集美大学)、王程教授共同合作完成。研究团队长期聚焦于强化学习,多智能体系统以及大模型智能体。

来源:https://www.163.com/dy/article/KPR8PN0L0511DSSR.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

OpenClaw人人养虾:接入Discord
AI
OpenClaw人人养虾:接入Discord

Discord接入:让OpenClaw成为你的社区智能管家 对于全球数亿的游戏玩家和社群爱好者来说,Discord几乎等同于线上“大本营”。那么,有没有可能让你精心搭建的Discord服务器也拥有一个聪明能干的AI助手呢?答案是完全可行。通过创建Discord Bot(机器人),你可以将OpenCl

热心网友
04.15
Claude强到不敢发的Mythos,被质疑用了字节Seed技术
AI
Claude强到不敢发的Mythos,被质疑用了字节Seed技术

Claude最强“神话”模型,可能用到来自字节的技术? 这条猜测直接冲上了热搜榜。 这款被形容为“强到不敢公开发布”的Mythos模型,确实极大地刺激了人们对下一代大语言模型架构的想象空间。 社区讨论的焦点,正集中在它是否采用了“循环语言模型”(Looped Language Model)这一创新架

热心网友
04.14
DeepSeek上线专家模式:国产AI激战正酣,V4能否复刻去年春节炸场?
科技数码
DeepSeek上线专家模式:国产AI激战正酣,V4能否复刻去年春节炸场?

国产大模型DeepSeek迎来重大更新:快速模式与专家模式上线 最新消息显示,国产AI大模型DeepSeek再次迎来重要升级。4月8日,用户在访问DeepSeek时发现,输入框上方新增了“快速模式”与“专家模式”两个选项。根据官方说明,快速模式专注于日常对话场景,响应速度快,同时支持图片和文件中的文

热心网友
04.14
OpenClaw人人养虾:接入飞书
AI
OpenClaw人人养虾:接入飞书

飞书接入指南:为你的团队嵌入一位AI同事 如果你身处国内互联网或科技行业,对飞书这款高效协作平台一定非常熟悉。如今,它已不仅是团队沟通工具,更成为众多企业的数字化工作中枢。那么,能否让团队成员在飞书内部,直接调用强大的AI智能助手来提升效率呢?答案是肯定的。本指南将手把手教你,如何将OpenClaw

热心网友
04.14
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26
AI
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

面对复杂连续任务的长程规划,现有的生成式离线强化学习方法往往会暴露短板。它们生成的轨迹经常陷入局部合理但全局偏航的窘境。它们太关注眼前的每一步,却忘了最终的目的地。针对这一痛点,厦门大学和香港科技大

热心网友
04.07

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

欧易okx交易平台 欧易okx官方入口链接
web3.0
欧易okx交易平台 欧易okx官方入口链接

欧易OKX交易平台官方入口链接在哪里? 很多朋友都在问,欧易OKX的官方入口链接到底在哪?别急,下面我们就来详细梳理一下这个全球领先交易平台的核心功能与特色,看完你就知道如何找到并使用它了。 多链资产统一管理能力 首先,你得知道它是个“全能型选手”。平台支持比特币、以太坊、OKB、USDT等超过30

热心网友
04.29
童年趣事精彩开头
职业与学业
童年趣事精彩开头

“哈哈……” 这银铃般清脆的笑声,一下子就把人拉回了童年的时光里。那时候的天真、可爱、活泼,连同做过的那些稚气事儿,都成了记忆里最明亮的底色。如果童年是一片星空,那么总有一颗特别亮的星星,让人至今想起,依然觉得清晰又温暖。 记忆里的闪光贝壳 说起来,每个人的童年都像一片海滩,而那些趣事就是散落其间的

热心网友
04.29
关于重阳节相思的诗句8
职业与学业
关于重阳节相思的诗句8

生当复来归,死当长相思:古诗词中的离别与相思 翻开古典诗词的长卷,离别与相思是永恒的主题。那些穿越时空的文字,将刻骨的思念、无言的守望,凝练成一句句动人的诗行。今天,就让我们一同走进这片情感的深海,品味其中百转千回的韵味。 “休言半纸无多重,万斛离愁尽耐担。”轻飘飘的信笺,承载的却是如山似海的离愁,

热心网友
04.29
关于描写登高的诗词3
职业与学业
关于描写登高的诗词3

欲从携手登高去,一到门前意已无 那兴致勃勃相约登高的念头,真到了门前,却忽然消散得无影无踪了。哪里还能学少年人的模样,将茱萸插在鬓发间呢?这心境,恰如朱放在《九日与杨凝、崔淑期登江上山会有故不得往因赠之》中所描绘的那份怅然。 登高望远自伤情 柳丝新发,花儿盛开,映衬着古老的城池,这本该是一派生机。然

热心网友
04.29
关于描写登高的诗词2
职业与学业
关于描写登高的诗词2

关于描写登高的诗词 “黄花宜泛酒,青岳好登高。稽首明廷内,心为天下劳。”张说在《九日进茱萸山诗五首》中,将登高与饮酒并置,最终落脚于家国情怀,为这个传统意象定下了一个开阔的基调。 登高望远,视线所及,往往是内心的投射。孟浩然寻友不遇,只见“主人登高去,鸡犬空在家”,一片闲适中的寂寥便跃然纸上。而李白

热心网友
04.29