首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
具身智能新突破LIBERO终结者以物理推理革新机器人学习范式

具身智能新突破LIBERO终结者以物理推理革新机器人学习范式

热心网友
64
转载
2026-05-20

机器人拉拉链,到底需不需要“脑子”?

过去几年,从OpenVLA到π0、π0.5,具身大模型已经能让机器人把指令和动作连得有模有样。但一个尴尬的现实是,一旦包裹的位置挪了几厘米,或者环境光照暗了一点,这些模型往往就会“大脑宕机”,动作变得不知所措。

问题出在哪?很大程度上,是因为这些机器人大多在玩一种高级的“连连看”:看到什么,就直接输出对应的动作。它们记住了成千上万条轨迹,却并不理解动作背后的物理逻辑。这种模式,显然遇到了隐形的天花板。

现在,一种让机器人“先想明白,再稳定行动”的新范式来了。由至简动力、北京大学、香港中文大学联合提出的LaST-R1,首次将隐空间的物理推理过程,塞进了强化学习的优化闭环里。这相当于给机器人装上了一套可以自我进化的“物理脑”。

具身大模型R1时刻:LIBERO终结者,99.9%背后的物理推理新范式

它的表现有多夸张?几个数字足以说明:

  • 仿真满分级别:在权威的LIBERO基准测试上,仅靠1条演示轨迹预热,平均成功率就冲到了99.9%
  • 真机性能起飞:在真实的抓取、旋转等复杂操作任务中,表现比目前最强的SOTA模型π0.5还要高出22.5个百分点
  • 强化“物理推理”:即便换了物体、背景或光照,它依然能稳如磐石。因为它不再是单纯的动作复刻机,而是真正学会了在隐空间里进行“物理思考”。

这个让机器人长出“物理脑”的LaST-R1,到底是怎么炼成的?那个能让环境反馈同时优化“怎么想”和“怎么动”的LAPO算法,又藏着什么玄机?

具身大模型的隐形天花板:只会模仿,不懂物理

尽管从OpenVLA到π0.5,具身大模型已经完成了图像、语言与动作的初步对齐,但在实际落地中,工业界发现了一个致命的“幻觉”:

能模仿,不等于能在物理世界泛化。

这就导致了极差的泛化性。打个比方,机器人可能记住了100种拉拉链的轨迹,但只要拉链的角度偏转15度,或者光照发生变化,单纯靠“观察→动作”的端到端映射就会立刻失效。

核心问题在于,现有的视觉-语言-动作模型缺少一个“思考”的中间层——即让机器人在行动之前,对物理世界进行推理。过去,学术界尝试引入语言思维链来解决推理问题,但对于机器人操作而言,语言推理往往太慢且颗粒度太粗,你很难用文字精准描述“拉链咬合时的细微阻力反馈”。

LaST-R1的核心突破,就是放弃了低效的语言思维链,转而在隐空间中构建物理推理链。它不再让机器人看到图像就“闭眼”出动作,而是先在隐性空间里建模场景的结构、物体的物理关系以及未来的动态变化。

然而,要让机器人学会这种“思考”,仅靠静态的模仿学习是不够的。目前的强化学习方法大多像是一个只看结果的严厉教练:它只告诉机器人动作成没成功,却无法指导机器人“刚才那下你是怎么想的”。

针对这一痛点,研究团队提出的LAPO算法,正式将“思考过程”拉进了强化学习的优化闭环,让环境反馈不仅优化动作,也优化行动前的“物理思考”。

不只练“手”更要修“脑”:如何让机器人强化模型的物理推理?

近日,至简动力、香港中文大学、北京大学计算机学院多媒体信息处理国家重点实验室,提出了一种面向机器人操作的自适应物理隐空间推理强化学习框架——LaST-R1

它希望通过强化学习后训练,让具身大模型不仅学会生成动作,也学会在行动前,进行面向物理世界的隐空间推理。

具身大模型R1时刻:LIBERO终结者,99.9%背后的物理推理新范式 △LaST-R1概览
  • (a) 不同于仅严格优化动作的传统强化学习方法,
  • (b) LaST-R1利用LAPO联合优化自适应的隐空间思维链与物理执行过程。通过连接认知推理与控制,实现了
  • (c) 更快的收敛速度、更高的仿真成功率,
  • 以及 (d) 更强的真实世界泛化能力。

与以往主要优化动作空间的具身大模型强化学习不同,LaST-R1的核心思想是:机器人不应只从图像和指令直接预测下一步动作,而应先在隐空间中理解场景结构、物体关系和物理动态,再生成更稳定、精准的动作。

换句话说,LaST-R1不只优化机器人的“手”,也优化它的“脑”。

具体来看,LaST-R1构建了一个面向“先推理后行动”策略的强化学习后训练框架,核心由三步组成:

1. 物理隐空间推理建模

  • 传统模型往往直接从观测生成动作,动作前缺少可建模、可优化的物理推理过程。
  • LaST-R1在模型推理中引入隐空间思维链:生成动作前,先在隐空间中建模当前场景、物体关系和未来物理动态。
  • 相比语言推理,隐空间推理更适合承载连续、高频、难以语言化的物理信息。

2. 隐空间推理与动作生成的联合强化优化

  • 传统强化学习多数只优化动作结果:哪个动作带来更高奖励,就强化哪个动作。
  • LaST-R1提出LAPO,把环境奖励同时作用于隐空间推理动作生成:成功轨迹不仅强化正确动作,也强化动作之前的“好推理”;失败轨迹不只修正动作结果,也反向调整内部物理推理空间。

3. 自适应隐空间思维链推理机制

  • 不同任务决策需要不同长度的思考。LaST-R1引入自适应隐空间思维链:简单状态下,模型可以快速结束推理并执行;面对拉拉链、擦花瓶、拧瓶盖等复杂接触式操作,则分配更长的推理时长。
  • 让机器人在交互中学会:什么时候该多想,什么时候该立刻执行。

LaST-R1改变的,是具身大模型后训练的优化对象:从只优化动作,转向同时优化动作背后的物理推理。

研究团队在仿真和真机环境中都进行了系统验证。在仿真LIBERO基准测试上,LaST-R1仅依赖1条轨迹完成预热,随后通过在线强化学习优化,最终取得99.9%的平均成功率,并展现出比仅优化动作的方法更快的收敛速度和更高的最终性能。

在真机部署中,LaST-R1仅使用30条轨迹预热,再通过强化学习后训练将平均成功率从52.5%提升到93.75%,显著超过使用100条专家轨迹的π0.5模型(71.25%)。

更重要的是,在真实扰动条件下,LaST-R1仍保持较小的性能下降,这说明其学习到的不是单一场景中的动作轨迹,而是更可迁移的空间语义和物理动态理解。

上述结果意味着,具身大模型强化学习的重点正在发生深刻变化——机器人不再只是通过强化学习学会更熟练地执行动作,而是开始学会更合理地进行物理推理。LaST-R1提出了一种新的后训练范式,能够让环境反馈同时塑造机器人的“思考方式”和“行动方式”。

一旦隐空间推理从模仿学习的“静态脚本”进化为强化学习的“演进核心”,机器人便能摆脱对演示数据的刻板复现,在不断的交互试错中,真正强化其内在的物理推理能力。这或许也是具身大模型从“会模仿”走向“会适应”的关键一步。

LaST-R1框架概述

具身大模型R1时刻:LIBERO终结者,99.9%背后的物理推理新范式 △LaST-R1框架
  • (a) LaST-R1是一个统一模型,以视觉观测和语言指令作为输入,其中视觉基础模型提供具有物理语义约束的隐空间目标,用于在动作生成前引导隐空间思维链推理。
  • (b) 在LAPO强化学习后训练过程中,LaST-R1以闭环方式与环境交互,并将隐状态、动作和奖励存储起来,以联合重塑隐空间与动作空间。模型通过基于预测概率学习生成特定标记,实现自适应推理,从而在不同任务中动态调整推理长度。
  • (c) 通过LAPO,LaST-R1能够在多样化任务中形成自适应推理长度,从而提升泛化能力与执行稳定性。

整个LaST-R1框架可以概括为三个关键阶段:先推理、再优化、动态决定想多久。

第一阶段:行动前的隐空间推理

给定当前视觉观测和语言指令,LaST-R1不会直接生成动作,而是先生成一段隐空间推理嵌入,作为行动前的“物理思考”,用于建模物体关系、未来状态和操作动态。随后,模型再基于这些隐空间推理并行生成动作标记。这一步解决的是如何让动作生成建立在物理推理之上。

第二阶段:LAPO同时优化隐空间和动作

LaST-R1的核心算法是LAPO。传统方法主要优化动作,而LAPO将隐空间推理也纳入强化学习目标,让环境奖励同时塑造“怎么想”和“怎么动”。

论文中最关键的是隐空间层面的比率替代函数

具身大模型R1时刻:LIBERO终结者,99.9%背后的物理推理新范式

其中,

具身大模型R1时刻:LIBERO终结者,99.9%背后的物理推理新范式

表示旧策略生成的隐状态序列,

具身大模型R1时刻:LIBERO终结者,99.9%背后的物理推理新范式

表示当前策略重新生成的隐状态序列,

具身大模型R1时刻:LIBERO终结者,99.9%背后的物理推理新范式

控制隐状态分布的宽度。

直观来说,如果某条轨迹成功,LaST-R1不仅会强化对应动作,也会强化动作之前产生的“好推理”。随后,LAPO将隐空间和动作的优化目标统一在一个裁剪目标函数中。这意味着LaST-R1的强化学习后训练不只是优化机器人的动作结果,也在优化行动前的物理推理过程。

第三阶段:自适应隐空间思维链

不同任务需要不同的思考长度。因此,LaST-R1引入自适应隐空间思维链,通过一个特殊的结束标记,让模型动态决定何时结束隐空间推理并进入动作生成阶段。这是为了让机器人根据任务难度自适应分配“思考”预算。也就是说,LaST-R1不是让机器人每一步都固定想同样久,而是让它学会:简单状态快速执行,复杂状态多想一步。

实验结果分析

1. 仿真实验:LIBERO 99.9%

具身大模型R1时刻:LIBERO终结者,99.9%背后的物理推理新范式

LaST-R1在LIBERO基准测试上进行了系统评估,覆盖空间、物体、目标和长程四个任务套件。实验在单条轨迹模仿学习预热的设置下进行,随后进入在线强化学习后训练。

结果显示,LaST-R1在四个套件上分别达到99.8%/100.0%/100.0%/99.8%的成功率,平均成功率达到99.9%,超过了多个强基线模型。相比只优化动作空间的方法,LaST-R1收敛更快、最终成功率更高,说明隐空间推理与动作生成的联合优化能够为强化学习提供更稳定的“认知缓冲区”,从而提升复杂长程操作能力。

2. 真机实验:从52.5%到93.75%

具身大模型R1时刻:LIBERO终结者,99.9%背后的物理推理新范式

LaST-R1在四个真实操作任务上进行了测试,覆盖单臂高精度插入、双臂协同、接触式擦拭和连续旋转等复杂物理交互。为了突出强化学习后训练的效果,论文将其与SOTA模型π0.5对比:π0.5使用100条专家轨迹进行模仿学习,而LaST-R1仅使用30条轨迹预热,并通过强化学习后训练继续优化。

结果显示,LaST-R1将真机平均成功率从预热后的52.5%提升到93.75%,显著超过π0.5的71.25%。这说明其优势不仅存在于仿真环境,也能迁移到真实物理交互中,并形成更稳定的执行策略。

3. 泛化实验:换物体、换背景、换光照,依然稳

具身大模型R1时刻:LIBERO终结者,99.9%背后的物理推理新范式

在LIBERO的分布外泛化测试中,研究团队采用9个已见任务进行在线强化学习,并保留1个未见任务做测试。结果显示,仅优化动作的方法容易出现性能停滞甚至退化,而LaST-R1能在分布外任务上持续提升,说明隐空间推理能帮助模型学到更可迁移的空间语义和物理动态。

具身大模型R1时刻:LIBERO终结者,99.9%背后的物理推理新范式

在真实世界中,论文进一步测试了未见物体、背景变化和光照条件三类扰动。相比仅经过模仿学习的π0.5模型,LaST-R1在这些变化下保持了更小的性能下降,说明它并不是简单记住训练场景中的动作轨迹,而是形成了更鲁棒的物理推理与动作生成能力。

结语:具身大模型不只是要会行动,而是开始学会“思考推理”

LaST-R1的意义,不只是把LIBERO平均成功率推到99.9%,也不只是让真机任务成功率提升到93.75%。更重要的是,它提出了一种新的具身大模型后训练范式:强化学习不应该只优化机器人的动作,也应该优化动作背后的物理推理过程

过去,我们更关心机器人能不能生成正确动作。现在,LaST-R1在此基础上进一步追问:机器人能不能在行动前进行正确的物理推理?

通过LAPO,环境奖励可以直接塑造隐空间推理;通过自适应隐空间思维链,机器人可以根据任务难度动态调整思考长度。这意味着,机器人不再只是复现演示数据中的动作轨迹,而是在交互中逐步强化其内在的物理推理模型。

从这个角度看,LaST-R1让具身大模型强化学习从“看见就动”走向“先想明白,再稳定行动”。当具身大模型开始学会在隐空间中思考,机器人距离真正的自主与适应,无疑又近了一步。

来源:https://www.qbitai.com/2026/05/415065.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

具身智能新突破LIBERO终结者以物理推理革新机器人学习范式
AI资讯
具身智能新突破LIBERO终结者以物理推理革新机器人学习范式

LaST-R1提出具身大模型后训练新范式,通过LAPO算法将隐空间物理推理纳入强化学习闭环,实现“先推理后行动”。在LIBERO基准测试中平均成功率高达99 9%,真机任务成功率从52 5%提升至93 75%,显著优于现有模型。其核心突破在于联合优化推理与动作,使机器人能灵活适应物体与背景变化。

热心网友
05.20
机器人R1学会物理推理动作模仿率达999
AI资讯
机器人R1学会物理推理动作模仿率达999

LaST-R1研究让机器人学会“先物理推理再行动”。它通过隐空间思维链建模物理关系,并利用LAPO框架联合优化推理与动作。实验显示,该方法在LIBERO基准取得99 9%成功率,真实任务成功率从52 5%提升至93 75%,且泛化能力更强,标志着具身智能向“会思考”迈进。

热心网友
05.11
原力无垠AtomVLA:LIBERO基准成功率高达97.4%
科技数码
原力无垠AtomVLA:LIBERO基准成功率高达97.4%

北京商报讯(记者 陶凤 王天逸)3月10日,原力无限宣布,以第一作者单位首发AtomVLA模型。据称,该具身大脑核心模型LIBERO基准成功率达到97%,在真机平台上,AtomVLA成功完成了叠T恤

热心网友
03.10

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

商汤大装置稳居中国MaaS市场第一梯队持续领跑
AI资讯
商汤大装置稳居中国MaaS市场第一梯队持续领跑

IDC报告显示,商汤“万象”平台以11 3%份额位居中国大模型私有化市场第二。平台通过一站式模型服务、全生命周期专家支持及低代码工具链,满足企业安全、性能与成本需求,推动AI在政务、交通、能源等行业落地,降低技术门槛,加速价值实现。

热心网友
05.20
实用AI工具盘点与选择指南提升工作效率
AI教程
实用AI工具盘点与选择指南提升工作效率

市场上有多种高效AI工具可供选择。WPSAI能智能处理文档,Grammarly辅助写作纠错,AIPPT工具快速生成演示文稿,ChatGPT进行对话与创作,DeepL提供精准翻译。CanvaAI助力设计,GitHubCopilot和TabNine提升编程效率,AI去背工具简化图像编辑。这些工具覆盖写作、设计、编程等场景,能显著提升工作效率。

热心网友
05.20
对话Bitget AI负责人:AI交易如何无限逼近满分却难达完美
AI资讯
对话Bitget AI负责人:AI交易如何无限逼近满分却难达完美

BitgetAI负责人Bill博士指出,AI在交易平台中已能高效整合信息、辅助决策,提升效率。当前产品注重个性化建议与安全易用的交互,如通过Telegram提供自然对话辅助。AI虽无法完全替代顶尖交易员,但其价值在于赋能用户、优化流程。未来竞争关键将在于安全体系、成本控制及持续学习用户习惯的能力。

热心网友
05.20
2026年热门AI软件工具精选与推荐指南
AI教程
2026年热门AI软件工具精选与推荐指南

2024年,AI工具正深度融入工作流程,提升效率与创意。WPSAI集成于办公软件,助力文档创作与优化;ChatGPT作为多功能对话模型,辅助编程与文案;GoogleBard擅长信息整合与自然对话;BoardMix结合白板与AI,可生成思维导图等可视化内容;NewBing融合搜索与对话,兼具创意与可信来源;NotionAI能自动处理会议纪要等文本任务;Gram

热心网友
05.20
代币化美股热度飙升 加密券商能否颠覆传统金融格局
web3.0
代币化美股热度飙升 加密券商能否颠覆传统金融格局

代币化美股热度上升,投资者可通过区块链交易相关资产,挑战传统券商模式。其优势包括降低门槛、提升流动性和全天候交易,但也面临监管不明确等风险。未来能否颠覆传统金融,取决于技术发展与合规进程。

热心网友
05.20