卧安OneModel 1.7实测解析 LIBERO 99%如何实现看懂到做对

首页

AI资讯

热心网友

转载

2026-05-22

2026年，世界动作模型（WAM）已成为具身智能领域的关键发展方向，吸引了英伟达等科技巨头的积极布局。这类模型的核心目标可归纳为两点：一是从海量数据中学习现实世界的物理规律，二是掌握机器人用于干预这些规律的各种动作技能。然而，一个关键的技术瓶颈始终存在——当世界模型“理解”了环境变化，机器人的动作策略却依然“执行不准”，两者之间的传导断层应如何弥合？

LIBERO 99%，实测第一：卧安 OneModel 1.7用一条隐式通路打通「看懂」到「做对」

近期，卧安机器人（OneRobotics，6600.HK）发布的OneModel 1.7 FrontoStria-RL模型提供了一个极具启发性的解决方案。该模型在权威的LIBERO基准测试中取得了99%的平均成功率，超越了包括π0.5、GR00T-N1.5、OpenVLA-OFT在内的主流公开模型。更值得关注的是其真实机器人测试表现：日常操作成功率99%，高精度任务成功率97%，甚至在真人对打乒乓球的极限动态场景下，接球成功率也达到了91.2%。这组卓越成绩的背后，关键并非参数规模的扩大，而是一条连接世界理解与动作执行的隐式传导通路——Predictive Policy Latent，以及一套使该通路持续进化的强化学习闭环机制。

^{图 1：标准 LIBERO 平均成功率对比。One Model 1.7 以 99% 领先于 π0.5、GR00T-N1.5、OpenVLA-OFT 等主流公开模型。}

一、家庭场景的挑战：为何机器人“看懂了却做不对”？

设想这样一个场景：机器人昨天在厨房成功洗完碗并将其放回橱柜。今天，你仅仅将碗架挪到了右侧，橱柜门的开启角度也略有变化——这对人类而言微不足道，但对机器人来说，这可能就构成了一个“从未见过的新任务”。

这并非特例。家庭环境是具身智能最具挑战性也最具价值的应用场景：没有两个完全相同的厨房，客厅布局千差万别，每日的任务组合也在不断变化。机器人不仅需要完成叠衣、端碗、收纳等精细操作，还必须在物品陌生、光照变化、户型各异的情况下，准确理解人类意图并执行合理动作。更不用说拔插试管、倾倒咖啡豆这类容错率极低的高精度操作，或是真人对打乒乓球这种对实时感知与高速响应要求极高的动态任务。

其背后的技术困境，可归结为当前两条主流技术路线各自的局限性。

视觉-语言-动作（VLA）路线较为直接：将视觉观测和语言指令端到端地映射为机器人动作，在训练数据覆盖充分的场景下效率很高。但其短板在于，一旦物体位置、观察视角或光照条件发生变化，动作策略就容易失效；面对多步骤的复杂长程任务，也容易在中途迷失最终目标。

世界模型（World Model）路线则旨在让模型具备对环境状态和任务演变的预测能力，包括物体关系、空间结构和动作后果，理论上泛化能力更强。但在实际部署中面临一个核心难题：世界模型“理解了”环境，并不等同于动作策略就能“执行准确”。若使用显式的未来预测图像或中间目标坐标来衔接动作模块，会引入生成误差、信息冗余和推理延迟；如果缺乏高效的传导机制，“理解世界”与“精准执行”之间便存在难以逾越的鸿沟。

而OneModel 1.7旨在解决的核心，正是这道鸿沟。

二、Predictive Policy Latent：连接理解与执行的隐式通路

OneModel 1.7 FrontoStria-RL采用了卧安自研的RL-Latent World Action Model架构（RL-LWAM），其完整信息流如下：

指令 / 观测 / 技能 → 世界模型 → 预测策略隐变量 → 理解专家 → 动作专家 → 机器人执行 → RL / 成功记忆 / 人在环反馈 ↺

^{图 2：One Model 1.7 FrontoStria-RL 完整架构。 Predictive Policy Latent 作为核心传导机制，连接 World Model、Understand Expert 与 Action Expert。}

整个架构由三大核心模块构成：世界模型负责跨场景泛化，理解专家负责任务解析与技能调度，动作专家负责精准执行。而将这三个模块真正“贯通”的关键，在于中间的Predictive Policy Latent。

“FrontoStria”名称有何深意？

它源于神经科学中的“额纹状体通路”——大脑中连接前额叶皮层（负责高级决策与规划）与纹状体（负责动作执行）的神经纤维束。这条通路的核心功能，正是将高层的认知决策高效、准确地传导至底层的运动控制。

OneModel 1.7的Predictive Policy Latent扮演的正是类似角色：将世界模型对场景的高层理解（类比“前额叶”），以一种隐式的方式传导给动作专家以生成动作（类比“运动皮层”）。

Predictive Policy Latent具体如何工作？

传统方案要将世界模型的理解传递给动作模块，通常采用生成预测图像（输出“未来场景可能的样子”）或显式的目标坐标（输出“目标物在XYZ位置”）。但这些方式存在三大问题：像素冗余（传递了大量与决策无关的视觉信息）、生成幻觉（预测图像本身可能存在误差）、模块割裂（上下游耦合度低）。

Predictive Policy Latent采用了不同的思路。它使用一种面向动作策略的隐式表征来替代显式信号——

训练阶段：模型可以“看到”动作执行后的未来观测结果，借此学习对任务后果的理解，形成隐式的物理推理表征。
部署阶段：模型无需依赖未来信息，仅凭当前观测即可输出等效的调控信号。

换言之，这条隐式通路在训练时利用“未来信息”教会模型何种动作决策更优，在部署时则仅依靠当前观测就能做出同等质量的判断。这种方式信息密度更高，推理速度更快，且避免了生成式模型可能引入的噪声。

这正是OneModel 1.7区别于现有方案的核心设计：并非简单地将VLA与世界模型拼接，而是通过一条隐式通路，真正实现了从世界理解到动作执行的无缝传导。

三、RL闭环 + Retrieve-then-Steer：让通路持续进化

仅仅打通这条通路仍显不足。训练完成的模型参数是固定的，面对真实部署中层出不穷的长尾场景——例如手部打滑、物体形变、用户临时干预——其零样本泛化能力总有边界。

OneModel 1.7的第二个核心设计，是使这条通路并非一次性建成，而是能够持续增强。这也是模型代号中“RL”的含义所在。

强化学习闭环

在明确的奖励信号、安全约束以及人在环监督下，模型通过真实任务反馈进行策略优化。这使得它能够突破模仿学习“仅能复现示范数据”的上限，自主探索出更稳健、更高效的执行策略。

Retrieve-then-Steer：越用越好的成功记忆

其背后的关键洞察是：现有的评测常将每次测试视为独立的零样本试验，但真实环境中的机器人往往在相同或缓慢变化的环境中反复操作——昨天成功洗过的碗，今天大概率仍会以类似方式清洗。成功的执行本身，就是“经过环境验证的可靠行为模式”。

具体机制如下：

存储：在部署过程中，将经过进度校准的成功“观测-动作”片段存入长期记忆（成功记忆库）。
检索：推理时，从记忆库中检索与当前状态最相关的成功动作片段。
过滤：通过轨迹级一致性检查，过滤掉不一致的候选动作。
引导：将聚合后的精英动作先验，通过置信度自适应的先验引导机制，注入到流匹配动作采样器的中间状态，并根据检索置信度动态调整引导强度。

这意味着OneModel部署后可以“越用越好”——在相对稳定的家庭环境中，机器人每日积累的成功经验将持续提升后续任务的成功率，且这个过程是轻量级的、非参数的，无需重新训练整个模型。

^{图 3：SimplerEnv 平均成功率对比。 Retrieve-then-Steer 将 CogACT 的平均成功率从 75.8% 提升至 79.5%，提升 3.7 个百分点。}

RL闭环与Retrieve-then-Steer形成了互补关系：RL解决的是能力上限问题（突破模仿学习天花板），Retrieve-then-Steer解决的是部署适应问题（无需重训即可自适应）。两条路径协同作用，使得Predictive Policy Latent这条传导通路从“一次性连通”升级为“持续增强”。

四、支撑通路的两大关键模块

Predictive Policy Latent这条主通路要高效运转，还需要两个支撑模块在中段和末端分别解决特定问题。

理解专家 + 技能：通路中段的任务规划器

真实操作任务常包含明确的阶段划分和子目标依赖：叠衣服需先展平、再对折、最后整理边缘；操作洗碗机需识别碗碟类型、选择摆放位置、确认关门。这些结构化的操作流程，既不属于世界模型的环境建模范畴，也不属于动作专家的底层动作生成，而是连接高层理解与底层执行的中间规划层。

理解专家在架构中承担的正是这一角色：接收Predictive Policy Latent的调制信号，对任务进行结构化分解——识别任务阶段、确定子目标依赖关系、调度对应的技能序列。这使得模型在面对新任务组合时能够灵活复用已有技能，在执行长流程任务时不会丢失阶段性目标。

MCF-Proto：通路末端的动作鲁棒性保障

当前，主流VLA模型的骨干网络、预训练方式和数据集都在快速演进，但其动作头的设计却近乎同质化——大多直接在固定的世界坐标系下预测动作命令。这种方式对相机视角变化和机器人初始位姿偏差非常敏感。

MCF-Proto提供了一种不同的解决方案：围绕任务相关的局部运动结构——例如门轴、滑轨、孔位、折叠线——建立“运动中心坐标系”。模型每一步预测一个旋转，在变换后的局部坐标系中，使用一组可学习的动作原型进行组合，再映射回世界坐标系进行端到端训练。

一个有趣的发现是：即使没有显式的方向标签，模型学习到的局部坐标系也会自发形成稳定的几何结构，其坐标轴与示教数据中末端执行器的运动方向高度一致。这使得动作表征变得更加紧凑，仅需更少的主方向就能捕捉变化，并由共享的原型更规则地组织起来。

在LIBERO-plus扰动测试中，MCF-Proto在七类扰动中有六类取得了最优结果。其中最值得关注的是两类几何扰动——在“相机视角变化”扰动下，领先最强基线3.3个百分点（69.7% vs. 66.4%）；在“机器人初始位姿偏差”扰动下，领先优势达到15.7个百分点（66.0% vs. 50.3%）。这两类恰恰是家庭环境中最常见、也最影响动作执行稳定性的变化因素。

^{图 4：LIBERO-plus 七类扰动鲁棒性对比。 MCF-Proto 在 Camera 和 Robot 两类几何扰动下优势最为显著。}

^{图 5：One Model 1.7 FrontoStria-RL 四大核心技术模块总览。}

五、OneModel 1.7与主流具身智能模型对比

为更清晰地理解OneModel 1.7在当前技术格局中的定位，我们将其与主流具身智能模型在架构层面进行对比：

OneModel 1.7的两大独特之处在此对比中尤为突出：

1. 唯一的隐式传导通道。从“规划/中间表征”一项可见，π0.5和GR00T N1.7没有显式的规划表征；π0.7通过未来图像或子目标图像承载世界模型输出，DreamZero则进一步生成未来视频。OneModel 1.7选择了一条不同的路径：通过Predictive Policy Latent，将世界模型的高层理解以隐式表征直接传导至动作策略，不生成任何中间图像或视频，实现了世界理解到动作执行之间的低冗余、高效率连通。

2. 唯一的强化学习闭环。从“强化学习闭环”一项可见，π0.5、GR00T N1.7、π0.7和DreamZero的核心范式均不依赖部署后的强化学习闭环。OneModel 1.7的定位有所不同：它将隐式世界动作模型与强化学习相结合，使机器人在日常使用中不断积累成功经验，并通过Retrieve-then-Steer机制，在不更新模型参数的情况下持续提升后续任务成功率。

六、真机验证：从日常操作到动态对抗

基准测试成绩仅是部分体现。OneModel 1.7在真实机器人平台上，成功覆盖了三类不同难度的任务谱系。

日常操作：平均成功率99%

洗衣、叠衣、操作洗碗机、从传送带上分拣物品——这些任务涉及柔性物体操作、多阶段流程和环境多样性，要求模型在泛化理解与稳定执行之间取得精妙平衡。

高精度操作：平均成功率97%

拔插试管、叠放纸杯、倾倒咖啡豆——这类任务容错空间极小，对末端定位精度、姿态控制和力控稳定性要求极高。MCF-Proto围绕局部运动结构组织动作原型的设计，在此类任务中展现出显著优势。

极限动态任务：乒乓球接球成功率91.2%

真人对打乒乓球对实时感知、轨迹预测和高速动作生成提出了极限要求，是“高动态+高精度”的典型场景。世界模型提供对来球轨迹的快速预测，动作专家在极短时间窗口内生成精准击球动作，RL闭环则通过大量对打训练持续优化击球策略。

^{图 6：日常操作与高精度任务真机验证成功率。}

^{图 7：真人对打乒乓球动作阶段成功率。接球成功率达到 91.2%。}

总结

OneModel 1.7 FrontoStria-RL所回应的，是具身智能从实验室走向真实部署时所面临的一系列系统性问题——世界模型的理解如何有效传导至动作执行、复杂任务如何被结构化分解、动作表达如何对环境扰动保持鲁棒、以及模型如何在部署后持续进化。

它给出的答案是：用Predictive Policy Latent建立一条隐式通路，让世界理解真正驱动动作策略；用理解专家与技能体系为长程任务提供结构化规划；用MCF-Proto确保动作表达对几何扰动保持稳定；用RL闭环与Retrieve-then-Steer使整个系统越用越好。

家庭机器人要真正融入日常生活，依赖的并非更大的参数规模，也不是在特定场景下的偶然成功演示，需要的是一套能够系统性应对泛化、执行与持续更新这三重挑战的模型体系。

OneModel 1.7 FrontoStria-RL是卧安在这一方向上取得的一项重要阶段性成果。对卧安而言，模型发布并非孤立的技术事件，而是与其家庭机器人本体、真实场景数据采集和服务部署体系共同构成了一个完整的生态闭环。随着卧安机器人围绕真实家庭与服务场景持续推进OneModel模型的迭代，可以预见，在不远的将来，机器人将从“能看懂、能行动”，进一步迈向“能适应、能进化、能持久可靠地工作”。