具身智能与人形机器人领域在模型端,尤其是在视觉-语言-动作模型方面的进展显著,过去一年已有长足提升。然而,一旦真正进入实际应用场景,机器人能否实现稳定、高效且长时间的连续操作,依然是值得持续关注的挑战。1月6日,智元机器人研发中心对外发布SOP系统——即“可扩展的在线后训练”,这是一套面向真实世界部署的在线后训练系统。
值得注意的是,这是一套通用的机器人框架,可以即插即用地兼容任意后训练算法。通俗地说,SOP相当于一套“底层操作系统”,各类训练方法都能在这一系统中顺畅运行。

SOP架构示意图。 来源:智元机器人
智元机器人合伙人、高级副总裁兼首席科学家罗剑屿在7日接受包括澎湃科技采访时表示,SOP框架是机器人迈入真实世界作业场景的第一步,也是关键一步。如果这步走不稳,后续所有的探索都将是空中楼阁。
要让机器人在现实场景中大规模运行,通用机器人必须同时满足两个看似矛盾的要求:一方面在复杂多变的环境中保持稳定性和可靠性,另一方面要在任务差异巨大的情况下仍具备良好的泛化能力。
在传统模式下,机器人通常经历“开发—训练—部署—结束”的单向流程:模型在实验室训练完成后被部署到实际环境,一旦遇到新的问题,往往需要重新返回离线训练阶段。
当前主流的VLA预训练模型虽然已具备较强的通用性,但真实世界的部署受限于更高的任务专精需求,以及离线数据采集方式带来的边际效益递减问题。因此,通常需要通过后训练来获得更高的任务成功率。
而SOP尝试打破这一传统路径。其核心目标是让机器人在现实世界中实现分布式、持续性的在线学习,实现边干活、边学习、边纠正。
罗剑屿告诉澎湃科技,在这一训练与运行框架下,让机器人执行越难的任务,越容易产生价值高的负面数据。

SOP在不同预训练数据规模下的对比。 来源:智元机器人
为验证SOP 的效果,智元研究团队让模型在真实环境中连续运行长达 36 小时,执行重复的衣物折叠任务。
相比预训练模型,结合SOP的HG-Dagger人类引导方法,在物品繁杂的商超场景中实现了33% 的整体性能提升。如商超补货、叠衣服、纸盒装配等任务均取得明显进步。
对于灵巧操作任务,比如叠衣服和纸盒装配,引入SOP不仅提升了任务成功率,结合在线经验学习到的错误恢复能力,还能显著提升策略操作的吞吐量。更重要的是,这些任务始终使用的是同一个通用模型。
在具体的落地应用层面,罗剑屿认为,不同场景存在不同程度的落地难度。
工业制造场景对机器人的泛化性要求较少,但对整体作业的成功率、节拍和鲁棒性要求极高;家庭服务和商业超市场景尽管对作业完成成功率和性能不苛刻,但场景更开放、长尾任务更多,风险相对可控;医疗护理则对安全、合规和可解释性提出了最高要求,需从辅助性场景逐步切入。
罗剑屿表示,现阶段最易落地且能明确产生商业价值的场景是工业制造和部分商业服务场景。2026年会在商业超市和部分家庭场景逐步铺开落地。
