首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
智元智元SOP:实现机器人在真实世界的规模化部署与智能运行指南

智元智元SOP:实现机器人在真实世界的规模化部署与智能运行指南

热心网友
59
转载
2026-01-06

IT之家 1 月 6 日消息,智元具身研究中心提出 SOP(Scalable Online Post-training)—— 一套面向真实世界部署的在线后训练系统。最新称,这是业界首次在物理世界的 VLA 后训练中,系统性地融合在线学习、分布式架构与多任务通才性,使机器人集群能够在真实环境中持续进化,让个体经验在群体中高效复用,从而将“规模”转化为“智能”。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈


IT之家附最新介绍如下:

01、真实世界中的规模化智能增长挑战

要在真实世界中大规模运行,通用机器人必须同时满足两个看似矛盾的要求:

在复杂多变的环境中保持稳定性与可靠性在处理差异巨大的任务时,仍具备良好的泛化能力

现有 VLA 预训练模型已经提供了强大的通用性。但真实世界的部署受困于更高的任务专精度要求,以及离线数据采集方式的边际效益递减,往往需要通过后训练获得更高的任务成功率。遗憾的是,当前主流的 VLA 后训练方法仍受离线、单机、串行采集等因素制约,难以支撑高效、持续的真实世界学习。

这些限制并非源自具体算法,而是来自学习范式本身。

02、SOP:分布式在线后训练框架

SOP 的核心目标,是让机器人在真实世界中实现分布式、持续的在线学习。

我们将 VLA 后训练从“离线、单机、顺序”重构为“在线、集群、并行”,形成一个低延迟的闭环系统:多机器人并行执行 → 云端集中在线更新 → 模型参数即时回流。

1.SOP 架构设计


SOP 采用 Actor–Learner 异步架构:

Actor(机器人侧)并行经验采集

多台部署了同一 policy 模型的机器人(actors)在不同地点同时执行多样任务,持续采集成功、失败以及人类接管产生的交互数据。每台机器人的经验数据被汇总传输至云端 Experience Buffer 中。

Learner(云端)在线学习

所有交互轨迹实时上传至云端 learner,形成由在线数据与离线专家示教数据组成的数据池。

系统通过动态重采样策略,根据不同任务的性能表现,自适应调整在线 / 离线数据比例,以更高效地利用真实世界经验。

即时参数同步

更新后的模型参数在分钟级别内同步回所有机器人,实现集群一致进化,维持在线训练的稳定性。

SOP 本身是一套通用的框架,可以即插即用的使用任意后训练算法,让 VLA 从在线经验数据中获益。我们选取 HG-DAgger(交互式模仿学习)与 RECAP(离线强化学习)作为代表性算法,将其接入 SOP 框架以进化为分布式在线训练。

2.关键优势

高效状态空间探索

分布式多机器人并行探索,显著提升状态–动作覆盖率,避免单机在线学习的局限。

缓解分布偏移

所有机器人始终基于低延迟的最新策略进行推理采集,提升在线训练的稳定性与一致性。

在提升性能的同时保留泛化能力

传统的单机在线训练往往会使模型退化为只擅长单一任务的“专家”,SOP 通过空间上的并行而非时间上的串行,在提升任务性能的同时保留 VLA 的通用能力,避免退化为单任务专家。

3.实验评估:性能提升与预训练的关系

我们围绕三个问题系统评估 SOP:

1、SOP 能为预训练 VLA 带来多大性能提升?

实验结果说明,在各类测试场景下,结合 SOP 的后训练方法均得到了显著的性能提升。相比预训练模型,结合 SOP 的 HG-Dagger 方法在物品繁杂的商超场景中实现了 33% 的综合性能提升。对于灵巧操作任务(叠衣服和纸盒装配),SOP 的引入不仅提升了任务的成功率,结合在线经验学习到的错误恢复能力还能明显提升策略操作的吞吐量。

结合 SOP 的 HG-Dagger 方法让叠衣服的相比 HG-Dagger 吞吐量跃升 114%。SOP 让多任务通才的性能普遍提升至近乎完美,不同任务的成功率均提升至 94% 以上,纸盒装配更是达到 98% 的成功率。


SOP 性能提升

为了进一步测试真机 SOP 训练后 VLA 模型是否达到专家级性能,我们让 SOP 训练的 VLA 模型进行了长达 36 小时的连续操作,模型展现出了惊人的稳定性和鲁棒性,能够有效应对真实世界中出现的各种疑难杂症。

完整视频请访问我们的 :

2、机器人规模如何影响学习效率

我们使用了三种机器人队伍数量(单机、双机、四机配置),在同样的数据传送总量的基础上,进行了比较。实验结果表明,在相同的总训练时间下,更多数量的机器人带来了更高的性能表现。在总训练时间为 3 小时的限制下,四机进行学习的最终成功率达到了 92.5%,比单机高出 12%。我们认为,多机采集可以有效阻止模型过拟合到单机的特定特征上。同时,SOP 还将硬件的扩展转化为了学习时长的大幅缩短,四机器人集群相比单机能够将模型达到目标性能的训练速度增至 2.4 倍。


SOP 学习效率提升

3、不同预训练规模下 SOP 是否稳定有效?

最后,我们探究了 SOP 和预训练数据之间的关系。我们把总量为 160 小时的多任务预训练数据分为了三组:20 小时,80 小时和 160 小时,分别训练一组初始模型后再进行 SOP。我们发现,预训练的规模决定了基座模型和后训练提升的轨迹。SOP 能为所有初始模型带来稳定的提升,且最终性能与 VLA 预训练质量正相关。

同时,对比 80 小时和 160 小时实验效果,我们也可以明显注意到,在解决特定失败情况时,在轨策略经验带来了非常显著的边际效果。SOP 在三小时的在轨经验下就获得了约 30% 的性能提升,而 80 小时额外人类专家数据只带来了 4% 的提升。这说明在预训练出现边际效应递减的情况下,SOP 能够高效突破 VLA 性能瓶颈。


SOP 在不同预训练数据规模下的对比

4.部署即进化:重塑机器人生命周期

最后我们将机器人队伍放到了预训练模型没有见到的真实新环境下执行任务,并使用 SOP 进行在线训练。

当机器人被置于不同的环境时,即便是同样的任务,起初成功率和吞吐量如预期般下降,但在 SOP 介入仅仅几个小时后,机器人的性能便显著回升,能够鲁棒地执行相对复杂的实际任务。

结语

SOP 改变的不仅是训练范式,更是机器人系统的生命周期。我们相信机器人不应当是“性能固定的标品”,而是“在真实世界中持续提升的生命体”。部署不是技术迭代的终点,而是更大规模学习的起点。如果说 VLA 让机器人第一次具备了通用理解与行动能力,那么 SOP 所做的是让众多机器人的经验共同驱动智能的快速成长。训练不被锁死在过去,智能成长在当下。

来源:https://www.163.com/dy/article/KIJVVKLV0511B8LM.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

OpenClaw人人养虾:接入Discord
AI
OpenClaw人人养虾:接入Discord

Discord接入:让OpenClaw成为你的社区智能管家 对于全球数亿的游戏玩家和社群爱好者来说,Discord几乎等同于线上“大本营”。那么,有没有可能让你精心搭建的Discord服务器也拥有一个聪明能干的AI助手呢?答案是完全可行。通过创建Discord Bot(机器人),你可以将OpenCl

热心网友
04.15
Claude强到不敢发的Mythos,被质疑用了字节Seed技术
AI
Claude强到不敢发的Mythos,被质疑用了字节Seed技术

Claude最强“神话”模型,可能用到来自字节的技术? 这条猜测直接冲上了热搜榜。 这款被形容为“强到不敢公开发布”的Mythos模型,确实极大地刺激了人们对下一代大语言模型架构的想象空间。 社区讨论的焦点,正集中在它是否采用了“循环语言模型”(Looped Language Model)这一创新架

热心网友
04.14
DeepSeek上线专家模式:国产AI激战正酣,V4能否复刻去年春节炸场?
科技数码
DeepSeek上线专家模式:国产AI激战正酣,V4能否复刻去年春节炸场?

国产大模型DeepSeek迎来重大更新:快速模式与专家模式上线 最新消息显示,国产AI大模型DeepSeek再次迎来重要升级。4月8日,用户在访问DeepSeek时发现,输入框上方新增了“快速模式”与“专家模式”两个选项。根据官方说明,快速模式专注于日常对话场景,响应速度快,同时支持图片和文件中的文

热心网友
04.14
OpenClaw人人养虾:接入飞书
AI
OpenClaw人人养虾:接入飞书

飞书接入指南:为你的团队嵌入一位AI同事 如果你身处国内互联网或科技行业,对飞书这款高效协作平台一定非常熟悉。如今,它已不仅是团队沟通工具,更成为众多企业的数字化工作中枢。那么,能否让团队成员在飞书内部,直接调用强大的AI智能助手来提升效率呢?答案是肯定的。本指南将手把手教你,如何将OpenClaw

热心网友
04.14
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26
AI
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

面对复杂连续任务的长程规划,现有的生成式离线强化学习方法往往会暴露短板。它们生成的轨迹经常陷入局部合理但全局偏航的窘境。它们太关注眼前的每一步,却忘了最终的目的地。针对这一痛点,厦门大学和香港科技大

热心网友
04.07

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

医院标语文明就医分享20条
职业与学业
医院标语文明就医分享20条

当代互联网技术飞速进步,口号已成为普遍被使用的短语 在信息爆炸的今天,一句精炼有力的口号,往往能迅速传递品牌或活动的核心理念,甚至演变为一种深入人心的文化符号。那么,哪些标语能够真正触动人心,将抽象的服务宗旨转化为具体可感的信任呢?本文将聚焦于医疗健康这一特殊领域,为您深度解读一组关于文明就医与人文

热心网友
04.18
微软build大会 是什么?基础说明与使用场景
业界动态
微软build大会 是什么?基础说明与使用场景

微软年度开发者盛会概览微软Build大会是该公司每年面向全球开发者、工程师和技术决策者举办的最重要技术盛会。它不仅是微软展示其最新技术成果、平台更新和未来愿景的舞台,更是开发者们获取前沿知识、学习最佳实践以及直接与产品团队交流的核心渠道。大会通常持续数日,包含主题演讲、技术深度解析、实践工作坊以及丰

热心网友
04.18
大航海时代起源WhatIstheEnglishNameofDaHaiYangShiDaiQiYuan
游戏攻略
大航海时代起源WhatIstheEnglishNameofDaHaiYangShiDaiQiYuan

《大航海时代起源》:在无垠海域中,书写你自己的航海史诗 《大航海时代起源》(英文名“Uncharted Waters Origin”)的核心魅力,正如其名,在于开启一段关于自由探索、跨洋贸易与开拓未知疆域的宏大冒险。游戏从角色创建伊始,便将命运的舵盘交予玩家。性别、外貌乃至性格倾向,这些基础的自定义

热心网友
04.18
38集刑侦剧来袭,张若昀、焦俊艳二搭,王劲松、韩童生坐镇
娱乐
38集刑侦剧来袭,张若昀、焦俊艳二搭,王劲松、韩童生坐镇

《完美证据》:一场“慢”与“快”的七年对赌 在当下追求“拍完即播”的影视快消时代,《完美证据》的出现,宛如一位闯入百米赛道的马拉松选手。当行业竞逐速度时,它却历经七年打磨才姗姗来迟。观众不禁好奇:耗时如此之久,这部剧究竟在打磨什么?它的“慢”,是否藏着独特的价值? 审视其时间线,最值得玩味的或许不是

热心网友
04.18
AI食谱生成器
AI
AI食谱生成器

AI食谱生成器是什么 简单说,它是一种能帮你“凭空变出”菜谱的智能助手。这工具由多个技术团队合力开发,核心目标很明确:让每个人,无论是经常下班的上班族,还是爱钻研美食的厨艺爱好者,都能根据手边有的食材和个人口味,快速获得一份专属的烹饪方案。它让做饭这件事,从“今晚吃什么”的难题,变得轻松、个性,甚至

热心网友
04.18