首个面向家庭的机器人动作模型亮相具身智能新范式
让机器人收拾餐桌,结果它一把抓起盘子——力道过大,碎了;接着还想把碎瓷片放进洗碗机,完全意识不到危险。
这听起来像段子,却是当前家庭机器人面临的真实困境。它们要么是只会执行固定程序的“机械呆子”,要么就成了决策完全不可知的“黑盒赌徒”。前者不够聪明,后者则根本谈不上可靠。
家庭环境恰恰是人类最复杂、最动态、也最需要安全的空间。一个能与人共处的机器人,必须同时具备两种看似矛盾的能力:高层认知,以理解模糊指令、规划任务并应对意外;以及物理直觉,以实现精确控制、实时适应环境,并避免损坏物品或伤人。任何只解决其中一方面的模型,都难以成为合格的“家人”。
行业里,世界模型是常见路线,旨在让机器人在行动前预测未来。无论是试图直接从视觉映射到动作的视频-动作世界模型(如UAG架构),还是将感知直接映射控制的传统VLA,亦或是增加了“先想象再执行”环节的普通WAM,它们都有一个共同的局限:只把想象当作在线决策的工具,却没有把想象过程本身,转化为可训练、可积累的数据资产。
未来不远机器人提出的Self-Evolving WAM(自进化世界动作模型),其核心判断正在于此:仅仅把WAM当作在线控制器,是低估了它的价值。决定长期领先优势的,并非某一次动作选得更准,而在于模型每一次“思考”时产生的候选路径、评估与决策边界,能否被系统地保存、校准、挖掘,并反过来训练下一代模型。
这才是Self-Evolving WAM的根本差异所在。
我们可以这样理解其工作流:传统VLA是“观察→动作”;普通WAM是“观察→想象未来→动作”;而Self-Evolving WAM则是“观察→想象K种未来→执行动作→现实校准→存储推演训练”。
关键在于,机器人每一次执行,收获的不仅是一个成败结果,更沉淀下一组宝贵的训练资产:它当时设想了哪些选项、为何选择其中一条、其他候选为何被放弃、现实结果又如何校准了这些判断。
这里的“自进化”并非让模型凭空生成无限数据,也不是用幻想数据污染训练集。未来不远机器人的设计非常克制:系统将在线推理时自然生成的K条候选轨迹全部存储下来;用真实执行结果校准被选中的那条;再由一个“进化裁判”机制,判断这些已存储的轨迹中,哪些值得、以何种权重、进入哪个训练缓冲区。
这套架构如同为机器人配备了一个“第二大脑”,但它绝非不可解释的黑盒。其内部被清晰地拆分为四个层级,每一层都有明确的输入、输出和责任边界。
1. 现实到潜空间的接口:收束唯一输入包
第一层并非简单拼接摄像头、语言和关节状态。它的核心任务,是将这些异构信息转换成WAM能够统一处理的“条件数据包”。视觉编码器处理多视角视频、深度或短时历史帧,输出世界潜在状态;文本编码器解析用户目标与约束,输出目标标记;本体感知编码器接收关节角、末端位姿、夹爪状态及力反馈,输出身体状态标记;动作分词器则将历史连续动作转换为动作标记,也能在后续将动作标记解码回可执行的动作块。
如此一来,第一层到第二层的交接就非常清晰:第二层的WAM面对的,不再是杂乱的原始传感器流,而是同一个潜在空间里的世界状态、目标任务、身体姿态和动作历史。例如,当机器人要将杯子放进水槽时,这个“条件数据包”里就同时包含了杯子和水槽的相对位置、语言指令“放进水槽”、夹爪的当前姿态,以及手臂刚刚的接近方向。WAM后续的所有想象,都围绕这个统一的输入包展开。
2. 在线想象引擎:生成并存储K条候选
第二层是在线想象引擎,其核心可以是共享的WAM Transformer或扩散Transformer。它基于“条件数据包”,生成K条候选轨迹。每条轨迹都不是一个孤立的动作,而是一组“未来-动作”组合:包括预测的未来潜在状态或视频、接下来一小段可执行的动作块、轨迹嵌入,以及由多个评估头给出的价值、风险、不确定性和失败原因预估。
这些评估头分工明确:视频未来头负责预测物体的移动、液体的晃动、接触关系的变化;动作头负责生成可执行的动作片段;价值/风险/不确定性头则分别估计成功率、风险水平和置信度;失败原因头会提前指出潜在的失败点,例如错误的接触点、物体滑动、碰撞、用力过度、遮挡或时机不匹配。
以抓取杯子为例。K条候选轨迹中,选项A可能是从杯口上方抓取,模型预测杯子会倾斜,价值评分0.42,失败原因为“错误接触点”;选项B是从杯身中部抓取,模型预测能稳定拿起,价值评分0.86;选项C是先把杯子推到桌边再抓,模型评估有掉落风险,风险值很高;选项D则是绕开旁边的玻璃杯后从侧面抓取,路径更长但更稳妥。在线的动作选择器通常会执行B,但A、C、D这三条未被选择的轨迹并不会被丢弃,它们将与B一同被写入执行记录。
3. 现实对齐:用真实世界校准模型想象
第三层是现实对齐。机器人执行选项B后,真实世界会反馈实际结果。系统会将B轨迹中“想象的未来”与“实际的未来”进行比对校准:模型以为杯子会稳定,但现实显示杯子在第6个动作步出现了轻微滑动;模型给出的风险值是0.12,现实表明风险被低估了;模型没有预测到物体滑动,而视频、力反馈和夹爪传感器都证实滑动发生了。
现实比较器的输出不是简单的“成功”或“失败”标签,而是一组对齐信号,包括预测误差、接触误差、时机误差、价值高估、风险低估、临界失误分数、可恢复性下降等。这些信号精确地告诉系统:模型哪里想错了、错得有多严重、是否属于侥幸过关的“临界失误”、是不是高置信度的误判、以及是否还有补救空间。
这里有一个必须厘清的边界:真实世界只直接验证了被执行的那条轨迹。A、C、D没有真实执行,因此不能作为强监督的“真值”标签。但它们依然具有训练价值,因为它们记录了模型在特定状态、目标和版本下所做的候选决策边界。后续的“进化裁判”会以不同的信任等级来处理它们,而非简单地全盘接收。
4. 自主进化引擎:挖掘已存储的K条轨迹
第四层是自主进化引擎。在其最终收敛的版本中,它只保留三个核心组件:失败知识提取器、基于存储K条轨迹的进化裁判、以及训练袋里。第一阶段并未引入额外的数据生成模块,核心目标是确保自进化闭环本身是可信、可控、可验证的。
失败知识提取器的输入,包括被执行轨迹、对齐信号,以及第二层失败原因头当时的预测。其输出是一条结构化的失败或临界失误知识记录。在上述杯子例子中,它会记录:这并非完全失败,而是一次临界成功;主要风险是物体滑动;发生在第6个动作步;区域是杯身侧壁;模型错误在于低估了风险;最小修正方案可能是增大抓握力、将接触点略微下移、或降低移动速度。
再看洗碗机场景。模型执行将碗放入架子的动作,现实中碗边被卡住。失败知识提取器会将其解析为“错误插入角度+碰撞”,发生区域在碗沿与架子插槽之间,模型高估了动作价值,最小修正是先将碗旋转8到12度再下放。如此一来,失败不再仅仅是难以利用的视频日志,而是变成了可检索、可统计、可训练的结构化知识。
先发优势:每一步都沉淀资产
传统的视频-动作世界模型(如UAG)试图用一个端到端网络完成从视觉到动作的映射。其优势是演示流畅,但劣势在于“黑盒”——你无从知晓它为何成功,更不明白为何失败。一旦犯错,唯一的办法就是喂入更多数据,祈祷模型自己能学会修正。
而Self-Evolving WAM从设计之初,就将可解释性与可积累性嵌入了架构。每一次真实执行,无论成败,都会产出四类资产:一条被现实验证的轨迹(实际结果);K-1条虽未执行但富含信息的候选轨迹(包括失败预测和备选路径);一组对齐误差信号(指明模型错在何处);以及结构化的失败知识(错误类型、发生位置、最小修正方案)。
这意味着,未来不远机器人的先发优势并非源于“提前采集了三年数据”,而是基于“每台机器人每天产生的训练资产质量更高、信息密度更大”。后来者即使获得同样的演示数据,也无法获得同等质量的“决策边界”数据。
后发优势:架构可吸收所有未来技术进步
或许有人会问:如果未来出现了更强的视觉模型、语言模型或扩散生成器,Self-Evolving WAM是否会被碘伏?
答案恰恰相反。这套架构的第四层(自主进化)天然具备模块化吸收能力:“条件数据包”可以接入任何新一代的视觉编码器;“在线想象引擎”可以替换为更先进的Transformer或扩散模型;“进化裁判”自身的训练规则也可以持续优化。
换言之,Self-Evolving WAM并非一条封闭的技术路线,而是一个能够不断自我迭代的元框架。任何底层单点技术的进步,都可以被它吸收、校准,并用于提升物理直觉。后来者即使拥有更强的单点模型,也难以绕过“将想象过程转化为可训练资产”这一核心设计——而这正是未来不远机器人已经完整实现的系统级能力。
如果用一句话概括这套架构:它并非让机器人凭空做梦来训练自己,而是将WAM在线推理时已经产生的K条候选未来全部存储下来,用真实结果进行校准,再由“进化裁判”判断哪些值得用于训练。于是,每一次真实执行收获的不仅是一个动作结果,更是一组关于模型决策边界的训练资产。
这条路线的终极目标,不是把家庭机器人变成一个更大的黑盒,而是赋予它一套可以被检查、被纠正、并持续进化的物理直觉。
在众多机器人“大脑”技术路线中,视频-动作直连世界模型追求的是“惊艳的演示”,单一VLA追求的是“端到端的简洁”,而未来不远机器人的Self-Evolving WAM,追求的是一套越用越强、自我校准、可解释、可进化的物理直觉系统。
其范式价值体现在:它不依赖幻想数据,仅以真实执行产生的候选轨迹作为训练燃料;它将每一次失败转化为结构化知识,而非丢弃的日志;它具备模块化吸收未来技术进步的开放性;它在工程上分阶段可验证,商业化路径清晰。
对于家庭机器人这个万亿级市场,最终能走入千家万户的,或许不是演示最流畅的“天才”,而是犯错后能自我修正、越用越稳的“家人”。Self-Evolving WAM所提供的,正是这种能力。它很可能成为家庭机器人大脑的最优解之一,为行业提供全新的发展范式。凭借这一路线的先发优势与持续吸收后发技术的能力,未来不远机器人有望在未来的竞争中保持长期领先,并真正推动家庭通用机器人的普及。
当其他模型仍在比拼一次性的演示成功率时,Self-Evolving WAM已经在让机器人学会“从每一次物理交互中成长”。这,或许才是家庭机器人走向成熟形态的正确方向。
相关攻略
未来不远机器人推出自进化世界动作模型,旨在解决家庭机器人的认知与控制难题。该模型通过在线推理生成多条候选轨迹,经现实结果校准后,由进化裁判筛选高质量数据用于训练,从而积累动作结果并形成可迭代的决策知识。系统采用分层架构,从感知编码到在线想象,再到现实对齐与。
越疆机器人十年出货超10万台,目标2025年全球协作机器人出货量第一。公司以全栈自研技术构建“一脑多体”具身智能平台,通过场景数据闭环驱动迭代,已在工业、商业、教育等领域实现规模化应用,并联合生态伙伴推动技术落地与产业升级。
具身智能在工业场景的应用持续深化,如AI剥虾机与纺织机器人已展现处理复杂、小批量任务的潜力。当前行业在巡检、制造等多领域布局,但大规模商业化仍需突破成本与泛化能力等瓶颈,投资回报率成为衡量场景成熟的关键。
元节智能获千万级种子轮融资,专注研发餐饮后厨具身世界模型。公司由美团外卖前技术负责人王栋博士创立,技术核心是通过预测动作后果进行机器人规划,以解决后厨订单履约等痛点。目前已获多家头部企业合作意向,计划从打包环节切入,逐步构建智能后厨操作系统。
中国机器人出口增长迅速,但多数仍用于科研文娱。行业正转向工厂等真实场景,强调量产与稳定交付。企业出海呈现产品渗透、场景落地、生态卡位和部件嵌入四大路径,核心是从硬件销售转向可持续的产业闭环。竞争焦点已从技术叙事转向实际交付能力与商业化验证。
热门专题
热门推荐
MiniCPM-o 4 5是什么 在探索更自然、更智能的人机交互道路上,我们始终在期待一个“全能型选手”的到来。如今,这个角色或许已经登场。面壁智能最新开源的MiniCPM-o 4 5,一个仅拥有90亿参数的全模态大模型,正致力于重新划定“智能对话”的边界。 它彻底颠覆了传统一问一答的“对讲机”式交
Binance币安 欧易OKX ️ Huobi火币️ 想在2025年安全获取欧易OKX的正版APP?其实秘诀就一个:认准官方网站,避开所有仿冒和可疑的下载渠道。要知道,欧易现已统一更名为欧易OKX,其核心业务始终围绕数字资产交易及相关服务展开。 确认官方网站地址 第一步,打开浏览器,手动输入欧易OK
SecondMe Book是什么 在AI社交这一前沿赛道,一款国产平台正带来独特的解决方案。SecondMe Book,本质上是一个能够让你构建个人AI数字分身的创新平台。它允许用户创建一个能够代表真实自我风格与思维的AI数字身份,并让这个“第二自我”在一个专属的AI社交网络中自主运行——包括主动发
在AI大模型技术快速发展的今天,如何在卓越性能与高效推理成本之间取得最佳平衡,已成为行业关注的核心焦点。近期,由阶跃星辰推出的开源模型Step 3 5 Flash引发了广泛热议。该模型专为智能体(AI Agent)应用场景深度优化,旨在顶尖能力与亲民部署成本之间,构建一个极具竞争力的技术支点。 简而
LongCat-Flash-Lite是什么 在探索大语言模型性能与效率的最佳平衡点时,美团近期推出的LongCat-Flash-Lite提供了一个极具创新性的解决方案。作为新一代高效大语言模型,它凭借其突破性的架构设计,在人工智能领域获得了广泛关注。 简而言之,该模型创新性地融合了“混合专家系统(M





