首个面向家庭的机器人动作模型亮相具身智能新范式

时间：2026-05-23 22:52

未来不远机器人推出自进化世界动作模型，旨在解决家庭机器人的认知与控制难题。该模型通过在线推理生成多条候选轨迹，经现实结果校准后，由进化裁判筛选高质量数据用于训练，从而积累动作结果并形成可迭代的决策知识。系统采用分层架构，从感知编码到在线想象，再到现实对齐与。

让机器人收拾餐桌，结果它一把抓起盘子——力道过大，碎了；接着还想把碎瓷片放进洗碗机，完全意识不到危险。

这听起来像段子，却是当前家庭机器人面临的真实困境。它们要么是只会执行固定程序的“机械呆子”，要么就成了决策完全不可知的“黑盒赌徒”。前者不够聪明，后者则根本谈不上可靠。

家庭环境恰恰是人类最复杂、最动态、也最需要安全的空间。一个能与人共处的机器人，必须同时具备两种看似矛盾的能力：高层认知，以理解模糊指令、规划任务并应对意外；以及物理直觉，以实现精确控制、实时适应环境，并避免损坏物品或伤人。任何只解决其中一方面的模型，都难以成为合格的“家人”。

行业里，世界模型是常见路线，旨在让机器人在行动前预测未来。无论是试图直接从视觉映射到动作的视频-动作世界模型（如UAG架构），还是将感知直接映射控制的传统VLA，亦或是增加了“先想象再执行”环节的普通WAM，它们都有一个共同的局限：只把想象当作在线决策的工具，却没有把想象过程本身，转化为可训练、可积累的数据资产。

未来不远机器人提出的Self-Evolving WAM（自进化世界动作模型），其核心判断正在于此：仅仅把WAM当作在线控制器，是低估了它的价值。决定长期领先优势的，并非某一次动作选得更准，而在于模型每一次“思考”时产生的候选路径、评估与决策边界，能否被系统地保存、校准、挖掘，并反过来训练下一代模型。

这才是Self-Evolving WAM的根本差异所在。

我们可以这样理解其工作流：传统VLA是“观察→动作”；普通WAM是“观察→想象未来→动作”；而Self-Evolving WAM则是“观察→想象K种未来→执行动作→现实校准→存储推演训练”。

关键在于，机器人每一次执行，收获的不仅是一个成败结果，更沉淀下一组宝贵的训练资产：它当时设想了哪些选项、为何选择其中一条、其他候选为何被放弃、现实结果又如何校准了这些判断。

这里的“自进化”并非让模型凭空生成无限数据，也不是用幻想数据污染训练集。未来不远机器人的设计非常克制：系统将在线推理时自然生成的K条候选轨迹全部存储下来；用真实执行结果校准被选中的那条；再由一个“进化裁判”机制，判断这些已存储的轨迹中，哪些值得、以何种权重、进入哪个训练缓冲区。

这套架构如同为机器人配备了一个“第二大脑”，但它绝非不可解释的黑盒。其内部被清晰地拆分为四个层级，每一层都有明确的输入、输出和责任边界。

1. 现实到潜空间的接口：收束唯一输入包

第一层并非简单拼接摄像头、语言和关节状态。它的核心任务，是将这些异构信息转换成WAM能够统一处理的“条件数据包”。视觉编码器处理多视角视频、深度或短时历史帧，输出世界潜在状态；文本编码器解析用户目标与约束，输出目标标记；本体感知编码器接收关节角、末端位姿、夹爪状态及力反馈，输出身体状态标记；动作分词器则将历史连续动作转换为动作标记，也能在后续将动作标记解码回可执行的动作块。

如此一来，第一层到第二层的交接就非常清晰：第二层的WAM面对的，不再是杂乱的原始传感器流，而是同一个潜在空间里的世界状态、目标任务、身体姿态和动作历史。例如，当机器人要将杯子放进水槽时，这个“条件数据包”里就同时包含了杯子和水槽的相对位置、语言指令“放进水槽”、夹爪的当前姿态，以及手臂刚刚的接近方向。WAM后续的所有想象，都围绕这个统一的输入包展开。

2. 在线想象引擎：生成并存储K条候选

第二层是在线想象引擎，其核心可以是共享的WAM Transformer或扩散Transformer。它基于“条件数据包”，生成K条候选轨迹。每条轨迹都不是一个孤立的动作，而是一组“未来-动作”组合：包括预测的未来潜在状态或视频、接下来一小段可执行的动作块、轨迹嵌入，以及由多个评估头给出的价值、风险、不确定性和失败原因预估。

这些评估头分工明确：视频未来头负责预测物体的移动、液体的晃动、接触关系的变化；动作头负责生成可执行的动作片段；价值/风险/不确定性头则分别估计成功率、风险水平和置信度；失败原因头会提前指出潜在的失败点，例如错误的接触点、物体滑动、碰撞、用力过度、遮挡或时机不匹配。

以抓取杯子为例。K条候选轨迹中，选项A可能是从杯口上方抓取，模型预测杯子会倾斜，价值评分0.42，失败原因为“错误接触点”；选项B是从杯身中部抓取，模型预测能稳定拿起，价值评分0.86；选项C是先把杯子推到桌边再抓，模型评估有掉落风险，风险值很高；选项D则是绕开旁边的玻璃杯后从侧面抓取，路径更长但更稳妥。在线的动作选择器通常会执行B，但A、C、D这三条未被选择的轨迹并不会被丢弃，它们将与B一同被写入执行记录。

3. 现实对齐：用真实世界校准模型想象

第三层是现实对齐。机器人执行选项B后，真实世界会反馈实际结果。系统会将B轨迹中“想象的未来”与“实际的未来”进行比对校准：模型以为杯子会稳定，但现实显示杯子在第6个动作步出现了轻微滑动；模型给出的风险值是0.12，现实表明风险被低估了；模型没有预测到物体滑动，而视频、力反馈和夹爪传感器都证实滑动发生了。

现实比较器的输出不是简单的“成功”或“失败”标签，而是一组对齐信号，包括预测误差、接触误差、时机误差、价值高估、风险低估、临界失误分数、可恢复性下降等。这些信号精确地告诉系统：模型哪里想错了、错得有多严重、是否属于侥幸过关的“临界失误”、是不是高置信度的误判、以及是否还有补救空间。

这里有一个必须厘清的边界：真实世界只直接验证了被执行的那条轨迹。A、C、D没有真实执行，因此不能作为强监督的“真值”标签。但它们依然具有训练价值，因为它们记录了模型在特定状态、目标和版本下所做的候选决策边界。后续的“进化裁判”会以不同的信任等级来处理它们，而非简单地全盘接收。

4. 自主进化引擎：挖掘已存储的K条轨迹

第四层是自主进化引擎。在其最终收敛的版本中，它只保留三个核心组件：失败知识提取器、基于存储K条轨迹的进化裁判、以及训练袋里。第一阶段并未引入额外的数据生成模块，核心目标是确保自进化闭环本身是可信、可控、可验证的。

失败知识提取器的输入，包括被执行轨迹、对齐信号，以及第二层失败原因头当时的预测。其输出是一条结构化的失败或临界失误知识记录。在上述杯子例子中，它会记录：这并非完全失败，而是一次临界成功；主要风险是物体滑动；发生在第6个动作步；区域是杯身侧壁；模型错误在于低估了风险；最小修正方案可能是增大抓握力、将接触点略微下移、或降低移动速度。

再看洗碗机场景。模型执行将碗放入架子的动作，现实中碗边被卡住。失败知识提取器会将其解析为“错误插入角度+碰撞”，发生区域在碗沿与架子插槽之间，模型高估了动作价值，最小修正是先将碗旋转8到12度再下放。如此一来，失败不再仅仅是难以利用的视频日志，而是变成了可检索、可统计、可训练的结构化知识。

先发优势：每一步都沉淀资产

传统的视频-动作世界模型（如UAG）试图用一个端到端网络完成从视觉到动作的映射。其优势是演示流畅，但劣势在于“黑盒”——你无从知晓它为何成功，更不明白为何失败。一旦犯错，唯一的办法就是喂入更多数据，祈祷模型自己能学会修正。

而Self-Evolving WAM从设计之初，就将可解释性与可积累性嵌入了架构。每一次真实执行，无论成败，都会产出四类资产：一条被现实验证的轨迹（实际结果）；K-1条虽未执行但富含信息的候选轨迹（包括失败预测和备选路径）；一组对齐误差信号（指明模型错在何处）；以及结构化的失败知识（错误类型、发生位置、最小修正方案）。

这意味着，未来不远机器人的先发优势并非源于“提前采集了三年数据”，而是基于“每台机器人每天产生的训练资产质量更高、信息密度更大”。后来者即使获得同样的演示数据，也无法获得同等质量的“决策边界”数据。

后发优势：架构可吸收所有未来技术进步

或许有人会问：如果未来出现了更强的视觉模型、语言模型或扩散生成器，Self-Evolving WAM是否会被碘伏？

答案恰恰相反。这套架构的第四层（自主进化）天然具备模块化吸收能力：“条件数据包”可以接入任何新一代的视觉编码器；“在线想象引擎”可以替换为更先进的Transformer或扩散模型；“进化裁判”自身的训练规则也可以持续优化。

换言之，Self-Evolving WAM并非一条封闭的技术路线，而是一个能够不断自我迭代的元框架。任何底层单点技术的进步，都可以被它吸收、校准，并用于提升物理直觉。后来者即使拥有更强的单点模型，也难以绕过“将想象过程转化为可训练资产”这一核心设计——而这正是未来不远机器人已经完整实现的系统级能力。

如果用一句话概括这套架构：它并非让机器人凭空做梦来训练自己，而是将WAM在线推理时已经产生的K条候选未来全部存储下来，用真实结果进行校准，再由“进化裁判”判断哪些值得用于训练。于是，每一次真实执行收获的不仅是一个动作结果，更是一组关于模型决策边界的训练资产。

这条路线的终极目标，不是把家庭机器人变成一个更大的黑盒，而是赋予它一套可以被检查、被纠正、并持续进化的物理直觉。

在众多机器人“大脑”技术路线中，视频-动作直连世界模型追求的是“惊艳的演示”，单一VLA追求的是“端到端的简洁”，而未来不远机器人的Self-Evolving WAM，追求的是一套越用越强、自我校准、可解释、可进化的物理直觉系统。

其范式价值体现在：它不依赖幻想数据，仅以真实执行产生的候选轨迹作为训练燃料；它将每一次失败转化为结构化知识，而非丢弃的日志；它具备模块化吸收未来技术进步的开放性；它在工程上分阶段可验证，商业化路径清晰。

对于家庭机器人这个万亿级市场，最终能走入千家万户的，或许不是演示最流畅的“天才”，而是犯错后能自我修正、越用越稳的“家人”。Self-Evolving WAM所提供的，正是这种能力。它很可能成为家庭机器人大脑的最优解之一，为行业提供全新的发展范式。凭借这一路线的先发优势与持续吸收后发技术的能力，未来不远机器人有望在未来的竞争中保持长期领先，并真正推动家庭通用机器人的普及。

当其他模型仍在比拼一次性的演示成功率时，Self-Evolving WAM已经在让机器人学会“从每一次物理交互中成长”。这，或许才是家庭机器人走向成熟形态的正确方向。

来源：https://www.ithome.com/0/954/098.htm

具身智能

上一篇Figure机器人实现工厂作业200小时无故障运行直播圆满结束 下一篇魏建军感谢于东来支援环塔拉力赛红牛千箱胖东来厨师助阵

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。