自变量发布新一代具身智能模型WALL-B 破解家庭场景应用难题

首页

热心网友

转载

2026-05-18

早上七点，闹钟响了。你从床上爬起来，走到客厅。拖鞋不知踢到哪里，厨房的碗还没洗，孩子的书包扔在地上，猫打翻了一杯水。在自变量创始人兼CEO王潜看来，这种家庭环境的本质就是随机、碎片和不断变化的。他直言，目前全球没有任何一台机器人能在无人遥控的情况下，独立搞定上述场景里的综合整理任务。

这背后的原因是什么？舞台上的后空翻、跳街舞、写毛笔字，这些机器人演示视觉冲击力固然强，但本质上都是预设轨迹的“命令行机器人”，每一个动作都经过精密编程或远程操控。即便是工厂里已经大规模部署的工业机器人，也构不成可比案例。工厂环境追求的是极致稳定，一个动作可以重复一万次，且每次条件都一模一样。但家庭呢？一万个动作可能每个只做一次，而且每次的环境条件都天差地别。正因如此，让机器人真正进入家庭，被普遍视为“这个时代最难的技术问题之一”。

4月21日，自变量机器人发布了新一代自研的具身智能基础模型WALL-B。这个模型基于世界统一模型架构（World Unified Model, WUM），标志着具身基础模型从传统的VLA架构，向原生多模态融合架构的一次重大跨越。更关键的是，自变量宣布，搭载WALL-B的新一代机器人将在35天后，也就是5月25日，首批入驻真实家庭。

在具体应用上，自变量与58同城达成了合作。他们将把搭载WALL-AS模型的机器人送入真实家庭，与保洁阿姨协同作业。这不再是实验室里的演示，而是机器人真正踏入人类复杂的家居生活，开始提供服务。

架构革命：从“各自为政”到“融为一体”

据自变量联合创始人兼CTO王昊介绍，WALL-B真正区别于行业其他方案的核心，在于其从VLA到WUM的架构革命。这个设计思路，可以类比苹果的Apple Silicon统一内存架构。

在苹果M1芯片之前的Mac电脑上，CPU、GPU、内存各自独立，数据在不同模块间搬运产生的延迟和损耗，成了性能提升的瓶颈。而苹果通过统一内存架构，让所有处理单元共享同一块内存，性能因此得到大幅飞跃。

机器人领域的VLA架构，就类似于M1之前的笔记本电脑。视觉模块、语言模块、动作模块各自为政，数据在模块之间搬来搬去，每搬一次就丢失一部分信息。视觉感知到的丰富世界，传到动作模块时，可能只剩下一个模糊的摘要指令。

WALL-B采用的WUM架构，核心理念与此相同。它将视觉、语言、动作、物理预测等所有能力，放在同一个神经网络中，从零开始进行联合训练，最终融为一体。这彻底消除了模块间的边界和数据搬运损耗。

WUM架构带来的三大核心技术特征

基于这一碘伏性架构，WALL-B实现了三项区别于现有行业模型的核心技术特征。

第一，原生多模态与“原生本体感”

WALL-B从训练的第一天起，就对视觉、听觉、语言、触觉、动作等多模态数据进行同步标注与联合训练，实现了“多模态进、多模态出”。这意味着模型不再需要通过“传话”的方式在不同模块间转译信息——它看到杯子的同时，就已经在准备伸手；感觉到重量的瞬间，就已经在调整力度。

更值得一提的是，这种架构首次赋予了模型一种被称为“原生本体感”的能力。WALL-B无需持续观察自身全身，或依赖大量外部传感器，就能内在地感知自身的空间尺寸，比如高度、宽度、手臂的伸展范围，并据此判断能否通过某个狭窄空间或触及某个物体。这是一种内生的空间感知能力，而非通过外部测量或建模获得。王昊指出，这种能力，甚至许多动物都不具备。

第二，物理世界的“世界观”

WALL-B能够感知并预测重力、惯性、摩擦力、速度等基本物理规律。在从未见过的场景中——例如一个盘子一半悬空在桌沿外——模型可以推断出“盘子会掉落摔碎”，从而主动采取预防动作。这种对物理规律的深刻理解，为零样本泛化提供了坚实基础。毕竟，物理规律在不同家庭环境中是普遍一致的，WALL-B在任何一个它从未去过的房子里，都能利用这套物理常识来应对新场景，而不需要针对每个家庭重新训练。

第三，与世界交互并自我进化

这是WUM架构区别于所有现有VLA模型的最根本特征。目前主流的机器人在任务失败后，通常直接停止，返回一个错误信息，无法从失败中学习。而WALL-B的行为模式则完全不同：它在失败后会主动调整策略，再次尝试。如果成功了，这次成功的经验会直接更新到模型参数中。

这种机制使得模型能在真实环境中完成自我迭代，无需工程师重新训练、无需人工注入新数据、也无需返回实验室。王昊将其类比为人类学习使用筷子的过程：“筷子掉了无数次，但每一次失败都在调整手上的控制，最终形成稳定的技能。WALL-B克服了Transformer架构难以进行长期内化记忆的问题，所有经验以原生多模态记忆的方式，通过类似人脑记忆的机制实现自我更新。”

“尽管进入家庭的机器人现在还很笨，走得很慢，经常犯错。”王潜说道，“但回想一下，人类从婴儿时期迈出的第一步，不也是如此吗？每一个伟大的旅程，都是从踉踉跄跄的第一步开始的。如今，机器人已经在最复杂的地方，开始了它学习和进化的征程。”

来源:https://tech.huanqiu.com/article/4RGKsUDVDr1

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：OpenAI拟投资15亿美元布局企业级AI市场下一篇：2026AI短剧交流会展示纳米大片流水线实现漫剧质感升级

相关攻略

卓驭科技发布多模态基础模型推动智能移动迈向万物自主新时代

在北京车展的聚光灯下，智能驾驶的竞争维度正悄然升级。当行业仍聚焦于特定场景的功能优化时，卓驭科技发布了一项定义未来的技术——行业首个原生多模态基础模型。这标志着竞争核心从“教会汽车识别路况”转向“赋予汽车类人的物理世界理解能力”，一场技术范式的深刻变革已然开启。卓驭科技的底气源于其扎实的量产根基。

热心网友

05.18

卓驭科技发布多模态基础模型引领智能移动与自主万物新趋势

第十九届北京国际汽车展览会现场，卓驭科技以“智能一切移动”为主题召开了一场重磅发布会。会上，行业首个原生多模态基础模型正式亮相，同时，卓驭科技宣布与中国一汽达成深度战略合作。这不仅仅是一次产品发布，更标志着智能驾驶技术的演进路径，正从过去的“场景适配”迈向全新的“物理世界通用”范式，为全球移动出行领

热心网友

05.18

清华大学与字节跳动合作推出万亿级时序AI模型Timer-S1革新预测技术

2026年3月6日，一项由清华大学与字节跳动联合主导的突破性研究在arXiv预印本平台正式发布，论文编号为arXiv:2603 04791v1。该研究成功构建了名为Timer-S1的时间序列预测基础模型。这一模型参数量高达83亿，并在规模超万亿时间点的庞大数据集上完成了深度训练，标志着时间序列预测领

热心网友

05.14

浙江大学发布UniVBench：首个统一视频基础模型评测基准

这项由浙江大学、字节跳动和浙江实验室联合开展的研究发表于2026年2月25日的arXiv预印本平台，论文编号为arXiv:2602 21835v1。人工智能领域正经历一场深刻的变革，而视频理解与生成技术无疑是这场变革中最引人注目的前沿。想象一下，未来的AI助手不仅能看懂一部电影的情节和情感，还能根

热心网友

05.13

科技数码

摩根士丹利称中国AI投资聚焦赋能者与基础模型广泛应用亦创造机遇

智通财经APP获悉，摩根士丹利近期发布深度研究报告，对中国人工智能（AI）产业的演进阶段进行了精准研判。报告明确指出，中国AI产业已步入一个关键转折期，其发展范式正经历根本性变革：核心正从早期的技术追赶，转向当前的价值兑现；焦点由“模型训练”移向“场景推理”，从“技术攻坚”移向“应用落地”，最终实现

热心网友

05.12