自变量发布新一代具身智能模型WALL-B 破解家庭场景应用难题
早上七点,闹钟响了。你从床上爬起来,走到客厅。拖鞋不知踢到哪里,厨房的碗还没洗,孩子的书包扔在地上,猫打翻了一杯水。在自变量创始人兼CEO王潜看来,这种家庭环境的本质就是随机、碎片和不断变化的。他直言,目前全球没有任何一台机器人能在无人遥控的情况下,独立搞定上述场景里的综合整理任务。
这背后的原因是什么?舞台上的后空翻、跳街舞、写毛笔字,这些机器人演示视觉冲击力固然强,但本质上都是预设轨迹的“命令行机器人”,每一个动作都经过精密编程或远程操控。即便是工厂里已经大规模部署的工业机器人,也构不成可比案例。工厂环境追求的是极致稳定,一个动作可以重复一万次,且每次条件都一模一样。但家庭呢?一万个动作可能每个只做一次,而且每次的环境条件都天差地别。正因如此,让机器人真正进入家庭,被普遍视为“这个时代最难的技术问题之一”。
4月21日,自变量机器人发布了新一代自研的具身智能基础模型WALL-B。这个模型基于世界统一模型架构(World Unified Model, WUM),标志着具身基础模型从传统的VLA架构,向原生多模态融合架构的一次重大跨越。更关键的是,自变量宣布,搭载WALL-B的新一代机器人将在35天后,也就是5月25日,首批入驻真实家庭。

在具体应用上,自变量与58同城达成了合作。他们将把搭载WALL-AS模型的机器人送入真实家庭,与保洁阿姨协同作业。这不再是实验室里的演示,而是机器人真正踏入人类复杂的家居生活,开始提供服务。
架构革命:从“各自为政”到“融为一体”
据自变量联合创始人兼CTO王昊介绍,WALL-B真正区别于行业其他方案的核心,在于其从VLA到WUM的架构革命。这个设计思路,可以类比苹果的Apple Silicon统一内存架构。
在苹果M1芯片之前的Mac电脑上,CPU、GPU、内存各自独立,数据在不同模块间搬运产生的延迟和损耗,成了性能提升的瓶颈。而苹果通过统一内存架构,让所有处理单元共享同一块内存,性能因此得到大幅飞跃。
机器人领域的VLA架构,就类似于M1之前的笔记本电脑。视觉模块、语言模块、动作模块各自为政,数据在模块之间搬来搬去,每搬一次就丢失一部分信息。视觉感知到的丰富世界,传到动作模块时,可能只剩下一个模糊的摘要指令。
WALL-B采用的WUM架构,核心理念与此相同。它将视觉、语言、动作、物理预测等所有能力,放在同一个神经网络中,从零开始进行联合训练,最终融为一体。这彻底消除了模块间的边界和数据搬运损耗。
WUM架构带来的三大核心技术特征
基于这一碘伏性架构,WALL-B实现了三项区别于现有行业模型的核心技术特征。
第一,原生多模态与“原生本体感”
WALL-B从训练的第一天起,就对视觉、听觉、语言、触觉、动作等多模态数据进行同步标注与联合训练,实现了“多模态进、多模态出”。这意味着模型不再需要通过“传话”的方式在不同模块间转译信息——它看到杯子的同时,就已经在准备伸手;感觉到重量的瞬间,就已经在调整力度。
更值得一提的是,这种架构首次赋予了模型一种被称为“原生本体感”的能力。WALL-B无需持续观察自身全身,或依赖大量外部传感器,就能内在地感知自身的空间尺寸,比如高度、宽度、手臂的伸展范围,并据此判断能否通过某个狭窄空间或触及某个物体。这是一种内生的空间感知能力,而非通过外部测量或建模获得。王昊指出,这种能力,甚至许多动物都不具备。
第二,物理世界的“世界观”
WALL-B能够感知并预测重力、惯性、摩擦力、速度等基本物理规律。在从未见过的场景中——例如一个盘子一半悬空在桌沿外——模型可以推断出“盘子会掉落摔碎”,从而主动采取预防动作。这种对物理规律的深刻理解,为零样本泛化提供了坚实基础。毕竟,物理规律在不同家庭环境中是普遍一致的,WALL-B在任何一个它从未去过的房子里,都能利用这套物理常识来应对新场景,而不需要针对每个家庭重新训练。
第三,与世界交互并自我进化
这是WUM架构区别于所有现有VLA模型的最根本特征。目前主流的机器人在任务失败后,通常直接停止,返回一个错误信息,无法从失败中学习。而WALL-B的行为模式则完全不同:它在失败后会主动调整策略,再次尝试。如果成功了,这次成功的经验会直接更新到模型参数中。
这种机制使得模型能在真实环境中完成自我迭代,无需工程师重新训练、无需人工注入新数据、也无需返回实验室。王昊将其类比为人类学习使用筷子的过程:“筷子掉了无数次,但每一次失败都在调整手上的控制,最终形成稳定的技能。WALL-B克服了Transformer架构难以进行长期内化记忆的问题,所有经验以原生多模态记忆的方式,通过类似人脑记忆的机制实现自我更新。”
“尽管进入家庭的机器人现在还很笨,走得很慢,经常犯错。”王潜说道,“但回想一下,人类从婴儿时期迈出的第一步,不也是如此吗?每一个伟大的旅程,都是从踉踉跄跄的第一步开始的。如今,机器人已经在最复杂的地方,开始了它学习和进化的征程。”
相关攻略
在北京车展的聚光灯下,智能驾驶的竞争维度正悄然升级。当行业仍聚焦于特定场景的功能优化时,卓驭科技发布了一项定义未来的技术——行业首个原生多模态基础模型。这标志着竞争核心从“教会汽车识别路况”转向“赋予汽车类人的物理世界理解能力”,一场技术范式的深刻变革已然开启。 卓驭科技的底气源于其扎实的量产根基。
第十九届北京国际汽车展览会现场,卓驭科技以“智能一切移动”为主题召开了一场重磅发布会。会上,行业首个原生多模态基础模型正式亮相,同时,卓驭科技宣布与中国一汽达成深度战略合作。这不仅仅是一次产品发布,更标志着智能驾驶技术的演进路径,正从过去的“场景适配”迈向全新的“物理世界通用”范式,为全球移动出行领
2026年3月6日,一项由清华大学与字节跳动联合主导的突破性研究在arXiv预印本平台正式发布,论文编号为arXiv:2603 04791v1。该研究成功构建了名为Timer-S1的时间序列预测基础模型。这一模型参数量高达83亿,并在规模超万亿时间点的庞大数据集上完成了深度训练,标志着时间序列预测领
这项由浙江大学、字节跳动和浙江实验室联合开展的研究发表于2026年2月25日的arXiv预印本平台,论文编号为arXiv:2602 21835v1。 人工智能领域正经历一场深刻的变革,而视频理解与生成技术无疑是这场变革中最引人注目的前沿。想象一下,未来的AI助手不仅能看懂一部电影的情节和情感,还能根
智通财经APP获悉,摩根士丹利近期发布深度研究报告,对中国人工智能(AI)产业的演进阶段进行了精准研判。报告明确指出,中国AI产业已步入一个关键转折期,其发展范式正经历根本性变革:核心正从早期的技术追赶,转向当前的价值兑现;焦点由“模型训练”移向“场景推理”,从“技术攻坚”移向“应用落地”,最终实现
热门专题
热门推荐
《Zero Parades: For Dead Spies》的媒体评测已经解禁,结果相当亮眼。这款被许多人视为《极乐迪斯科》精神续作的作品,在OpenCritic上拿到了86分的媒体均分,在Metacritic上也有83分。游戏将于5月21日正式登陆PC平台,看来2026年的必玩叙事RPG名单上,又
目录 你是否也遇到过这些问题 处理效果 前置准备 超简单AI自动化解决方案 第1步:准备好你的原始数据 第2步:针对指定的文件下达指令 第3步:验收 还能解决这些同类问题 指令为什么这么有用? 更多场景直接抄作业 销售数据三级汇总 成本数据多级汇总 库存数据汇总 员工薪资汇总 常见问题答疑 核心价值
AI Agent 的发展,正迎来一个关键的转折点,从概念验证迈向真正的生产力交付。 想象一下,当一个 AI 智能体能够在无需人工介入的情况下,独立完成一个复杂项目的全流程,并将成功经验固化为可随时调用的“技能”——这是否标志着 AI 在职场中的角色,已经从辅助工具演变为自主的生产力单元? 随着 Op
彭博社的马克・古尔曼在最新报道中透露了一个有趣的发现:苹果为WWDC 26发布的宣传海报,其设计细节可能暗藏玄机,指向了即将在iOS 27中亮相的全新Siri交互界面。 根据古尔曼的分析,新版Siri的核心变化在于与灵动岛的深度融合。唤醒时,它将不再以传统的全屏或底部卡片形式出现,而是会以一个扩展的
GitHub 的 Star 数量还值得信赖吗?真相可能比你想象的更严峻。 开源社区中“购买 Star”的现象早已不是秘密,其便捷程度甚至超过点外卖,单价低廉且支持批量折扣。然而,卡内基梅隆大学(CMU)一项被 ICSE 2026 顶会收录的最新研究,首次系统性地揭示了这场“造假生意”的惊人规模:Gi





