具身智能要真正走进家庭,面临的最大挑战是什么?不是算法不够强,而是训练环境不够真。想让机器人在你家里自如地开门、拿杯子、收拾客厅,它得先在成千上万个“虚拟家庭”里练手。但问题是,过去这类虚拟场景要么只能生成单个房间,要么整体结构别扭、家具穿墙、物体不可交互——说白了,像纸板搭的影棚,没法用来训练真本事。
今天,这个瓶颈被打破了。

大晓机器人联合香港中文大学多媒体实验室、深圳河套学院,正式发布了最新的世界模型研究成果——Kairos-HomeWorld。这是全球首个实现全屋生成、个体物体全交互的世界模型统一框架。从命名到技术,目标都很明确:让机器人真正理解并操作中国家庭环境。
简单说,你给它一句文字描述,它就能一次性生成一套结构连贯、物理合理、功能完整的三维住宅,里面的柜门能开、杯子能拿、物品能挪动,全部可直接导入仿真引擎进行交互训练。

目前,Kairos-HomeWorld已经用在大晓机器人自家的具身智能训练中。像跨房间导航、多房间物品整理这类复杂长程家务任务,机器人现在可以在完全虚拟的环境里完成全流程仿真训练。这意味着什么?从虚拟仿真到真实落地的迁移周期大幅缩短,研发门槛显著降低。
四步生成法,打破行业仿真数据天花板
Kairos-HomeWorld的核心技术支撑,是一套 四阶段分层生成架构:全局结构 → 局部细节 → 闭环校验 → 交互增强。它将复杂的全屋生成任务逐步拆解,逐一攻克传统方法的老大难——全局一致性差、物理错误频发、场景不可交互。

- 第一阶段:全局结构生成。团队首创基于K-D树的平面图结构化表示方法,把真实住宅平面图转化成大语言模型能高效学习的分层文本结构。房间重叠、拓扑断裂这些传统户型生成的“遗传病”,在这里被彻底避免。
- 第二阶段:局部细节填充。采用“俯视图全局初始化+第一人称细节漫游”的分层策略。先用第一阶段生成的3D建筑外壳作为锚点,再从人视角逐一填充内部细节,有效解决了2D转3D时常见的几何漂移问题。
- 第三阶段:闭环物理校验。通过微调视觉语言模型,构建了一套递归校验机制。自动检测并修正“沙发挡门”“物体穿墙”这类物理违规。最终家具布局的碰撞率被控制在行业最优水平。
- 第四阶段:物体级全交互。这是整个框架最具标志性的能力——全球首个全屋可操作物体生成统一框架,由表面中心物体放置算法实现。系统自动获取物体的材质、密度、铰接结构等物理属性。最终生成的每个场景平均包含超过15个可操作物体,足迹物体密度(衡量家具表面物品密集度与功能丰富度)达到4.16,所有物体均可直接导入仿真引擎进行抓取、移动、堆叠等操作。

30万真实户型+5000家庭全场景,专为中国家庭打造的数据集
与模型同步开源的,是专为中国家庭打造的 全屋3D数据集,数据规模全球最大。包含30万张经过结构化标注的真实住宅平面图、5000个完整仿真的全屋场景,以及5万个支持物理仿真与交互操作的物体资产。这不仅是对前沿技术的补充,更是对中国家庭服务机器人本土化训练的一次核心数据“补课”。

对比之下,此前全球广泛使用的室内场景数据集(如RPLAN的8万张、ResPlan的1.7万张)规模相形见绌,且均基于欧美居住习惯构建。开放式厨房、缺乏阳台功能区、房间布局欧美化——这些基于西方数据训练的机器人进入中国家庭时,会出现明显的“水土不服”。
而Kairos-HomeWorld数据集覆盖了全国不同城市、不同面积段的典型户型,从30平方米刚需小户型到200平方米以上改善型大户型,全部来自中国真实房源。完整还原了中国家庭特有的南北通透布局、封闭式厨房、独立生活阳台、干湿分离卫生间、玄关鞋柜等本土居住特征,甚至包括老小区非矩形厨房、不规则客厅等常见复杂户型。
值得关注的是,该数据集将面向学术界与产业界全面开源。团队计划在后续版本中持续扩充不同地域、不同装修风格的场景样本,并加入更多中国家庭特有的物品与交互场景。这无疑将进一步降低具身AI的本土化训练门槛,加速服务机器人在中国家庭的规模化落地。
