全球首个全屋生成个体级交互模型发布加速机器人仿真训练

时间：2026-06-06 12:11

全球首个全屋生成、个体物体全交互的世界模型Kairos-HomeWorld发布，采用四阶段分层架构实现结构合理、物理正确的三维住宅生成，每个场景平均包含超15个可交互物体。同步开源30万张中国真实户型数据集，支持机器人跨房间导航等长程任务仿真训练。

具身智能要真正走进家庭，面临的最大挑战是什么？不是算法不够强，而是训练环境不够真。想让机器人在你家里自如地开门、拿杯子、收拾客厅，它得先在成千上万个“虚拟家庭”里练手。但问题是，过去这类虚拟场景要么只能生成单个房间，要么整体结构别扭、家具穿墙、物体不可交互——说白了，像纸板搭的影棚，没法用来训练真本事。

今天，这个瓶颈被打破了。

大晓机器人联合香港中文大学多媒体实验室、深圳河套学院，正式发布了最新的世界模型研究成果——Kairos-HomeWorld。这是全球首个实现全屋生成、个体物体全交互的世界模型统一框架。从命名到技术，目标都很明确：让机器人真正理解并操作中国家庭环境。

简单说，你给它一句文字描述，它就能一次性生成一套结构连贯、物理合理、功能完整的三维住宅，里面的柜门能开、杯子能拿、物品能挪动，全部可直接导入仿真引擎进行交互训练。

目前，Kairos-HomeWorld已经用在大晓机器人自家的具身智能训练中。像跨房间导航、多房间物品整理这类复杂长程家务任务，机器人现在可以在完全虚拟的环境里完成全流程仿真训练。这意味着什么？从虚拟仿真到真实落地的迁移周期大幅缩短，研发门槛显著降低。

四步生成法，打破行业仿真数据天花板

Kairos-HomeWorld的核心技术支撑，是一套 四阶段分层生成架构：全局结构 → 局部细节 → 闭环校验 → 交互增强。它将复杂的全屋生成任务逐步拆解，逐一攻克传统方法的老大难——全局一致性差、物理错误频发、场景不可交互。

第一阶段：全局结构生成。团队首创基于K-D树的平面图结构化表示方法，把真实住宅平面图转化成大语言模型能高效学习的分层文本结构。房间重叠、拓扑断裂这些传统户型生成的“遗传病”，在这里被彻底避免。
第二阶段：局部细节填充。采用“俯视图全局初始化+第一人称细节漫游”的分层策略。先用第一阶段生成的3D建筑外壳作为锚点，再从人视角逐一填充内部细节，有效解决了2D转3D时常见的几何漂移问题。
第三阶段：闭环物理校验。通过微调视觉语言模型，构建了一套递归校验机制。自动检测并修正“沙发挡门”“物体穿墙”这类物理违规。最终家具布局的碰撞率被控制在行业最优水平。
第四阶段：物体级全交互。这是整个框架最具标志性的能力——全球首个全屋可操作物体生成统一框架，由表面中心物体放置算法实现。系统自动获取物体的材质、密度、铰接结构等物理属性。最终生成的每个场景平均包含超过15个可操作物体，足迹物体密度（衡量家具表面物品密集度与功能丰富度）达到4.16，所有物体均可直接导入仿真引擎进行抓取、移动、堆叠等操作。

30万真实户型+5000家庭全场景，专为中国家庭打造的数据集

与模型同步开源的，是专为中国家庭打造的 全屋3D数据集，数据规模全球最大。包含30万张经过结构化标注的真实住宅平面图、5000个完整仿真的全屋场景，以及5万个支持物理仿真与交互操作的物体资产。这不仅是对前沿技术的补充，更是对中国家庭服务机器人本土化训练的一次核心数据“补课”。

对比之下，此前全球广泛使用的室内场景数据集（如RPLAN的8万张、ResPlan的1.7万张）规模相形见绌，且均基于欧美居住习惯构建。开放式厨房、缺乏阳台功能区、房间布局欧美化——这些基于西方数据训练的机器人进入中国家庭时，会出现明显的“水土不服”。

而Kairos-HomeWorld数据集覆盖了全国不同城市、不同面积段的典型户型，从30平方米刚需小户型到200平方米以上改善型大户型，全部来自中国真实房源。完整还原了中国家庭特有的南北通透布局、封闭式厨房、独立生活阳台、干湿分离卫生间、玄关鞋柜等本土居住特征，甚至包括老小区非矩形厨房、不规则客厅等常见复杂户型。

值得关注的是，该数据集将面向学术界与产业界全面开源。团队计划在后续版本中持续扩充不同地域、不同装修风格的场景样本，并加入更多中国家庭特有的物品与交互场景。这无疑将进一步降低具身AI的本土化训练门槛，加速服务机器人在中国家庭的规模化落地。

来源：https://www.163.com/dy/article/KULJGHQG055040N3.html

模型发布