3月13日,记者从大晓机器人处获悉,该公司已正式开源其具身世界模型“开悟世界3.0”(Kairos 3.0)- 4B系列,标志着其原生世界模型走向开放。
Kairos 3.0-4B是全球首个可在端侧驱动、实现具身智能本体控制的世界模型,同时也是业内首个在THOR端侧平台上达成1:1.5(视频生成时间与视频时长比)实时生成的具身世界模型。该模型部署于Jetson Thor T5000端侧平台,算力高达517 TFlops,不仅能在3D仿真环境中精准生成机械臂的运动姿态、完成运动轨迹的预测与规划,更可依托THOR端侧平台实现对机器人本体的真实驱动与作业执行,推动机器人从“会表演”迈向“能干活”的实质性跨越。
得益于端侧部署,该模型可直接输出从机器人上臂、手部直至下肢的全方位控制指令,省去了繁琐的中间翻译环节,实现了“想到即可做到”的快速响应。
在一则家庭场景演示中,机器人展示了全流程自主作业能力:首先,它有序地整理桌面上的杯子与纸巾盒,规划合适位置摆放物品;随后自主走向洗衣机,捡拾衣物、打开舱门、完成衣物投放与清洗操作;接着穿过客厅进入厨房,开启冰箱取出牛奶,打开壁橱拿出麦片,并拉开抽屉取出碗勺,将麦片和牛奶倒入碗中,最终自主完成了一份早餐的准备工作。
当前,具身智能行业普遍面临数据稀缺且割裂的困境,传统生成式模型往往仅侧重于视频生成,缺乏对物理世界的深度认知,因而在长时序交互不足、部署算力成本高昂、状态预测物理一致性差等方面遭遇发展瓶颈。
作为业内首个实现“多模态理解 — 生成 — 预测”一体化设计的开源具身原生世界模型,Kairos 3.0-4B并非简单地在大型语言或视觉模型后附加运动接口,而是从架构底层就为机器人在真实世界的运行进行设计。它以自然界基本物理规律与因果律为认知根基,构建起跨本体的统一世界理解框架,彻底打破了传统具身智能“行为模仿”的技术局限,将模型能力升级至“物理级深度理解”的维度。
Kairos 3.0-4B在长时序视频生成能力上也实现了显著突破。其智能体能够对用户复杂的交互指令进行层级化解析与结构化拆解,依托模型对序列间的时空演化、物理规则、场景动态及交互逻辑的精细化预测,补全连续世界信息,并通过自我反思机制实现闭环迭代优化,最终生成长达7分钟的具身动态交互视频。
据悉,Kairos 3.0-4B还在业内率先实现了云端1:1实时推理,推理速度较其前代Cosmos 2.5提升达72倍,刷新了全球具身世界模型的性能纪录。
