在近期具身智能领域,最受瞩目的莫过于大晓机器人推出的“开悟世界模型”(Kairos)。短短数日内,该模型一举斩获四个全球权威具身智能评测榜首——RoboTwin 2.0、LIBERO-Plus、WorldModelBench Robot、DreamGen,无一遗漏。同台竞技的对手包括Cosmos3、PI、MotuBrain、being-H0.7、Abot、Fast-WAM、Wan2.2等主流世界模型。Kairos之所以能取得如此佳绩,关键在于其业界首创的原生统一架构——“多模态理解—生成—预测”一体化设计,在视频生成、指令理解、任务泛化及场景适应等能力上实现了全面领先。更令人惊喜的是,该模型已向全行业开源。

复杂双臂操作能力获权威验证
首先来看RoboTwin 2.0这一评测基准。它由上海交通大学、香港大学与上海人工智能实验室等团队联合推出,专门针对双臂机器人协同操作的高难度任务——涵盖50项复杂协同动作,每一项都考验模型在双臂协作、精细运动及任务泛化方面的功底。在该测试中,Kairos以平均成功率96.1%登顶,直接刷新了此前最高纪录。值得注意的是,RoboTwin 2.0同时对比了两大技术路线:传统的VLA模型和具备动态预测能力的WAM(世界动作模型)模型。而Kairos不仅在Clean标准场景中获得96.9分,即使在Randomized随机化场景——更贴近真实世界的混乱环境下——也拿下了95.2分。这一成绩在VLA模型中几乎无法实现,即便面对一众世界模型,其表现也远超G0.5(93.2)、AIM(93.1)、Fast-WAM(91.8)和MotuBrain(96.0)。为何如此强势?根源在于Kairos将物理世界中的动力学建模与动作执行深度绑定,因此能在复杂双臂操作中对不确定的实时变化做出更精准的预测和响应。

实现世界模型路线范式超越
如果说RoboTwin 2.0考验的是双臂协作的精细度,那LIBERO-Plus则刻意挑战模型的“临场应变”能力。该基准由上海创智学院、复旦大学、同济大学和新加坡国立大学的研究团队共同提出,设置的考验多达7种:相机视角、机器人形态、语言指令、光照条件、背景环境、噪声干扰、空间布局全部会随机变动。简单来说,就是故意制造一个几乎“无法预测”的环境,检验模型能否稳住。Kairos在本项评测中拿到总分89.0分,在全球范围内——包括所有VLA模型与所有世界模型——全部位列第一。具体来看,在光照突变(97.7分)、背景杂乱(95.8分)、噪声干扰(96.8分)这些“极端场景”下几乎斩获满分;相机视角(95.5分)和语言指令(86.8分)也稳居前列。这一结果意义重大:它首次在公开评测中证明,世界模型路线在场景级泛化上,已实现对传统VLA路线(如ACoT-VLA 88.0分、Pi 0.5 85.7分)的系统性超越。对于实际应用而言,搭载Kairos的机器人只需极小代价即可直接部署到家居、商场、工厂,复杂环境的适应成本大幅降低。

物理建模精度达到高水平
WorldModelBench是评估机器人世界建模能力的经典金标准,由加州大学伯克利分校、加州大学圣迭戈分校、英伟达和麻省理工学院共同制定。其底层逻辑非常直接:模型必须同时具备指令遵循和未来帧生成两大能力——换言之,既要听懂人话,又要能预判动作后果。Kairos-4B仅用4B参数,就拿下了9.30分的全球第一,把许多大参数量的模型甩在身后——包括28B参数的Lingbot、16B参数的Cosmos3、14B参数的Abot-Physworld、5B参数的Wan2.2。参数效率提升了4倍。在子维度上,指令遵循得分2.36,与16B参数的Cosmos3并列第一;物理遵循维度拿下了4.96分,其中牛顿力学和重力两大核心均斩获满分1.00;时序一致性也获得满分1.00。这些数据充分说明:Kairos在物理世界理解上具备扎实的建模能力,它不仅推算精准,还能保持长时间输出的稳定性。

泛化能力领跑全球
最后一个评测叫DreamGen Bench,由英伟达联合华盛顿大学、加州大学伯克利分校、加州大学洛杉矶分校等团队推出。它的设计思路与以往不同:不只看模型在理想环境下的能力,而是刻意制造三种“泛化场景”——新行为、新环境、新组合,考验模型在从未见过但有逻辑关联的任务上的表现。更有意思的是,该基准的得分与下游机器人策略训练的效果呈明显正相关,即分数越高,用该模型合成数据训练出的机器人实际表现越好。Kairos在这个榜单上获得了平均物理遵循和总平均分两项全球第一。核心维度中,物理遵循维度在新行为执行(0.489)和新环境适配(0.581)均位居第一;指令遵循维度在新行为执行(0.745)同样是第一。综合泛化成绩显著领先Lingbot、Cosmos3和Abot-PhysWorld。

四个评测横跨双臂协作、环境泛化、物理建模和真实场景适配,Kairos全部登顶。这背后离不开它在架构上的全局创新——通过原生统一的多模态理解-生成-预测架构,把曾经需要分别解决的任务统合到一起。更重要的是,开源的决定让这项技术能够更快在产业和学术界落地。接下来,就看它如何帮助机器人在真实世界里真正站稳脚跟了。
