游乐游手机版
首页/科技数码/文章详情

世界模型实现双臂协作与环境泛化,横扫四大榜单并开源

时间:2026-06-16 12:56
开悟世界模型(Kairos)采用多模态理解-生成-预测一体化架构,在RoboTwin2 0、LIBERO-Plus、WorldModelBenchRobot和DreamGen四大权威评测中均获第一,实现双臂协作、环境泛化与物理建模全面领先,并率先向全行业开源,成为首个开源世界模型,推动具身智能技术生态发展。

在近期具身智能领域,最受瞩目的莫过于大晓机器人推出的“开悟世界模型”(Kairos)。短短数日内,该模型一举斩获四个全球权威具身智能评测榜首——RoboTwin 2.0、LIBERO-Plus、WorldModelBench Robot、DreamGen,无一遗漏。同台竞技的对手包括Cosmos3、PI、MotuBrain、being-H0.7、Abot、Fast-WAM、Wan2.2等主流世界模型。Kairos之所以能取得如此佳绩,关键在于其业界首创的原生统一架构——“多模态理解—生成—预测”一体化设计,在视频生成、指令理解、任务泛化及场景适应等能力上实现了全面领先。更令人惊喜的是,该模型已向全行业开源。


复杂双臂操作能力获权威验证

首先来看RoboTwin 2.0这一评测基准。它由上海交通大学、香港大学与上海人工智能实验室等团队联合推出,专门针对双臂机器人协同操作的高难度任务——涵盖50项复杂协同动作,每一项都考验模型在双臂协作、精细运动及任务泛化方面的功底。在该测试中,Kairos以平均成功率96.1%登顶,直接刷新了此前最高纪录。值得注意的是,RoboTwin 2.0同时对比了两大技术路线:传统的VLA模型和具备动态预测能力的WAM(世界动作模型)模型。而Kairos不仅在Clean标准场景中获得96.9分,即使在Randomized随机化场景——更贴近真实世界的混乱环境下——也拿下了95.2分。这一成绩在VLA模型中几乎无法实现,即便面对一众世界模型,其表现也远超G0.5(93.2)、AIM(93.1)、Fast-WAM(91.8)和MotuBrain(96.0)。为何如此强势?根源在于Kairos将物理世界中的动力学建模与动作执行深度绑定,因此能在复杂双臂操作中对不确定的实时变化做出更精准的预测和响应。


实现世界模型路线范式超越

如果说RoboTwin 2.0考验的是双臂协作的精细度,那LIBERO-Plus则刻意挑战模型的“临场应变”能力。该基准由上海创智学院、复旦大学、同济大学和新加坡国立大学的研究团队共同提出,设置的考验多达7种:相机视角、机器人形态、语言指令、光照条件、背景环境、噪声干扰、空间布局全部会随机变动。简单来说,就是故意制造一个几乎“无法预测”的环境,检验模型能否稳住。Kairos在本项评测中拿到总分89.0分,在全球范围内——包括所有VLA模型与所有世界模型——全部位列第一。具体来看,在光照突变(97.7分)、背景杂乱(95.8分)、噪声干扰(96.8分)这些“极端场景”下几乎斩获满分;相机视角(95.5分)和语言指令(86.8分)也稳居前列。这一结果意义重大:它首次在公开评测中证明,世界模型路线在场景级泛化上,已实现对传统VLA路线(如ACoT-VLA 88.0分、Pi 0.5 85.7分)的系统性超越。对于实际应用而言,搭载Kairos的机器人只需极小代价即可直接部署到家居、商场、工厂,复杂环境的适应成本大幅降低。


物理建模精度达到高水平

WorldModelBench是评估机器人世界建模能力的经典金标准,由加州大学伯克利分校、加州大学圣迭戈分校、英伟达和麻省理工学院共同制定。其底层逻辑非常直接:模型必须同时具备指令遵循和未来帧生成两大能力——换言之,既要听懂人话,又要能预判动作后果。Kairos-4B仅用4B参数,就拿下了9.30分的全球第一,把许多大参数量的模型甩在身后——包括28B参数的Lingbot、16B参数的Cosmos3、14B参数的Abot-Physworld、5B参数的Wan2.2。参数效率提升了4倍。在子维度上,指令遵循得分2.36,与16B参数的Cosmos3并列第一;物理遵循维度拿下了4.96分,其中牛顿力学和重力两大核心均斩获满分1.00;时序一致性也获得满分1.00。这些数据充分说明:Kairos在物理世界理解上具备扎实的建模能力,它不仅推算精准,还能保持长时间输出的稳定性。


泛化能力领跑全球

最后一个评测叫DreamGen Bench,由英伟达联合华盛顿大学、加州大学伯克利分校、加州大学洛杉矶分校等团队推出。它的设计思路与以往不同:不只看模型在理想环境下的能力,而是刻意制造三种“泛化场景”——新行为、新环境、新组合,考验模型在从未见过但有逻辑关联的任务上的表现。更有意思的是,该基准的得分与下游机器人策略训练的效果呈明显正相关,即分数越高,用该模型合成数据训练出的机器人实际表现越好。Kairos在这个榜单上获得了平均物理遵循和总平均分两项全球第一。核心维度中,物理遵循维度在新行为执行(0.489)和新环境适配(0.581)均位居第一;指令遵循维度在新行为执行(0.745)同样是第一。综合泛化成绩显著领先Lingbot、Cosmos3和Abot-PhysWorld。


四个评测横跨双臂协作、环境泛化、物理建模和真实场景适配,Kairos全部登顶。这背后离不开它在架构上的全局创新——通过原生统一的多模态理解-生成-预测架构,把曾经需要分别解决的任务统合到一起。更重要的是,开源的决定让这项技术能够更快在产业和学术界落地。接下来,就看它如何帮助机器人在真实世界里真正站稳脚跟了。

来源:https://www.163.com/dy/article/KV7JMTD2055040N3.html
上一篇追觅首款AI手机定价超5000元宣称将取代App 下一篇腾讯云混元API全面赋能千行百业加速企业级AI应用落地
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。