过去两年,从Sora到Veo,再到Cosmos,视频生成模型在“视觉逼真度”这条赛道上飞速发展,生成的画面已足以以假乱真。然而,一个根本性问题始终存在:这些模型真的“理解”了我们所处的物理世界吗?答案很可能是否定的。
事实上,一旦要求这些模型生成涉及机器人操作的视频,诸如“机械臂穿模、物体凭空消失、动作时序错乱”等违反物理定律的现象便层出不穷。从“看起来逼真”到“真正能用于实际任务”,其间存在着一道巨大的技术鸿沟。
那么,究竟什么样的模型才算“真正实用”?一场全球性的技术竞赛已经为此拉开帷幕——CVPR 2026 WorldArena Challenge。

一、WorldArena Challenge:世界模型的“终极实战考核”
WorldArena Challenge是依托CVPR 2026 Video World Model Workshop举办的国际挑战赛,由高德地图视觉技术中心、流形空间和清华大学牵头,联合普林斯顿大学、新加坡国立大学、香港大学等全球顶尖学术机构共同主办。
与以往的世界模型评测不同,WorldArena的核心理念聚焦于四个字:“功能可用”。它的评测体系不仅关注视频的“视觉质量”,更着重考察生成的内容是否严格遵循物理规律、能否有效支撑机器人完成实际作业。比赛基于清华大学等八所高校联合研发的WorldArena Benchmark,涵盖16项核心指标和3大真实应用任务,目标明确:推动世界模型从“追求视觉仿真”向“确保功能可靠”转型。
比赛设置了两条赛道,参赛团队可根据自身技术优势选择。
赛道一评估世界模型在视频生成层面的综合感知与物理一致性。这里比拼的不是“画面是否绚丽”,而是从视觉质量、动作自然度、时序内容一致性、物理法则遵循度、生成可控性和三维空间准确性六大维度,通过16项量化指标进行全方位评测。最终通过EWMScore整合成一个综合分数进行排名。简而言之,就是较量谁的生成视频最“符合物理逻辑”。

赛道二则是具身智能任务功能性赛道,这也是WorldArena挑战赛的核心创新。它首次将评测延伸至真实的具身任务执行层面,围绕世界模型在机器人智能中的三大核心价值展开:作为数据合成引擎,能否生成有效提升机器人策略模型性能的合成数据;作为策略评估器,能否替代传统物理仿真器,更准确地评估行动策略的可行性;作为行动规划器,能否直接推理并规划出可执行的动作序列。该赛道将率先开放数据合成引擎与策略评估器的提交通道,对于排名靠前的方案,后续会引入行动规划器任务进行额外加权打分,以全面验证模型的实用价值与落地潜力。

二、快速起步:高性能开源世界模型已就绪
为降低参赛门槛、激发社区创新活力,赛事主办方之一的高德已将其领先的世界模型ABot-PhysWorld完全开源。该模型目前在WorldArena Benchmark排行榜上名列前茅,参赛者可直接基于这一高起点进行模型训练、微调与优化。
ABot-PhysWorld是高德即将发布的ABot-World系列的首个子工作,专注于具身智能场景下的物理一致性视频生成。与现有多数模型追求“视觉合理性”不同,它的核心目标是实现“物理真实性”——让AI生成的不仅是连续流畅的画面,更是符合严格物理规律、可供机器人执行的可行操作序列。

在技术实现上,该模型取得了多项关键突破:
四维泛化数据构建:从超300万条原始数据中清洗出约30万条高质量指令微调数据,覆盖了本体泛化(多种机器人形态)、任务泛化(超过50种任务类型)、场景泛化(10余种不同环境)和物体泛化(超1000种物体类别),确保模型具备强大的泛化能力,不偏向任何特定场景。
DPO偏好对齐优化:通过视觉语言模型作为评判员,构建了上万条偏好数据对,并采用直接偏好优化技术,使模型学会在“物理正确”和“物理错误”的生成结果之间做出明确选择,显著减少了物体穿透、形变失真等物理违规现象。
稠密动作图精细控制:基于超过11万条动作控制数据,将机器人动作编码为空间稠密的控制信号,通过独立的上下文模块分支与视频潜在特征进行融合,实现了对生成视频中动作的精细化、可控注入。
在独立的PAI-Bench基准测试中,ABot-PhysWorld以0.8491的综合得分和0.9306的物理领域得分刷新了纪录,性能显著超越了GigaWorld、Wanx-2.5、Veo 3.1、Sora 2等一众开源与闭源模型。更重要的是,它成功打破了业界长期存在的“视觉质量与物理合规性难以兼得”的困局——在保持顶尖视觉质量的同时,实现了物理准确性的大幅领先。
在WorldArena官方排行榜上,ABot-PhysWorld同样表现优异,位居前列。这一成绩充分印证了高德在具身智能世界模型方向上的深厚技术积累。
为保障赛事公平并加速社区技术创新,主办方明确ABot-PhysWorld作为基线模型不参与最终评奖。该模型现已全面开放模型权重、训练代码及完整数据处理流程,参赛团队可直接在此基础上进行微调、优化数据策略或开展创新性研究。
值得一提的是,高德今年以来在具身智能领域持续发力,先后发布了多款具身模型,并在多项权威基准测试中取得了领先成绩。结合此次ABot-PhysWorld的开源以及ABot-World系列模型的预告,可以看出其在具身世界模型领域的产业布局与技术演进正在不断深化。
三、赛程安排与完整参赛指南
赛事总奖金池超过14,000美元,各赛道均设有一、二、三等奖。获奖团队将获得在CVPR Workshop上进行报告展示的宝贵机会,顶尖队伍还有机会跨赛道获得特别奖项。目前提交通道已正式开放并支持实时排行榜更新,最终提交截止时间为2026年5月25日,比赛结果将于6月1日公布,颁奖典礼则定于6月4日CVPR会议期间举行。
参赛流程设计简洁高效,预计半天内即可完成首次提交:
第一步:准备数据从赛事指定的Hugging Face页面下载验证集或测试集数据。
第二步:生成视频使用您的模型,根据提供的初始帧以及文本或动作指令,生成分辨率不低于640×480、总帧数为121帧、帧率为每秒24帧的视频文件。
第三步:打包提交将生成的视频文件夹连同必要的模型说明文件一起压缩成ZIP包,通过赛事官方渠道提交即可。
目前,已有众多全球顶尖的学术研究团队与产业技术机构报名参赛,竞争激烈。

