清华大学研发AI驾考系统世界模型考场全方位测试智能导航

首页

热心网友

转载

2026-05-11

想象一下，您开车从家出发前往超市。在这个过程中，您的大脑不仅在处理眼前的实时路况，更在根据您踩下油门、转动方向盘等一系列操作，持续预测下一刻周围环境将如何变化。这种“我执行了某个动作，世界将如何响应”的预测能力，是人类在物理空间中导航乃至进行一切交互的核心基础。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

而让机器智能体也掌握这种能力，正是“世界模型”研究的核心目标。它并非一个简单的视频生成工具，而是一个可交互的动态模拟环境：您输入一张初始场景图像和一系列动作指令，它就能模拟生成您从该视角出发、执行完那些动作后所应观察到的连续视觉景象。如果模型足够精准，它将成为训练自动驾驶系统、培养机器人技能，乃至构建高保真虚拟世界的强大引擎。

然而，该领域的研究者长期面临一个关键瓶颈：缺乏一套公认、统一的“评测标准”来客观衡量不同世界模型的真实性能。这就像各地的驾校使用不同的教学大纲和考试路线，最终难以判断哪位学员能在真实的复杂路况中表现更优。为了破解这一“评测标准缺失”的难题，由清华大学牵头，联合东北大学与华南理工大学的研究团队，构建了一套名为iWorld-Bench的综合评测基准体系。相关研究成果已正式发表于2026年第43届国际机器学习大会（ICML 2026），论文收录于PMLR第306卷，预印本编号arXiv:2605.03941。

清华大学团队打造

一、现有评测基准存在哪些不足？

在iWorld-Bench问世之前，已有的评测方案主要存在三大短板，可以形象地概括为“考题单一、评分标准不一、关键能力科目缺失”。

首先是场景多样性严重不足。多数评测数据集来源单一，视角几乎全是行人或固定视角，好比驾考只考核平坦笔直的道路，完全忽略了山区弯道、高速公路、雨雪夜间等复杂驾驶环境。现实世界的观察视角是多元的：无人机航拍俯瞰、机器人自主巡检、第一人称步行、车辆驾驶……这些截然不同的感知与控制挑战被以往的评测体系普遍忽视了。

其次是“动作指令语言”不统一。不同的世界模型接受不同类型的控制信号：有的理解自然语言（如“向左转30度”），有的只识别离散的键盘信号（如按下“A”键），还有的需要输入精确的摄像机位姿参数矩阵。让这些模型同场竞技，就像让只懂中文指令的司机和只懂英文指令的司机在同一条赛道上比赛，其结果缺乏公平可比性。

最后，也是最关键的一点，是“高阶能力”评测的缺席。过往评测大多只关注生成视频的“画面逼真度”（画质），却很少系统性地检验模型能否“精准按预定轨迹运动”，以及是否具备“空间方向感”和“场景记忆能力”。特别是“记忆能力”——一个优秀的世界模型应当能够记住来时的路径与场景，在执行“前进一段再后退”这类对称动作后，返回的视觉画面应与起点高度一致。这种对空间一致性的理解与保持，恰恰是此前评测体系的盲区。

二、构建基准的第一步：打造多样化的“训练场”与“考场”

建设iWorld-Bench的首要工程，是构建一个足够丰富和高质量的数据基础，就像建立一所驾校需要先拥有包含各种典型与极端路况的训练场地。

研究团队兵分两路进行数据采集与整合。一路是“整合现有高质量数据”，系统性地梳理并纳入了12个已有的权威公开数据集，包括KITTI、Waymo、nuScenes等主流自动驾驶数据集，RealEstate-10K等三维重建数据集，以及NCLT、TartanAir-V2等机器人及无人机视角数据集。这些数据总计超过23万段视频，但格式、坐标系千差万别。团队投入大量工程精力，将它们全部统一转换到同一套时空坐标与参数标准之下。

另一路是“建设高可控性新赛场”。团队在4个高保真户外城市仿真器中，于18个高质量虚拟场景里，通过自动化程序采集了10万段1080P高清视频。为确保数据质量，还设计了两阶段过滤流程，自动剔除存在单帧异常或时序连贯性问题的视频片段。

最终，两路数据汇合，总量达到33万段高质量视频片段，全面覆盖了无人车、无人机、第一人称、机器人四种核心感知视角。环境条件也极为多样，户外场景包含9种不同天气，室内场景涵盖5种不同光照条件。随后，团队调用GPT-4o为所有视频生成了结构化的场景描述标签，并引入多个视觉大模型进行交叉验证，辅以严格的人工审核，确保了文本标注的高可信度。

三、统一“考题指令”：创新的动作生成框架

海量数据就位后，核心挑战浮现：如何让接受不同指令模态的模型站在同一起跑线上进行公平比较？

团队的解决方案是构建一个创新的“动作生成框架”，其核心思想如同建立一本“万能翻译词典”。他们首先精确定义了第一人称视角下所有可能的基本动作，分为平移（如前、后、左、右移动）和旋转（如上下、左右转动）两大类，各27种，组合起来形成一个包含729种复合动作的完整动作空间。

每种动作都被标注了难度系数和执行有效性。最关键的是，框架为这729种动作中的81种基础动作（聚焦于当前主流模型普遍支持的运动范围），建立了一个统一的编码映射词典。这个词典能将同一个动作指令，同时“翻译”成三种“语言”：供精密模型使用的摄像机参数矩阵、供键盘控制模型理解的独热编码、以及供语言模型驱动的自然文本描述。如此一来，无论模型“听懂”的是哪种语言，评测系统都能发出语义完全一致的指令，实现了跨模态的公平对比。这个框架还具备良好的可扩展性，未来可以轻松接入新的指令模态。

四、六类核心考题，全面检验“AI驾驶能力”

有了统一的动作指令语言，团队从海量数据中精选出2100段视频作为核心考题库，并设计了六大类共计4900个评测任务。

前四类是“动作控制”系列任务，按照动作复杂度分为四个难度等级，从单自由度的基础动作到四自由度的复杂组合动作，总计4000个任务，专门考验模型“听令行事、精准执行”的能力。

第五类是创新的“空间记忆能力”测试。设计了一系列“对称来回动作”路径，例如“前进-后退”或“右转-左转”。理论上，执行完一组对称动作后，智能体应回到初始状态。这200个任务专门检验模型是否真正理解并记住了场景的空间结构与自身运动轨迹。

第六类是“摄像机轨迹精确跟随”测试，专门针对能够接受精确位姿参数输入的高端模型。直接使用700条真实的、复杂的摄像机运动轨迹来驱动模型，检验其跟随真实运动路径的精度。

五、九项评分指标，多维度衡量“模型驾驶水平”

仅有丰富的考题还不够，还需要客观、全面的评分标准。iWorld-Bench精心设计了9个核心指标，从三个维度进行全面衡量。

视觉质量维度包含四个指标：图像质量（画面是否清晰、逼真）、亮度一致性（光照是否稳定、无闪烁）、色温约束（色彩氛围是否保持一致）、清晰度保持（细节是否真实、稳定无退化）。

轨迹跟随维度包含三个指标：运动平滑度（生成视频是否流畅、无抖动）、轨迹精准度（是否严格按指令动作执行）、轨迹容忍度（针对精密控制任务，对比生成轨迹与真实轨迹之间的误差）。

记忆能力维度包含两个指标：记忆对称性（执行“来回”动作后，终点画面与起点画面的像素级一致性）、轨迹对齐（“去程”与“回程”的运动方向是否严格互为镜像）。

六、十四款模型同台竞技，一场全方位的“世界模型大考”

评测体系搭建完毕后，研究团队邀请了14个具有代表性的世界模型“参赛”。按接受的控制指令方式可分为三组：5个接受自然语言指令的模型（如Cosmos-predict2.5）、2个接受键盘信号（独热编码）的模型（如Matrix-Game 2.0）、7个接受精密摄像机参数控制的模型（如CameraCtrl）。

评测结果揭示了一些深刻洞见与行业现状。

在动作控制与记忆能力综合评测中，接受键盘信号控制的HY-World 1.5表现最佳，平均得分0.7873，尤其在轨迹跟随精度上优势明显。这印证了离散化信号在控制任务上的优势——比起模糊的“向左一点”，明确的“按A键0.5秒”这类指令确实更利于模型精确执行。

自然语言控制组的模型则呈现出“扬长避短”的特点。例如CogVideoX-I2V在亮度一致性上拿了最高分，但其轨迹跟随能力相对较弱。这反映出“生成视觉上漂亮的画面”和“精确执行复杂动作指令”这两个目标之间存在内在的张力与权衡。

摄像机参数控制组中，VideoX-Fun-WAN表现较为均衡，而AC3D在记忆对称性上得分一骑绝尘（0.9068），显示其模型架构在维持场景空间拓扑一致性方面具有独特优势。一些早期模型如CameraCtrl则全面落后，体现了该领域技术快速迭代的发展进程。

一个关键发现来自基础模型与其专用微调版本的对比。例如，从CogVideoX-I2V基础模型微调而来的AC3D，其轨迹跟随能力得到了大幅提升，但视觉生成质量有所下降。这清晰地揭示了当前世界模型训练面临的一个核心矛盾：增强模型动作可控性的训练目标，可能会以牺牲部分视觉生成逼真度为代价。

在专门的摄像机轨迹跟随任务中，AC3D全面领先，而ASTRA的轨迹容忍度则垫底。这再次说明，视觉质量和动作可控性往往是两个需要权衡的、相对独立的优化维度。

为确保自动评测指标的可靠性，团队还进行了大规模的人类偏好实验。结果显示，自动指标排名与人类评分排名高度相关（斯皮尔曼相关系数达0.8053），证实了这套评测体系的有效性。一个有趣的例外是AC3D，其客观综合排名第4，但人类主观偏好仅排第9。分析发现，尽管它的运动平滑度和空间记忆能力极强，但偏低的图像生成质量导致了观看时的不适感，这说明人类评价时对视觉质感的权重更高。

总而言之，iWorld-Bench为这个快速发展的领域树立了一块重要的基准里程碑。它通过大规模、多样化的数据基础（33万段视频），公平全面的评测框架（统一动作编码、六类任务、九项指标），清晰地揭示了当前世界模型面临的深层挑战：视觉生成质量与动作服从精度难以兼顾，空间记忆与一致性能力普遍有限，不同技术路线的模型性能分化显著。

这项工作的现实意义在于，它让我们更客观地认识到，那些未来可能服务于我们的自动驾驶汽车或家庭机器人，其内部的“世界模型”距离真正理解并与物理世界进行稳健、可靠的交互，还有一段明确的路要走。现在，研究界终于拥有了一把公认的“尺子”，可以精准度量差距，指引技术向更可靠、更实用的方向演进。

常见问题解答

Q1：iWorld-Bench评测的“世界模型”和普通的视频生成AI（如文生视频模型）有什么本质区别？

A：核心区别在于交互性与因果推理。普通视频生成AI是根据一段文本描述进行单向、开环的内容创作。而世界模型是一个可交互的、闭环的物理模拟器：您输入一张初始环境图像和一系列时序动作指令（如“向前走5米，然后左转90度”），它需要基于当前状态和动作，推理并生成执行这些动作后环境应呈现的连续画面。这种根据自身动作预测世界状态因果变化的能力，是世界模型的核心，也是iWorld-Bench重点考查的方向。

Q2：iWorld-Bench中的记忆能力测试具体是如何设计的？

A：记忆测试的核心是设计“对称来回动作”路径，共定义了10种对称动作配对，构成200个具体任务。例如，让模型先向前运动一段距离，再向后退回原处。理论上，动作序列结束后，智能体应回到起点附近的视觉状态。评测时，会从像素层面比较“去程”终点和“回程”终点（即起点）的画面是否一致（记忆对称性指标），并从运动方向向量层面检查两者是否严格互为镜像（轨迹对齐指标）。如果模型缺乏空间记忆和一致性建模能力，返回的画面就会与起点相差甚远。

Q3：在iWorld-Bench评测中，表现最好的世界模型是哪个？不同模型之间的差距大吗？

A：在动作控制与记忆能力的综合评测中，HY-World 1.5模型排名第一（平均分0.7873），而MotionCtrl模型排名最后（0.5486），性能差距约22个百分点。在专为高精度控制模型设计的摄像机轨迹跟随任务中，AC3D模型表现最佳（轨迹容忍度0.9091），ASTRA模型垫底（0.4286），差距超过47个百分点。这表明，不同模型在精密运动控制与轨迹跟随能力上的分化极为显著，也指明了当前技术发展的不平衡性。

来源:https://www.techwalker.com/2026/0511/3186508.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：ABB自主移动机器人Flexley Mover P603荣获iF设计大奖下一篇：英国机器人产业经济价值可达1500亿英镑 techUK报告揭示发展机遇