首页 游戏 软件 资讯 排行榜 专题
首页
AI
加州大学洛杉矶分校发布WorldBench物理AI测试系统

加州大学洛杉矶分校发布WorldBench物理AI测试系统

热心网友
59
转载
2026-05-12

这项由加州大学洛杉矶分校联合索尼AI、耶鲁大学和美国陆军研究实验室共同完成的研究,于2025年1月29日发布在预印本平台arXiv上,论文编号为arXiv:2601.21282v1。它为评估人工智能的物理常识,提供了一个前所未有的精密标尺。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

加州大学洛杉矶分校推出WorldBench:教AI模型物理学的新

看到积木塔即将倒塌,或是皮球滚下楼梯,人类能瞬间预判其轨迹。这种对物理规律的直觉,对我们而言与生俱来,但对人工智能来说,却是一道难以逾越的鸿沟。近年来,诸如英伟达Cosmos等“世界模型”声称已能大规模学习此类技能,甚至有望成为真实世界的合成数据生成器。然而,这些声明是否经得起推敲?要回答这个问题,关键在于能否对模型的物理理解能力进行深入、精确的“体检”。

现有的评估基准,就像一张把所有科目混在一起的综合试卷——题目涵盖了重力、摩擦、碰撞等多种概念。当模型考砸了,我们根本无法判断它到底是“力学”没学好,还是“运动学”不及格。更麻烦的是,评判标准往往是简单的“对”或“错”,这就像用“美不美”来评判一幅画的透视是否准确,完全无法区分“视觉上逼真”与“物理上正确”之间的微妙差别。

于是,WorldBench应运而生。它的核心思路,是为每个物理概念设计独立的“专项测验”。这套全新的基准测试系统分为两大模块:第一部分考察“直觉物理理解”,评估模型对物体永存、支撑关系等基本概念的把握;第二部分则进行更严格的“物理参数估计”,要求模型精确遵循重力加速度、流体粘度等可测量的物理常数。

用这套系统测试当前最先进的视频生成模型后,一个鲜明的对比浮出水面:这些模型能生成视觉上令人信服的抛物线运动,却无法让球以正确的9.8米每二次方秒的重力加速度下落。这清晰地揭示了一个关键问题:视觉的真实感与物理的准确性之间,存在着一道巨大的鸿沟。对于那些寄望于用世界模型生成合成数据来训练机器人或自动驾驶系统的应用而言,这一发现无疑敲响了警钟。

一、两套“考试系统”:从直觉到精确的双重检验

WorldBench的设计哲学,借鉴了培养物理学家的思路:既需要敏锐的物理直觉,也离不开严谨的数学计算。因此,它构建了两套互补的评估体系。

第一套“直觉物理理解”测试,关注四个核心常识:运动物理学(物体如何移动与相互作用)、物体永存性(物体被遮挡时是否依然存在)、支撑关系(物体如何保持平衡或掉落),以及尺度透视关系(物体大小如何随距离变化)。

第二套“物理参数估计”测试则更为严苛,它设计了三个精密的物理实验:重力实验(测试自由落体与抛物运动)、粘度实验(观察钢球在不同液体中的下沉),以及摩擦实验(测量物体在不同表面的滑动)。

为确保测试的准确与可重复,所有场景均使用结合了PyBullet精确物理引擎与Blender高质量渲染器的开源平台Kubric生成。最终,研究团队构建了包含469个视频的直觉测试集,以及279个视频的参数测试集,通过随机化物体属性,形成了丰富多样的考题。

二、创新的评估方法:从视频到物理参数的精确提取

WorldBench的评估过程,宛如一套精密的“物理侦探系统”,致力于从视频的像素中,还原出隐藏的物理定律。

对于直觉测试,方法的核心是利用SAM2模型追踪视频中物体的运动轨迹。通过比较生成视频与真实情况在物体分割上的差异,系统可以量化模型在物体位置、形状一致性等方面的表现。

参数估计的挑战则更大,需要从单目视频中反推出三维世界的物理参数。研究团队的解决方案颇为巧妙:他们在每个视频中放置一个已知尺寸的棋盘格作为“标尺”,借此校准相机参数。同时,通过精心设计实验,确保物体主要在平行于相机的平面内运动,从而简化了深度估计问题。

获取物体的三维运动轨迹后,便可进行精确计算。例如,通过对下落物体的位置数据进行二次拟合,可直接估算其加速度,并与标准重力加速度对比。对于摩擦和粘度,则分别运用斜面运动公式和斯托克斯定律进行计算。

这套方法在真实拍摄视频上得到了验证:估算出的重力加速度接近9.8,不同液体的粘度值也均在合理误差范围内,证明了其作为“物理尺规”的可靠性。

三、令人意外的发现:视觉真实与物理准确的巨大鸿沟

当WorldBench这把尺子量到当前顶尖的世界模型(如Cosmos系列)和视频生成模型(如Wan 2.2、CogVideoX)身上时,结果令人深思。

在直觉物理测试中,所有模型的表现均未达预期。随着视频时间推移,误差会像滚雪球一样累积放大。

在物理参数测试中,暴露的问题更为严重。几乎所有模型对重力加速度的估算都严重偏离真实值。例如,Cosmos-1模型估算的重力值仅在4.2米每二次方秒左右;而CogVideoX模型甚至给出了负的重力加速度值,这意味着在它生成的视频里,物体可能会“向上掉落”。在粘度测试中,模型也常常混淆蜂蜜和水的特性。

这些发现指向一个根本性问题:当前的模型更像是通过海量视频数据记住了“视觉模式”,而非理解了背后的“物理定律”。它们能画出逼真的抛物线,却不知道支配这条曲线的公式是什么。这对于需要高物理保真度的合成数据应用而言,是一个不容忽视的风险。

四、深度诊断:AI模型的物理认知盲点

WorldBench的价值不仅在于给出总分,更在于它能进行“科目诊断”,精准定位模型的认知盲区。

物体永存性是最大的短板,模型在处理遮挡与再现时表现糟糕。尺度透视相对较好,但模型仍会犯物体变形速率错误等基础失误。在支撑关系上,模型能处理稳定状态,却难以预测失稳的临界点。

更深入的分析揭示了几个关键模式:

1. 高方差与不一致性:相同输入条件下,模型的输出结果波动极大,缺乏可重复性,这对实际应用是致命的。

2. “平均化”倾向:面对极端物理属性(如高粘度蜂蜜),模型倾向于将其行为向常见材料的平均值靠拢。

3. 训练数据偏向:模型对训练数据中常见的物体(如篮球)表现更好,表明其依赖的是具体视觉记忆,而非抽象规律。

4. 缺乏物理常识校验:模型会生成明显违背物理定律的场景,且自身无法察觉其不合理性。

这些诊断结果为模型改进指明了方向:仅靠大数据训练可能不够,需要将明确的物理约束和规律嵌入到模型架构或训练目标中。

五、扩展评估:语言理解能力的物理推理测试

除了“动手”生成视频,研究团队还为模型设计了一场“动口”的问答考试。他们从测试视频中选取了181个场景,针对每个场景提出自然语言问题,要求模型观看视频后作答。

题目形式包括判断对错和多项选择,例如:“椅子撞击地面时会顺时针旋转吗?”或“会有多少个多米诺骨&牌被推倒?”。

参与测试的包括GPT-4.1、Gemini、Claude等主流多模态大模型。然而,成绩最好的Gemini 2.5 Pro,整体准确率也仅为49.72%,略高于随机猜测。所有模型在物体永存性相关问题上再次遭遇滑铁卢,表现最差。

有趣的是,在“墙壁反弹”这类具体场景中,不同模型的表现差异巨大,这可能反映了它们训练数据与架构的不同侧重。但无论如何,语言测试的结果与视频生成测试相互印证,共同表明:当前最先进的AI模型,在物理常识的理解上,距离人类直觉仍有漫长的路要走。

这项研究的意义,远不止于揭示现状。它提供了一套标准化、多维度的评估工具(WorldBench),将推动整个领域朝着构建真正理解物理世界的AI系统迈进。它明确地告诉我们:要让AI成为可靠的“世界模拟器”,不能只满足于其生成内容的视觉魅力,必须深入考核其内在的物理一致性。这不仅是技术挑战,更是确保未来AI安全、可靠应用于现实世界的关键一步。

Q&A

Q1:WorldBench是什么?
A:WorldBench是由加州大学洛杉矶分校等机构开发的AI物理理解评估系统。它专门用来测试AI模型是否真正理解物理规律,而不仅仅是能生成好看的视频。系统分为两部分:一部分测试基本物理直觉(如物体永存性),另一部分测试精确的物理参数(如重力加速度)。

Q2:现在的AI视频生成模型物理理解能力如何?
A:测试结果很令人担忧。虽然这些模型能生成视觉上很真实的视频,但在物理准确性方面表现很差。比如很多模型无法正确模拟9.8米每二次方秒的重力加速度,有些甚至产生负值重力。所有测试模型都缺乏生成可靠物理交互所需的一致性。

Q3:WorldBench评估系统有什么特别之处?
A:WorldBench最大的创新是“分科考试”式的设计。传统测试把多个物理概念混在一起,无法判断具体哪里有问题。WorldBench则为每个物理概念设计专门测试,能精确诊断AI模型在哪个具体物理规律上有缺陷,就像医生能准确定位病变部位一样。

来源:https://www.techwalker.com/2026/0202/3178301.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

加州大学洛杉矶分校发布WorldBench物理AI测试系统
AI
加州大学洛杉矶分校发布WorldBench物理AI测试系统

这项由加州大学洛杉矶分校联合索尼AI、耶鲁大学和美国陆军研究实验室共同完成的研究,于2025年1月29日发布在预印本平台arXiv上,论文编号为arXiv:2601 21282v1。它为评估人工智能的物理常识,提供了一个前所未有的精密标尺。 看到积木塔即将倒塌,或是皮球滚下楼梯,人类能瞬间预判其轨迹

热心网友
05.12
滴滴公开安全AI模型顺风车风险防控实现人机协同新阶段
业界动态
滴滴公开安全AI模型顺风车风险防控实现人机协同新阶段

在最近的一场顺风车安全治理开放日活动上,滴滴首次对外公开了其在安全技术层面的最新探索。面对行业中长期存在的反作弊难题和“未乘车却被收费”等用户痛点,平台借助前沿的人工智能技术,交出了一份阶段性的治理成绩单。 智能化判责让违规行为无所遁形 顺风车场景下的司乘纠纷往往高频且复杂。为此,滴滴全面部署了AI

热心网友
05.12
LibLibAI模型选择与切换操作步骤详解
AI
LibLibAI模型选择与切换操作步骤详解

在LibLibAI平台进行AI绘画创作时,许多用户会遇到一个典型问题:最终生成的图像效果,在艺术风格、语言理解或画面品质上,与自己的初始构想存在明显偏差。这通常并非提示词撰写技巧不足,而是核心原因在于当前激活的AI模型与您的具体创作需求不匹配。幸运的是,这一问题拥有明确的解决策略。本文将系统性地为您

热心网友
05.12
Recraft AI模型深度对比指南教你如何选择最佳生成模型
AI
Recraft AI模型深度对比指南教你如何选择最佳生成模型

面对Recraft AI中丰富的生成模型,许多用户都会感到困惑:究竟该如何选择?选错模型,可能导致生成的图像风格不符、无法编辑,甚至无法顺利导出。这背后的核心原因在于,不同模型在底层设计上各有专攻。要实现高效匹配,你需要从五个关键维度进行考量:图像类型、风格一致性、编辑链路、提示词复杂度以及最终输出

热心网友
05.10
苹果CarPlay集成Grok AI模型 车载语音助手迎来智能升级
iphone
苹果CarPlay集成Grok AI模型 车载语音助手迎来智能升级

苹果CarPlay近日新增了对埃隆·马斯克旗下GrokAI模型的支持,用户可通过iPhone连接车辆,在车机界面直接使用Grok进行语音对话。该功能延续了以语音为核心的车载交互逻辑,并新增临时静音与语音切换两项细化控制,旨在提升驾驶场景下的使用便捷性与安全性。更新后,CarPlay已集成多款主流A

热心网友
05.09

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Coinbase新手入门指南:分步详解登录认证与首单交易流程
web3.0
Coinbase新手入门指南:分步详解登录认证与首单交易流程

本文旨在为新用户提供一份循序渐进的Coinbase使用指南。建议将学习过程拆分为登录、身份认证和首次交易三个阶段。文章详细介绍了每个阶段的核心操作、注意事项及安全建议,帮助用户在不感到信息过载的情况下,逐步熟悉平台功能,从而更轻松、安全地开启数字资产之旅。

热心网友
05.12
Coinbase闪退问题解决指南:检查系统版本权限与清理缓存
web3.0
Coinbase闪退问题解决指南:检查系统版本权限与清理缓存

Coinbase应用下载后出现闪退,通常与设备系统版本、应用权限或旧缓存文件有关。可先检查手机系统是否满足最低要求,并确保已授予应用必要的存储和通知权限。若问题依旧,尝试清除应用缓存或彻底卸载后重新安装。对于iOS设备,还需确认AppleID地区设置与账户匹配。

热心网友
05.12
红月传奇职业选择指南:哪个职业最强最好用
游戏资讯
红月传奇职业选择指南:哪个职业最强最好用

在《红月传奇》这款经典游戏中,职业选择是决定你游戏体验与成长路线的关键一步。是成为近战无敌的勇猛战士,还是掌控元素的远程法师,或是全能辅助的团队核心道士?不同的职业定位,将带来完全不同的战斗风格、团队职责与成长乐趣。本文将为你深度解析三大职业的核心玩法、技能特色与团队定位,助你精准选择最适合自己的传

热心网友
05.12
战锤40K战争黎明4机械教阵营玩法与兵种解析
游戏资讯
战锤40K战争黎明4机械教阵营玩法与兵种解析

《战锤40K:战争黎明4》的最新实机预告片已经发布,这次的主角是游戏中的全新派系——机械教阵营。没错,就是《战锤40K》宇宙里那个崇拜“万机之神”、痴迷于数据与技术的技术祭司派系。他们正式登场,意味着战场上的科技天平将发生显著倾斜。 从定位上看,机械教是一个高机动性、擅长远程打击的阵营。他们依靠各种

热心网友
05.12
索尼AI专利实现游戏精彩瞬间自动捕捉 告别手动录屏
游戏资讯
索尼AI专利实现游戏精彩瞬间自动捕捉 告别手动录屏

对于广大游戏爱好者而言,记录并分享游戏中的精彩瞬间——无论是多人竞技中的极限操作,还是单人剧情中击败强大BOSS的激动时刻——已成为日常游戏体验的一部分。然而,传统的录屏、回放、剪辑与导出流程,往往操作繁琐、耗时费力。近日,索尼互动娱乐的一项新专利显示,他们正致力于利用人工智能技术,从根本上革新这一

热心网友
05.12