首页 游戏 软件 资讯 排行榜 专题
首页
AI
30余顶尖高校联合发布视频推理数据集,规模达百万级

30余顶尖高校联合发布视频推理数据集,规模达百万级

热心网友
28
转载
2026-03-26


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

新智元报道

编辑:LRST

【新智元导读】AI视频生成已能「画得像」,但不会「想得对」。VBVR推出百万级视频推理数据集,首次系统评测模型对空间、物理、逻辑和抽象的推理能力,发现顶尖模型通过率仅68%,暴露其缺乏真实认知,推动视频AI从「视觉模仿」迈向「智能推理」。

近年来,视频生成模型在视觉质量、时序一致性和文本对齐等方面取得了显著进展,从最初的模糊光影到如今足以乱真的好莱坞级画面,「视觉质量」的竞争已趋于白热化。然而,一个被长期忽视的深层命题逐渐浮出水面:视频模型真的「理解」它所创造的世界吗?

现有研究和评测体系,更多聚焦于「好不好看」「像不像」,而视频中真正与智能相关的能力——对空间、物理、逻辑、因果与抽象规则的推理——却长期缺乏系统性刻画。一个核心瓶颈在于,视频推理领域至今缺少一个规模足够大、任务覆盖足够全面、且评测可验证、可复现的数据集与基准。

现有工作往往停留在零散demo或小规模benchmark 上,难以研究规模效应与泛化行为;

任务定义高度碎片化,空间、物理、逻辑、抽象等能力混杂在一起,缺乏统一的「推理能力定义」;

训练数据与评测任务严重脱节,模型更像是在「生成得更稳」,而非「想得更对」。

近日来自NTU、CMU、斯坦福、UCB等32所高校的研究员联合提出VBVR(Very Big Video Reasoning),并不是一个单点 benchmark,而是一套一次性补齐所有短板的面向视频推理研究的完整基础设施。


论文链接:https://arxiv.org/pdf/2602.20159v2

视频链接:https://www.youtube.com/watch?v=isnyV_BDgBE

前所未有的超大规模:研究人员构建了包含200 个精心策划的推理任务和超过 100 万个视频剪辑的 VBVR-Dataset。其规模比现有同类数据集大出约1000 倍,为系统研究视频推理的算法革新提供了坚实的土壤。

六大核心认知支柱:基于人类认知架构理论设计任务,研究人员将推理能力细分为:感知、空间性、物理规律、逻辑与符号、抽象、以及变换。

完全规则化、可复现的评测标准VBVR-Bench:研究人员摒弃了模糊的「LLM-as-a-judge」,引入了可验证的规则评分器。这种评估方式与人类判断高度一致,确保了结果的科学性和稳定性。

超强baseline:通过在Wan2.2 I2V 14B上的规模实验去回答「数据扩大会不会带来泛化」的核心问题


图片1VBVR 概览。 左侧:网格展示了覆盖认知架构的代表性任务,并根据其对应能力进行颜色编码:空间性(Spatiality)、变换(Transformation)、知识(Knowledge)、抽象(Abstraction)和感知(Perception)。在网格中心,展示了 VBVR(2.015M 样本) 与其他 九个数据集总和(12.8K 样本) 的规模对比:圆的大小按比例绘制。右上:在域内(in-domain)和域外(out-of-domain)评估中的扩展行为(scaling behavior)。右下:基于五种认知能力的基准性能表现。


图片2VBVR-Dataset 的示例任务实例,按五种认知能力进行组织。每个序列展示了为得到有效解所需的结构化推理过程。这些任务通过生成器实现,支持可扩展的实例变化。

在规模层面,VBVR-Dataset 的数字很醒目:200 个任务、2,015,000 张图像、1,007,500 个视频片段,约为既有同类资源的三个数量级。本文还特别设置了公开任务与隐藏任务,用于后续排行榜评估,避免基准被过度「刷榜化」。

研究团队根据人类认知理论,将视频推理能力划分为六大核心支柱(Pillars),涵盖 200 个精心设计的任务。同时这个数字随着社区的不断贡献还在增长,每一类都对应可参数化的任务生成器,能够持续采样新实例:

感知 (Perception):测试边缘检测、颜色和形状感知及辨别能力。

空间性 (Spatiality):考察位置表征、几何关系及导航能力(如迷宫寻路)。

变换 (Transformation):涉及心理旋转、物体状态演变等精神表征的操纵。

知识 (Knowledge):关于世界的命题性内容,可能来源于经验学习,也可能是先天赋予的。

抽象 (Abstraction):考察从特定经验中提取通用知识的能力。

VBVR-Bench

基于规则的系统可验证评分

VBVR-Bench 的核心主张是:视频推理评测应从「模型当裁判」(LLM-as-a-Judge)的主观评估范式,转向基于规则的可验证评分机制。在该基准中,每一个测试任务都配套明确的任务规则与加权评价指标,评估维度涵盖目标识别、路径合法性、执行效率、时序一致性以及逻辑有效性等关键因素。

这种设计带来的首要优势是,

完全可复现:对于同一模型输出,在相同规则体系下应始终得到稳定一致的评分结果,不会因评审模型的温度设置、提示词差异或上下文变化而产生波动。

深度诊断能力:它不仅能给模型打分,还能通过分析五大认知支柱(感知、空间,知识、变换、抽象)下的细分表现,揭示出模型在不同认知能力之间的相互依赖与权衡。研究者能够准确定位模型失败的具体原因,例如是目标识别错误、路径规划违反约束(如穿越障碍),还是由于生成视频抖动而导致的任务完成失败。

为了验证这种自动化规则评分是否靠谱,研究团队进行了人类偏好对齐实验。结果显示,VBVR-Bench 的自动化评分与人类判断的 Spearman 相关系数超过了0.9,证明了规则评分的权威性。


图片3人类偏好对齐分析:VBVR-Bench 自动胜率与人工偏好胜率呈高度相关。

VBVR-Wan2.2实验洞察

谁是当前的推理王者?

推理能力的 Scaling Law (规模化规律)

实验揭示了明显的规模效应,在基础模型Wan2.2-I2V-A14B上利用VBVR-Dataset 上微调后,得到的VBVR-Wan2.2模型在基准上实现了取得了显著性能提升。

从0.371跃升至0.685整体相对提升达到84.6%,并在多个能力维度上超过当时的主流专有模型。

泛化能力的「早期信号」

虽然域内与域外任务之间存在性能差距,但研究观察到随着数据规模扩大,模型开始表现出向未见过任务迁移推理能力的趋势。这意味着模型不仅仅是在记忆模式,而是在逐步内化某些通用的物理或逻辑规则。

这种性能提升并非可以无限持续。随着训练,域外任务与域内任务之间仍然存在约15%的泛化差距。

也就是说,仅依赖于「增加同类型数据规模」虽然能够带来显著性能增益,但仍不足以完全弥合系统性的泛化鸿沟。论文因此反复强调一个重要结论:规模化能够显著提升性能,但其效果仍然受到结构性上限的限制。

研究人员希望VBVR-Dataset也能够为下阶段研究提供一个实验土壤,社区可以以此为基础,进行架构层面的改造,例如显式状态跟踪、结构化推理模块、和自校正机制。

场景可控性是可验证推理的先决条件(Controllability before reasoning):通过定性分析发现,领先模型的高分本质上源于其极强的「约束执行」能力。

相比于基础模型在生成时会随意重写背景或物体标识,导致中间状态不可验证VBVR-Wan2.2展现出了一种「外科手术式」的精确度:它能严格遵循指令执行删除、旋转或多步操作,而不对画面其他元素产生任何意外扰动。

这种「非必要不修改」的确定性证明,模型已开始摆脱随意的「视觉脑补」,转而学习在物理规则的框架内进行受控演进。


图片4域外任务的定性概览:部分A展示了VBVR-Wan2.2与Sora 2在三个任务上的同任务、同样本对比;部分B展示了VBVR-Wan2.2在完全没见过的任务上的涌现现象; 部分C展示了VBVR-Wan2.2在任务上的实际边界。即使在改进后,模型仍可能在长生成任务中仍会出现一些问题,例如结果看似正确,但中间步骤并不遵循真实决策逻辑。这类「答案对了、过程错了」的现象,正是下一阶段视频推理评测必须继续强化的部分。

开源共建, 赋能社区,定义数据生产新范式

VBVR团队坚信,开放与共享是推动视频推理社区发展的基石。

VBVR-Dataset的百万级视频数据已向社区全量公开。

不仅如此,各个任务的参数化生成器代码以及高效的DataFactory云端架构也将同步开源。

基于云端无服务器的架构系统( AWS Lambda)支持多达990个节点并行作业,仅需2-4小时即可完成百万级数据的生产,且单次运行成本控制在800-1200美元之间,实现了极高的数据生产效能。

参考资料:

https://arxiv.org/pdf/2602.20159v2

来源:https://www.163.com/dy/article/KOS0G7VO0511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

DeepMind突破性AI技术:文本生成速度提升16倍的实现路径
科技数码
DeepMind突破性AI技术:文本生成速度提升16倍的实现路径

这项由谷歌DeepMind阿姆斯特丹团队完成的开创性研究发表于2026年3月的arXiv预印本平台(论文编号:arXiv:2603 20155v1),为人工智能文本生成技术带来了革命性突破。有兴趣深

热心网友
03.30
多模态创意营销工具Claw全球首发,让好创意更具商业价值
科技数码
多模态创意营销工具Claw全球首发,让好创意更具商业价值

最近有支叫《霍去病》的 AI 短片让我印象深刻,播放量轻松破亿,逼真得让人以为是重工业大制作。真相是:3 个人,48 小时,从立项到成片。 核心创作者还不是影视科班出身,人家之前只是一名内容运营。同

热心网友
03.27
30余顶尖高校联合发布视频推理数据集,规模达百万级
AI
30余顶尖高校联合发布视频推理数据集,规模达百万级

新智元报道编辑:LRST【新智元导读】AI视频生成已能「画得像」,但不会「想得对」。VBVR推出百万级视频推理数据集,首次系统评测模型对空间、物理、逻辑和抽象的推理能力,发现顶尖模型通过率仅68%,

热心网友
03.26
马普所突破AI虚拟人技术:实时对话生成真实手势表情
科技数码
马普所突破AI虚拟人技术:实时对话生成真实手势表情

这项由德国马克斯·普朗克信息学研究所与萨尔兰大学联合开展的研究发表于2024年,研究编号为arXiv:2603 03282v1,有兴趣深入了解的读者可以通过该编号查询完整论文。当你打开手机与语音助手

热心网友
03.16
加州圣地亚哥分校发布DFlash:人工智能对话速度提升6倍
科技数码
加州圣地亚哥分校发布DFlash:人工智能对话速度提升6倍

当你和ChatGPT对话时,有没有觉得它的回答总是一个字一个字慢慢蹦出来?这种现象背后其实隐藏着人工智能领域的一个核心难题。来自加州大学圣地亚哥分校的研究团队最近发表了一项突破性研究,他们开发出一种

热心网友
03.16

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

《洛克王国世界》独角兽伊利斯叫什么-呼唤独角兽的名字怎么写的
游戏攻略
《洛克王国世界》独角兽伊利斯叫什么-呼唤独角兽的名字怎么写的

《洛克王国世界》呼唤独角兽的正确姿势 在《洛克王国世界》的主线任务中,有时会遇到需要精确输入特定角色名称的环节。其中一个关键节点,便是要准确拼写出独角兽“伊利斯”的真名。很多玩家稍不注意就可能记错或用错字,导致任务流程在此停滞不前。这篇指南将为你清晰解析正确的输入方法,助你快速通关。 《洛克王国世界

热心网友
04.06
《洛克王国世界》找到向上的方法任务怎么做-风眠圣所找到向上的方法任务图文攻略
游戏攻略
《洛克王国世界》找到向上的方法任务怎么做-风眠圣所找到向上的方法任务图文攻略

《洛克王国世界》风眠圣所“向上的方法”任务图文通关指南 在《洛克王国世界》的风眠圣所探险过程中,很多玩家会在“找到向上的方法”这一环节遭遇卡点。实际上,只要理清思路、明确顺序,完成这个挑战并不困难。本攻略将为你提供一套经过验证的详细图文流程,帮助你一次性顺利通过。 最后的关键操作非常简单:准确判断风

热心网友
04.06
《洛克王国世界》叶冕魔力猫怎么打-叶冕魔力猫打法技巧攻略
游戏攻略
《洛克王国世界》叶冕魔力猫怎么打-叶冕魔力猫打法技巧攻略

《洛克王国世界》叶冕魔力猫打法全攻略:高效通关技巧解析 在《洛克王国世界》的主线剧情推进中,挑战初始精灵首领叶冕魔力猫是一个重要环节。许多玩家在这个关卡遇到了困难,感觉难以突破。不必担心,这份详尽的实战打法指南将为你提供清晰的过关思路,帮助你轻松击败叶冕魔力猫。 核心挑战思路与强力精灵推荐 与叶冕魔

热心网友
04.06
《洛克王国世界》罗隐在哪里抓-罗隐捕捉位置图解
游戏攻略
《洛克王国世界》罗隐在哪里抓-罗隐捕捉位置图解

《洛克王国世界》罗隐捕捉指南:高效获取圣羽翼王挑战关键战宠 在《洛克王国世界》中,成功挑战传说精灵圣羽翼王是许多训练师的终极目标之一。选择合适的战宠至关重要,而罗隐以其出色的对抗能力,已成为公认的核心攻略选择。那么,这只关键的宠物究竟在哪里可以捕获?本文将为你提供详尽的罗隐捕捉位置图解与实用技巧。

热心网友
04.06
大店小二元宝与银两优先使用攻略-资源合理分配技巧
游戏攻略
大店小二元宝与银两优先使用攻略-资源合理分配技巧

速览 在《大店小二》中,如何高效使用元宝和银两是新手玩家普遍面临的难题。资源有限,如何将每一分投入转化为最大收益?本文将深入解析两类资源的最优使用策略,核心原则是:元宝投资于长期价值,银两专注于核心养成。 大店小二元宝与银两使用优先级攻略 1 元宝使用指南 首要建议:若非充值玩家,请勿将元宝大量用

热心网友
04.06