首页 游戏 软件 资讯 排行榜 专题
首页
AI
浙大与微软联手推出3000条文本数据集,解决AI视频生成3D穿帮难题

浙大与微软联手推出3000条文本数据集,解决AI视频生成3D穿帮难题

热心网友
31
转载
2026-05-18

视频生成模型的画面质量日益精进,但一个顽固问题始终存在:一旦镜头移动,画面就容易出现扭曲、变形或物体消失等“穿帮”现象。其根本原因在于,多数模型仅在二维像素层面进行数据拟合,并未真正理解其生成内容所处的三维空间结构。

传统解决方案通常是为模型强行加入3D感知模块,但这往往导致计算成本激增、泛化能力受限,且多局限于图生视频任务,难以应用于文生视频场景。那么,能否在不改变模型架构的前提下,有效提升其三维理解能力?

浙江大学与微软亚洲研究院联合提出的World-R1,提供了一条创新路径:不修改模型结构,不依赖3D标注数据,仅通过强化学习技术,即可“唤醒”视频生成模型内在的三维世界先验知识。

World-R1 核心原理:不改变架构,用强化学习激活3D感知

World-R1的出发点颇具巧思:经过大规模预训练的视频扩散模型,其内部已隐含着丰富的三维空间知识,只是这些知识处于“休眠”状态。研究团队的目标,是借助强化学习作为“触发器”,将这些潜在的3D理解能力激活。

具体实现过程可归纳为三个关键步骤。

图片

第一步:将相机运动轨迹编码至初始噪声

传统方法控制相机运动通常需训练额外网络。World-R1则采用“零修改”集成策略。

具体而言,模型从输入文本中解析描述相机运动的关键词(如“推进”、“环绕左转”),并据此生成相应相机轨迹。随后,通过光流投影技术,将运动信息直接编码到扩散过程的初始噪声中。这意味着无需调整任何模型代码或增加参数,生成过程即可依据文本指令实现自然的镜头运动。

第二步:构建多维度奖励评估体系

强化学习的效果关键在于奖励函数设计。World-R1为此设计了一套四维复合奖励机制,从多角度评估生成视频的三维合理性:

多视角一致性评分:利用Depth Anything 3模型估计深度,将视频转换为3D高斯溅射表示,然后从与生成视角截然不同的新角度进行渲染和评估。这相当于让模型自我检查:正面观看无误时,侧面视角是否依然合理?

运动动态合理性评审:调用Qwen3-VL等强大视觉语言模型作为“评审”,专门识别视频中物体运动是否符合物理规律,检测是否存在动作僵硬的异常现象。

三维重建保真度评估:对生成视频进行3D重建,再将其渲染回2D画面,与原始视频帧进行像素级比对,确保三维结构的一致性能够准确映射到二维视觉表现。

轨迹对齐与通用画质保障:评估生成的相机运动是否准确遵循指令,同时使用HPSv3等指标确保在优化3D一致性的过程中,画面美学质量得以维持。

图片

整套奖励通过创新的Flow-GRPO框架进行高效优化。

第三步:采用周期性解耦训练策略

过度追求3D一致性可能导致副作用:为保持几何稳定,所有物体动态消失,场景失去活力。

为此,World-R1引入了周期性解耦训练。在常规训练阶段,使用完整奖励函数集中优化几何一致性;每经过100步训练,则切换到“动态增强”阶段,在此期间仅使用通用画质奖励,并在高动态场景数据上进行训练。这种“一张一弛”的策略,最终实现了建筑结构稳定、同时旗帜飘扬等动态自然的效果。

训练数据:无需视频,仅凭文本描述

你可能会问,训练此类模型需要多少带3D或运动标注的视频数据?答案令人惊讶:完全不需要。

研究团队利用Gemini大模型生成了约3000条高质量、多样化的场景文本描述,涵盖峡谷、城市、深海、蘑菇森林等多种环境,并按相机运动复杂度分为三个等级。模型正是在学习这些“文本想象”的过程中,领悟了真实世界的三维物理规律。

实验结果:3D一致性显著提升,画质同步优化

研究基于Wan 2.1模型训练了两个版本:参数为1.3B的World-R1-Small和14B的World-R1-Large。

三维一致性实现飞跃

图片

在衡量3D一致性的关键指标上,Small版相比基线模型的PSNR提升了10.23 dB,Large版提升了7.91 dB。反映感知差异的LPIPS指标则从0.467显著降低至0.201。这表明视频中的几何扭曲和结构失真问题得到了极大改善。

美学与成像质量全面超越基线

图片

更令人惊喜的是,优化3D一致性并未牺牲画质。在VBench评测中,World-R1-Small在美学质量和成像质量上分别达到65.74和67.53分,全面超越了基线Wan 2.1-1.3B。相比之下,那些需要额外添加相机控制模块的方法,美学得分普遍在38-42分之间。真正做到了三维稳定性与视觉美感的双重提升。

视觉效果对比鲜明

图片

从3D重建的点云图可以直观看出差异:基线模型生成内容的重建结果结构散乱,而World-R1生成结果的点云则清晰地呈现出完整、连贯的建筑结构形态。

消融实验:验证各核心组件的必要性

图片

消融实验结论明确,证实了系统设计的有效性:

移除3D感知奖励,几何一致性显著下降;
去掉通用生成奖励,画面美学质量明显降低;
放弃基于噪声编码的隐式相机控制,模型收敛速度大幅减慢;
取消周期性解耦训练策略,模型生成动态场景的能力几乎丧失。

这四个核心组件相互支撑,缺一不可。

World-R1的研究揭示了一个富有前景的方向:提升视频生成模型的三维世界理解能力,未必需要重构架构或强行植入复杂模块。通过精心设计的强化学习奖励机制,完全有可能激活模型内部已有的空间感知潜力,以更高效、更低成本的方式,解决长期存在的镜头运动“穿帮”难题,推动AI视频生成技术向更高维度的真实感迈进。

来源:https://www.51cto.com/article/843421.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

微软WinUI 3重构文件属性对话框将于2026年上线
业界动态
微软WinUI 3重构文件属性对话框将于2026年上线

作为长期使用Windows系统的资深用户,你一定对文件资源管理器中的“属性”对话框非常熟悉。它是我们查看文件详细信息、管理安全权限的核心入口。但你可能未曾察觉,这个看似基础的窗口界面,其设计雏形竟可追溯至近三十年前的Windows 95时代。如今,微软终于决定为这一“历史组件”赋予全新的现代化面貌。

热心网友
05.17
比尔盖茨基金会为何清仓微软股票 背后原因深度解析
科技数码
比尔盖茨基金会为何清仓微软股票 背后原因深度解析

2026年第一季度,一份提交至美国证券交易委员会(SEC)的文件披露了一项标志性资产变动:比尔及梅琳达·盖茨基金会信托已将其持有的全部剩余微软股票——约770万股,价值约32亿美元——悉数出售。此举标志着,这家由微软联合创始人捐资设立、全球规模最大的私人慈善基金会,与这家科技巨头之间维系数十年的核心

热心网友
05.17
微软Win11小组件2026年将默认关闭资讯流减少打扰
业界动态
微软Win11小组件2026年将默认关闭资讯流减少打扰

微软针对Windows 11小组件的未来规划已清晰浮现:核心策略是做减法。其根本目的在于减少干扰,致力于打造一个更安静、更专注的用户体验。按照官方路线图,自2026年起,用户将逐步感受到这些以提升工作效率为核心的设计变革。 具体有哪些优化措施?首先,最重大的改变是资讯流的默认状态。调整后,小组件面板

热心网友
05.17
微软确认部分Win11设备安装5月更新失败 卡在35%至36%进度
科技数码
微软确认部分Win11设备安装5月更新失败 卡在35%至36%进度

部分Windows11设备安装5月累积更新时,进度会卡在35%至36%,并显示错误代码0x800f0922。微软确认该问题与EFI系统分区剩余空间不足10MB有关。临时解决方案包括:普通用户可通过修改注册表键值“EspPaddingPercent”为0;企业用户则可应用组策略中的“已知问题回滚”策略来暂时规避。

热心网友
05.16
Win11关闭诊断数据教程 如何最小化发送给微软的数据量
系统平台
Win11关闭诊断数据教程 如何最小化发送给微软的数据量

如果你希望最大程度地减少Windows 11向微软发送的诊断数据,那么下面这五个步骤,可以说是目前最全面、最底层的操作指南了。它从用户界面设置一路深入到系统服务和注册表,旨在帮你把那些默认开启的、持续收集设备性能、应用行为乃至使用习惯的“遥测”通道,逐一关闭。 一、将诊断数据级别设为“基本”并关闭可

热心网友
05.16

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

斯柯达晶锐Fabia Motorsport特别版车型正式发布
业界动态
斯柯达晶锐Fabia Motorsport特别版车型正式发布

为庆祝品牌投身赛车运动整整125年,斯柯达正式推出了晶锐Fabia Motorsport Edition特别版。这款车基于Fabia 130打造,设计灵感直接来源于征战赛场的Fabia RS Rally2拉力赛车,整体风格充满了对赛事历史的致敬意味。不过,得先说明白,它的升级重点主要落在了外观和底盘

热心网友
05.18
灰度以太坊质押ETF持仓超10万枚ETH 价值2.37亿美元
web3.0
灰度以太坊质押ETF持仓超10万枚ETH 价值2.37亿美元

Grayscale 通过其以太坊质押 ETF 质押了 102,400 个 ETH,价值 2 37 亿美元 先来看一组数据:资产管理巨头 Grayscale 最近通过其以太坊质押 ETF,一口气质押了超过10万个 ETH,价值约2 37亿美元。这个动作本身不小,但更有意思的是市场的后续反应——或者说,

热心网友
05.18
劳斯莱斯库里南防弹版发布 Inkas打造隐形防护座驾
业界动态
劳斯莱斯库里南防弹版发布 Inkas打造隐形防护座驾

劳斯莱斯库里南自问世以来,始终是超豪华全尺寸SUV领域的标杆。对于追求极致安全又不愿牺牲低调气质的高净值人士而言,如何实现“隐形”的顶级防护,一直是核心诉求。如今,加拿大专业防弹车制造商Inkas,以一款近乎“零痕迹”改装的库里南,给出了完美解决方案——一座移动的“隐形堡垒”。 区别于常见的外露装甲

热心网友
05.18
GTA5与荒野大镖客2高清复刻版或将登陆Switch平台
游戏资讯
GTA5与荒野大镖客2高清复刻版或将登陆Switch平台

新加坡维塔士工作室正考虑将《侠盗猎车手V》与《荒野大镖客:救赎2》移植至任天堂Switch平台。该团队拥有丰富的移植经验,曾成功负责多款游戏的跨平台适配。这两款作品全球销量巨大,若能登陆Switch,其便携特性可能成为新的市场增长点。

热心网友
05.18
大众ID. Polo GTI全球首发亮相 高尔夫GTI刷新纽北赛道纪录
业界动态
大众ID. Polo GTI全球首发亮相 高尔夫GTI刷新纽北赛道纪录

当高尔夫GTI迎来五十周年里程碑,传奇的纽博格林北环赛道成为其致敬历史与展望未来的最佳舞台。这里不仅铭刻了燃油性能图腾的巅峰时刻,也正式开启了电动GTI的新纪元。近日,大众汽车正式宣布,高尔夫GTI 50周年版在纽北创下全新纪录,荣膺最快前驱量产车称号;与此同时,品牌首款纯电动GTI车型——ID

热心网友
05.18