首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
Netflix也发视频模型了:不只是“擦除”,而是“重写”物理世界

Netflix也发视频模型了:不只是“擦除”,而是“重写”物理世界

热心网友
39
转载
2026-04-22

视频物体移除是基础,那“物理交互移除”呢?

在视频编辑工具箱里,物体移除早已不是什么新鲜事。目前的主流方法,应付那些“简单”场景已经游刃有余——比如干净地抹掉一个障碍物,把它背后的背景天衣无缝地补全,或者顺带消除它的影子和倒影,都不在话下。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

但真正的挑战往往藏在更复杂的现实里:如果要移除的物体,并非孤立存在,而是与场景中的其他元素有着实实在在的物理交互,该怎么办?

不妨设想两个场景:一排多米诺骨&牌正连锁倒下,如果凭空移除中间几块,按照现有逻辑,后面的骨&牌理应继续倒下。但这在物理上根本讲不通,因为推动它们的“前因”已经消失了。再比如,画面里有一双手正在转动陀螺,倘若移除这双手,物理规律告诉我们,陀螺会依靠惯性继续旋转,而不是随之凭空消失或骤然停止。

这类场景对模型提出了更高要求:它不能只做“擦除”和“修补”,还必须具备一定的因果推理能力。核心问题是,不仅要“移除”物体本身,还得推演“如果这个物体从未存在过,整个场景的物理进程会如何演变”。而这,正是当前许多视频编辑模型的盲区。

面对这个瓶颈,Netflix(网飞)团队与合作伙伴给出了他们的答案:“视频目标与交互删除”框架,简称VOID。

论文链接:https://arxiv.org/pdf/2604.02296

VOID的目标很明确:不仅要移除指定目标,还得对其消失后可能引发的物理连锁反应,进行合理建模与生成。框架的基石是三大核心创新:利用物理仿真引擎构建反事实数据集、引入交互感知的“四值掩码”作为条件化策略,以及在推理时借助视觉-语言模型自动识别哪些区域会受影响。

值得一提的是,VOID基于智谱AI的视频生成模型CogVideoX构建,并专门针对具备交互感知掩码条件的视频修复任务进行了微调。

效果如何?研究数据给出了有力证明:在人类偏好评估中,VOID结果被选为最优的比例高达64.8%,远超第二名Runway的18.4%。

更令人印象深刻的是其泛化能力。VOID能处理许多训练数据中从未出现过的物理效果,例如“移除拿着气球的玩具熊后,气球会向上飘走”,或者“移除按下搅拌机按钮的人手后,搅拌机保持静止”。这表明,模型并非简单记忆样本,而是学会了调用底层模型的物理直觉进行推理。

整体而言,这项工作为视频编辑模型向更高阶的“世界模拟器”迈进,提供了扎实且富有启发的路径。

更懂物理的“视频移除”

VOID的架构建立在CogVideoX的DiT骨架上,并从Generative Omnimatte的预训练权重初始化,从而继承了其对物体与效果进行分层解耦的优良能力。

在此基础之上,研究团队通过反事实数据对和独特的四值掩码进行微调,教会模型一个关键技能:在物体被移除后,如何生成物理层面合理的新运动轨迹。

整个过程可以概括为:用户提供一段视频并指定要移除的物体,系统随后自动推理哪些区域会因该物体的消失而产生变化,最终生成一段符合物理规律的反事实视频。

图|VOID 示意图

1. VLM引导的推理时四值掩码生成

在推理阶段,用户的操作极其简单——只需点击目标物体。接下来的复杂分析交由系统完成:视觉-语言模型会解析整个场景,自动推断哪些物体会受到影响,以及它们在反事实场景中应该出现的位置。具体流程分四步走:

首先,VLM接收视频和物体掩码,输出一个受影响物体的描述列表。

接着,使用SAM 3模型对这些受影响物体进行分割,获取它们在原始视频中的位置掩码。

然后,在视频上叠加一个空间网格,由VLM预测这些物体在“假设目标不存在”的新场景中,最可能出现的位置。

最后,合并原始位置和预测新位置两组掩码,生成最终指导模型生成的“四值掩码”。

2. 两阶段推理

基于生成的四值掩码,VOID通过两阶段推理来打磨最终结果。

第一阶段:反事实轨迹合成。 模型根据输入视频和四值掩码,生成一个初步的反事实预测。这一阶段能抓住大方向正确的运动假设,比如失去支撑的物体开始自由落体。但由于视频扩散模型在生成复杂运动时,偶尔会出现物体变形或闪烁的问题,因此需要进一步优化。

第二阶段:光流引导的噪声稳定。 受“Go-with-the-Flow”方法的启发,VOID从第一阶段输出中提取光流场,并用其生成与时间序列相关的扭曲噪声,将此作为第二阶段的输入。这相当于让扩散模型沿着正确的运动轨迹进行一致性的去噪,从而显著减少物体变形。是否需要触发第二阶段,由VLM自动判断——通常只在检测到场景存在大幅动态变化时才会启用。

研究结果

无论是在真实数据还是合成数据上的实验,结论都指向一点:与现有的视频对象移除方法相比,VOID在移除对象后,能更出色地保持整个场景动态的连贯性与物理合理性。

1.真实世界视频评估

评估真实世界视频没有“标准答案”,因此研究团队采用了多维度的评估方式。

人类偏好研究: 25名参与者每人评估5个不同场景,从7个模型的输出中挑选最佳结果。数据显示,VOID以64.8%的胜率稳居第一,达到SOTA水平。值得注意的是,即使竞争对手Runway额外接受了描述预期场景变化的文本指令,仍未能撼动VOID的优势。

VLM裁判评估: 团队还请来了Gemini 3 Pro、GPT-5.2和Qwen 3.5-32B三位VLM“裁判”,从交互物理合理性、物体移除质量、时序一致性、场景保留度等多个维度进行自动评分。在全部三位裁判的评选中,VOID均获得了最高的总分。尤其在衡量核心能力的“交互物理”维度,优势更为突出:在Gemini 3 Pro的评估中,VOID得分3.66,而第二名Runway仅为2.61。

定性对比: 在众多真实场景案例中,基线方法暴露出各种不足:在碰撞场景中未能正确移除物体、重物移走后枕头依然保持凹陷、移除油漆滚筒后墙上却出现了新油漆等。反观VOID,在所有测试案例中都表现出了正确的物理推理。

对未见效果的泛化: 在泛化能力测试中,VOID成功处理了多种训练时未曾见过的交互类型。例如:移除拿着气球的卡通熊后,气球会向上飘走;移除按下搅拌机按钮的孩子后,搅拌机保持未启动状态;移除正在咬住棍子的狗后,棍子自然掉落;以及移除作为障碍物的橡皮鸭后,小球的滚动轨迹随之改变。

2.合成数据集评估

在一个包含10个经典影子/倒影移除案例和30个动态交互案例的合成基准测试上,VOID同样展现了SOTA级别的能力。

在除LPIPS之外的所有评估指标上,VOID均取得了最佳成绩。这里有个有趣的细节:LPIPS指标对局部像素位移非常敏感。这意味着,如果模型正确模拟了物体掉落,但下落速度与“标准答案”有细微偏差,其得分反而可能低于那些简单删除物体、导致物理错误的模型。而在更能衡量整体质量的视频级指标(如FVD)和VLM裁判分数上,VOID与基线模型的差距最为显著,这强有力地证明了其在物理合理性与语义一致性方面的卓越优势。

此外,在75个真实世界测试用例上进行的消融研究进一步表明:混合不同来源数据集带来的多样性(即使总数据量不变),其效果优于使用单一数据源;同时,精细的四值掩码配合VLM引导的生成流程,其效果也明显胜过粗糙的全局掩码策略。

不足与未来展望

尽管VOID展现了强大的潜力与泛化能力,但这项研究也客观地指出了当前的一些局限性:

域差距问题: 当测试视频的拍摄角度比较异常,或者摄像机过于靠近物体时,模型的性能会出现下降。

数据来源局限: 目前的训练数据全部来自计算机渲染引擎,未来可以探索结合更多样化的真实世界数据获取方式。

视频长度和分辨率: 当前生成视频的长度仍限制在几秒钟,分辨率也有进一步的提升空间。

研究团队展望,随着更强大的视频生成模型和视觉-语言模型不断涌现,这一框架的性能有望持续提升。更重要的是,这项工作揭示了一个充满趣味且远未充分探索的方向:如何将强大的世界建模与物理推理能力,有效地迁移并应用于视频编辑这一实用领域。这或许才是其最令人期待的价值所在。

来源:https://36kr.com/p/3756719276835586
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

剪映如何调倍速
手机教程
剪映如何调倍速

在使用剪映进行视频编辑时,调整倍速是一项非常实用的功能,可以让视频呈现出不同的节奏和效果。下面就为大家详细介绍剪映调倍速的方法。 导入视频到剪映 操作的第一步,是打开剪映应用,点击那个醒目的“开始创作”按钮。接着,从你的手机相册或其他存储位置,把想要编辑的视频素材选中并导入进来。这个过程非常直观,几

热心网友
04.20
生产力提升:高通宣布 Adobe AE 等创意应用适配 / 优化骁龙 X WoA 处理器
手机教程
生产力提升:高通宣布 Adobe AE 等创意应用适配 / 优化骁龙 X WoA 处理器

2025骁龙峰会:创意应用生态加速,骁龙X平台生产力迎来关键升级 9月25日,2025骁龙峰会传来一则对创意工作者至关重要的消息:高通宣布,多款核心创意应用程序将针对其骁龙X系列Windows on Arm(WoA)处理器进行原生适配或深度性能优化。这意味着,基于骁龙X芯片的PC设备,其生产力表现,

热心网友
04.15
Camtasia导出GIF的方法
手机教程
Camtasia导出GIF的方法

Camtasia视频转GIF全攻略:让动态分享更简单 将精心制作的屏幕录制内容转化为一张小巧、易传播的GIF动图,是很多内容创作者的实际需求。Camtasia作为一款集录制与编辑于一体的强大工具,其导出GIF的功能直接而高效。下面,就让我们一起走完这个流程。 首先,在Camtasia中打开你的项目文

热心网友
04.14
腾讯混元将开源一致性视频生成工具HunyuanCustom
AI
腾讯混元将开源一致性视频生成工具HunyuanCustom

腾讯混元开源视频生成工具 有消息来了:腾讯混元团队那边放出预告,将在5月9日(周五)上午11点,正式推出一款开源的一致性视频生成工具,名字叫 HunyuanCustom。从发布的最新海报来看,这款工具大概率会支持视频编辑功能。 光是“一致性视频生成”和“开源”这两个关键词放在一起,就足够让人琢磨一阵

热心网友
04.14
快剪辑如何视频同框
手机教程
快剪辑如何视频同框

快剪辑同框效果全攻略:轻松制作创意分屏视频 想让你的视频在社交媒体上获得更多关注?掌握视频同框技巧是关键。这种效果能为内容增添丰富的视觉层次与互动趣味,而使用快剪辑这样的专业工具,实现过程其实非常简单。本指南将为你详细解析,如何利用快剪辑高效完成视频同框编辑,提升作品的创意表现力。 首先,打开快剪辑

热心网友
04.14

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

连亏五个季度后,光伏板块终于盈利了
科技数码
连亏五个季度后,光伏板块终于盈利了

三季报收官,光伏企业交出了近年难得的尚佳成绩 三季报发布完毕,光伏行业总算交出了一份近年来难得的、还算不错的成绩单。市场等这一刻,确实等了挺久。 根据Choice光伏设备板块收录的78家企业财报,整个板块三季度的净利润达到了7 58亿元。这个数字怎么看?不妨对比一下:就在二季度,板块的净亏损还高达4

热心网友
04.22
天龙三号首飞失利:与猎鹰9号对标之路,归零迭代成破局关键
科技数码
天龙三号首飞失利:与猎鹰9号对标之路,归零迭代成破局关键

北京天兵科技天龙三号火箭首飞失利解析 最近,北京天兵科技自主研发的天龙三号大型液体运载火箭,在酒泉卫星发射中心执行首次飞行任务时遭遇失利,这无疑是给国内商业航天关注者带来了一次震动。这款被寄予厚望的火箭,瞄准的是近地轨道20吨级的可回收运力,其设计初衷是通过低成本、高频次的发射模式,抢占一箭36星组

热心网友
04.22
开发者自建48台Mac mini集群,撑起Overcast播客转录
科技数码
开发者自建48台Mac mini集群,撑起Overcast播客转录

苹果芯片实战:48台Mac mini搭建本地AI集群,如何碘伏云端语音识别? 最近科技圈有个挺有意思的消息。知名播客应用Overcast的开发者Marco Arment,自己动手搭了个“大家伙”——一个由48台苹果Mac mini组成的服务器集群。关键是,这个集群没走寻常路,它完全绕开了云端AI服务

热心网友
04.22
领克10+与10全球首秀:高效补能搭配赛道王者,开启纯电高性能新篇
科技数码
领克10+与10全球首秀:高效补能搭配赛道王者,开启纯电高性能新篇

纯电赛道再进化:领克10系列如何重新定义“运动轿车”? 如果问,纯电时代最让人怀念传统燃油车的是什么?很多人会把票投给两件事:说走就走的补能,和随心所欲的操控。最近,领克用一场全球首秀给出了自己的答案。旗下全新的中大型运动轿车领克10,以及更极致的性能版本领克10+联袂登场。这不仅仅是两款新车,更像

热心网友
04.22
Apple Vision Pro新专利曝光:将实现按需定制与组件更换
科技数码
Apple Vision Pro新专利曝光:将实现按需定制与组件更换

苹果正酝酿一款“可自定义”的Vision Pro,核心框架支持模块化拼装 一则来自供应链和专利领域的消息,引起了科技圈的关注。4月8日,有外媒报道指出,苹果似乎并不满足于当前的一体化设计思路,其正在深入探索如何打造一款高度可自定义的Apple Vision Pro。未来的VR AR头显,用户或许能像

热心网友
04.22