首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
从「片段生成」到「长视频漫游」:OmniRoam探索轨迹可控的长视频生成新范式

从「片段生成」到「长视频漫游」:OmniRoam探索轨迹可控的长视频生成新范式

热心网友
83
转载
2026-04-16

从“片段”到“旅程”:OmniRoam如何让AI视频学会“连续行走”

生成式视频技术如今已能轻松炮制出几秒钟的惊艳片段,但一个更深层、也更棘手的挑战正浮出水面:如何让AI生成一段能“走”得更远、更稳的长视频?

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

问题就出在“时间”上。当视频从几秒延伸到几十甚至上百秒,视角的连续变化和时间的不断推移,会像一场无声的侵蚀,导致画面结构漂移、内容前后矛盾。结果就是,视频常常“走着走着就散了架”,在空间和时间两个维度上都难以维持稳定。

与此同时,另一个实际需求变得迫切:我们能否像设定导航路线一样,精确控制视频内容的演化路径?

最近,来自加州大学欧文分校、加州大学圣地亚哥分校、香港城市大学、宾夕法尼亚大学以及Adobe Research的研究团队,共同交出了一份名为OmniRoam的答卷。这项研究瞄准的,正是轨迹可控的长视频生成。

论文标题:OmniRoam: World Wandering via Long-Horizon Panoramic Video Generation

项目主页:https://yuheng.ink/project-page/omniroam/

文章链接:https://arxiv.org/pdf/2603.30045

代码链接:https://github.com/yuhengliu02/OmniRoam

这项工作的核心思路颇为巧妙:它引入全景视频作为一种统一的表示方法,并结合了一套“由粗到精”的分阶段生成框架。这套组合拳,在长时序条件下显著提升了视频的空间一致性与时间连贯性,使得模型能够沿着指定路径生成连续演化的视频序列。可以说,这是从“片段生成”迈向“连续过程生成”的关键一步。

一、先画路线图:轨迹可控的视频预览

OmniRoam的第一步,是生成一个中等分辨率的全景视频“预览”。这就像在动工前先画一张设计蓝图,目的是确定整体的运动路径和场景结构。

这里的核心创新,在于将相机轨迹拆解为两个直观的控制量:flow(流向)scale(步长)。前者刻画运动方向,后者控制每一步的移动幅度。这种拆解让轨迹建模变得更加清晰可控。在技术实现上,模型将起始画面与目标视频在时间维度上拼接,并通过flow和scale这两个条件进行调制。这样一来,生成过程既能保持内容的连续性,又受到了明确路径的约束。

二、精雕细琢:从预览到高质量长视频

有了全局预览作为骨架,OmniRoam便进入第二阶段——长时序细化生成。由于预览阶段通常采用较大的scale(类似于“快进”播放),细化阶段会通过scale对齐,将视频扩展为更长、速度更接近真实世界的序列。

这个阶段的一个关键设计是visibility mask(可见性掩码):在每个时间段,只选取少量的预览帧作为条件输入。这样做的好处是,既保留了关键的结构锚点,又避免了信息冗余。随后,模型对各个片段进行高分辨率生成,最终拼接成完整的长视频。这种“全局预览,局部细化”的策略,有效缓解了长序列生成中误差累积的顽疾。

三、为新任务铺路:数据集与评测基准

为了支撑这项全新的任务,研究团队构建了专门的数据集与评测体系。在表示层面,文章定义了一个标准全景坐标系,去除了相机的自旋转,只保留平移运动,从而简化了轨迹建模的复杂度。

数据方面则采用了“虚实结合”的策略:真实的全景视频提供了丰富的场景多样性,而合成的数据则提供了精确的轨迹监督。通过路径规划算法,确保了所有运动轨迹的合理性。在评测上,团队提出了一个巧妙的闭环一致性指标:要求模型生成的视频在沿着一个闭环路径“行走”一圈后,不仅能回到起点,还要保持中间过程的合理变化。这个指标更能衡量长时序下的空间一致性。

四、实验结果:一致性与可控性双提升

实验数据表明,OmniRoam在画质、轨迹控制和长时序一致性上均超越了现有方法。

定性来看,模型能够稳定地沿着指定路径生成连续视频,结构漂移和内容崩塌的现象被显著抑制。定量指标(如FAED、SSIM、LPIPS及闭环一致性)也一致显示其更优的性能。

深入分析发现,全景表示与两阶段生成设计是性能提升的关键,这让模型即使在生成长视频时也能保持稳定与可控。文章特别对比了在长视频(641帧)条件下,包括自回归生成和基于透视表示方法在内的不同方案的表现。

为了进一步探究长时序一致性,作者设计了一个闭环轨迹实验,并用CLIP图像相似度来衡量模型能否“走回原点”。理想情况下,随着相机逐渐远离起点,相似度应逐步下降;而当轨迹完成闭环时,相似度应重新上升。实验结果正如所料:相似度曲线在中段下降,在末尾重新回升,这有力地证明了模型具备了较强的长期空间记忆能力。

五、不止于生成:从实时预览到3D场景

除了核心的长视频生成能力,OmniRoam还展示了其在效率与3D任务上的扩展潜力。

在效率方面,作者基于self-forcing机制,将完整模型蒸馏为一个轻量级的自回归预览模型,实现了接近实时的视频生成。这个轻量模型在保持整体场景结构的同时,能在约7秒内生成81帧全景视频,相比原始模型速度大幅提升,为交互式应用打开了大门。同时,框架还支持先生成低分辨率视频,再通过细化模块提升至高分辨率(如720p)的灵活工作流。

在3D应用方面,OmniRoam生成的长视频可以直接作为3D场景重建的优质输入。研究者从生成视频中均匀采样关键帧,并提取多个透视视角,输入到3D Gaussian Splatting(3DGS)管线中进行重建。结果表明,生成视频在不同视角间保持了良好的一致性,能够重建出结构连贯的3D场景。

这些发现意味着,OmniRoam不仅可以作为长视频生成器,还能作为上游模块,为实时交互应用与3D内容构建提供强有力的支持。

六、总结:长视频生成迈向“可持续演化”

OmniRoam的核心贡献,并不仅仅是生成了更长的视频,而是在长时序条件下,实现了一种更稳定、更可控的生成“过程”。通过全景表示提供全局空间约束,再结合“轨迹控制预览”与“长时序细化”的两阶段设计,模型能够在长时间范围内有效抑制漂移,维持结构与语义的前后一致。

这背后反映出一个更重要的趋势:视频生成领域的挑战重心,正在从“生成更清晰的单帧内容”,转向“如何在更长的时间轴上保持一致性”。在这一背景下,OmniRoam提供了一条可行的技术路径,使生成模型能够沿着指定轨迹持续、稳定地演化,为未来的长视频叙事、虚拟世界漫游等场景奠定了基石。

如果说短视频生成解决的是“生成一段内容”,那么长时序生成真正关心的,是模型能否在时间的流逝中,持续地“记住并延续”整个场景的生命力。

来源:https://36kr.com/p/3767745167115012
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

你达标没!我国网络视听用户规模达10.99亿人:网民平均每人每天刷视频超200分钟
业界动态
你达标没!我国网络视听用户规模达10.99亿人:网民平均每人每天刷视频超200分钟

你达标没!我国网络视听用户规模达10 99亿人:网民平均每人每天刷视频超200分钟 4月15日,一份重量级的行业报告出炉了——《中国网络视听发展研究报告(2026)》正式发布。报告揭示了一个关键数字:截至2025年12月,我国网络视听用户规模已经攀升至10 99亿人。这个体量,几乎覆盖了绝大多数的中

热心网友
04.16
从「片段生成」到「长视频漫游」:OmniRoam探索轨迹可控的长视频生成新范式
业界动态
从「片段生成」到「长视频漫游」:OmniRoam探索轨迹可控的长视频生成新范式

从“片段”到“旅程”:OmniRoam如何让AI视频学会“连续行走” 生成式视频技术如今已能轻松炮制出几秒钟的惊艳片段,但一个更深层、也更棘手的挑战正浮出水面:如何让AI生成一段能“走”得更远、更稳的长视频? 问题就出在“时间”上。当视频从几秒延伸到几十甚至上百秒,视角的连续变化和时间的不断推移,会

热心网友
04.16
2026 视频相机选购评测:拆解核心维度,避开选购常见误区
业界动态
2026 视频相机选购评测:拆解核心维度,避开选购常见误区

当短视频创作从“随手记录”走向“品质进阶” 如今,越来越多的创作者不再满足于手机拍摄,开始将目光投向专业的半画幅视频相机。但市场机型繁杂,宣传话术又让人眼花缭乱,即便做了大量功课,很多人依然会选错——追求便携的,可能牺牲了画质;看重专业功能的,又被复杂操作劝退;纠结预算的,一不小心就踩进了“参数虚标

热心网友
04.16
AI解说大师narrator-ai-cli:影视解说自动化工具,CLI架构让内容生产效率翻倍
AI
AI解说大师narrator-ai-cli:影视解说自动化工具,CLI架构让内容生产效率翻倍

在短视频内容生态中,影视解说已成为创作者高效产出与吸粉的热门赛道。然而,一条优质解说视频的制作,通常涉及字幕提取、文案创作、AI配音、视频剪辑等多个环节,流程繁琐且对专业度要求较高。 今天为大家深度解析的 narrator-ai-cli,是一款专为影视解说自动化而生的命令行工具。它基于AI解说大师的

热心网友
04.16
2026 年直播相机推荐:兼顾便捷开播与电影感画质,这五款值得一看
业界动态
2026 年直播相机推荐:兼顾便捷开播与电影感画质,这五款值得一看

随着短视频与直播生态持续爆发,一台能兼顾高画质记录与便捷开播的相机,已成为内容创者的刚需。面对市场上琳琅满目的选择,我们从视频拍摄专业性、直播易用性及性价比三个维度,盘点了目前 6000 元以内最值得入手的五款机型。其中,佳能创意视频机 R50V 以 5299 元起的定价强势入局,凭借 CINEMA

热心网友
04.15

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

DOGE狗狗币波动K线怎么操作_gate.io手把手教你捕捉DOGE买卖节奏
web3.0
DOGE狗狗币波动K线怎么操作_gate.io手把手教你捕捉DOGE买卖节奏

DOGE交易进阶指南:融合四大技术维度,精准捕捉买卖节奏 在波动剧烈的加密货币市场,尤其是像DOGE(狗狗币)这样的热门资产,单一的技术指标往往失之偏颇。成功的交易者善于构建一个多维度的分析框架。本文将深入解析如何将K线关键形态、均线系统、成交量分析以及动态止盈止损策略有机结合,形成一个高效、可靠的

热心网友
04.16
SOL索拉纳基本面如何评估_okx欧易带你看懂SOL Layer1竞争力
web3.0
SOL索拉纳基本面如何评估_okx欧易带你看懂SOL Layer1竞争力

SOL公链竞争力:从吞吐量、费用到生态的三维评估 评估一条公链的竞争力,不能只看纸面数据,更要看其实际运行的健康度和生态活力。对于SOL(Solana)这条以高性能著称的Layer1公链,其核心竞争力究竟体现在哪里?简单来说,可以归结为三个硬指标:吞吐量、费用和生态。目前,其网络TPS稳定在4万以上

热心网友
04.16
微软2026款Surface全系规格曝光:ARM主攻消费、Intel商用开放个人购买
业界动态
微软2026款Surface全系规格曝光:ARM主攻消费、Intel商用开放个人购买

根据2026年4月16日的最新零售渠道消息,微软下一代Surface Pro与Surface Laptop系列的详细规格已浮出水面。新系列将继续沿用差异化的平台策略,以满足不同用户群体的需求。 具体而言,面向消费级市场的版本将全面采用ARM架构处理器,以追求出色的能效比与续航表现。而商用级版本则会搭

热心网友
04.16
亚马逊为 Kindle 商店加入无 DRM 识别机制,可购买无加密电子书
科技数码
亚马逊为 Kindle 商店加入无 DRM 识别机制,可购买无加密电子书

亚马逊Kindle推出无DRM购买选项:电子书真正归用户所有 近期,科技媒体Goodereader披露了一则引发出版行业与数字阅读者高度关注的消息。实际上,自去年12月以来,亚马逊已逐步开放权限,允许出版社及独立作者直接向Kindle商店上传EPUB、PDF格式的电子书文件,并支持以无数字版权管理(

热心网友
04.16
以太坊 4 小时级别如何交易_教你在欧易通过 EMA 均线做稳 ETH
web3.0
以太坊 4 小时级别如何交易_教你在欧易通过 EMA 均线做稳 ETH

在欧易平台,用4小时EMA双线捕捉ETH趋势行情 想在以太坊的波动中把握趋势?一套清晰、可执行的交易系统至关重要。今天要聊的,就是以4小时EMA(7)与EMA(30)双线位置及交叉为核心,结合价格结构、成交量与动态移动止盈,来构建的一套ETH趋势交易框架。 一、确认4小时EMA趋势方向 趋势是朋友,

热心网友
04.16