港中文团队实现4K全景视频生成技术普通视频可扩展空间感

首页

热心网友

转载

2026-05-20

你是否曾有过这样的感受：当我们用手机或相机记录眼前的世界时，三维立体的现实仿佛被压缩进了一个扁平的画框。我们拍下了事件，却丢失了空间的包围感；保存了画面，却未能留住身处其中的临场体验。

这正是当前沉浸式内容产业面临的核心挑战。行业共识日益清晰：未来的视频不仅是用来“观看”的，更是供人“进入”、环顾与探索的。无论是VR体验、数字展陈、虚拟空间，还是文旅项目、游戏场景、线上看房与远程教学，这些应用真正渴求的，并非传统平面视频，而是能承载完整空间感、方向感与现场沉浸感的全景内容。

然而，市场需求已飞速向前，内容生产方式却仍步履蹒跚。制作高质量360°全景视频，至今仍高度依赖专业设备、复杂的多机位系统、繁琐的后期拼接以及不菲的成本，导致能稳定产出优质内容的团队寥寥无几。沉浸式内容的想象空间无限广阔，但其实际供给能力却存在巨大缺口。

在此背景下，香港中文大学薛天帆团队的最新研究成果“CubeComposer”显得尤为重要。他们的研究直指一个具有重大产业价值的问题：普通的单视角视频，能否被直接、高质量地扩展成原生的4K 360°全景视频？关键在于，这种扩展不能仅是简单的画面拉伸或清晰度提升，而必须在空间连续性、时间稳定性与整体真实感上达到实用标准。

设想一下未来的应用场景：商场的宣传视频或许不再需要昂贵的全景相机阵列；一段城市夜景素材，将不再局限于单一方向，而能扩展为可供观众自由环视的沉浸式环境。大量原本只能平面观看的影像资料，都有潜力转化为可“步入”其中的空间体验。CubeComposer的价值，正是为普通视频向沉浸式内容的转化，铺设了一条更具现实可行性的技术路径。

港中文薛天帆团队：实现 4K 全景视频生成，普通视频也能「长出空间」丨CVPR 2026

核心突破：超越分辨率的全方位质量跃升

研究团队在自建的4K360Vid数据集及公开数据集ODV360上进行了全面评测。评估指标覆盖多个维度：LPIPS（感知相似度，越低越好）、CLIP（语义一致性，越高越好）、FID与FVD（分别衡量生成图像与视频的质量分布），以及VBench评测中的美观度、清晰度和一致性。

在4K360Vid数据集上，与基线模型Argus相比，CubeComposer取得了显著提升：LPIPS从0.4074降至0.3696，CLIP从0.8858提升至0.9234，FID从141优化至119，FVD从4.07降至3.90。这些数据表明，其生成结果在视觉保真度、语义匹配度以及视频流畅度上均有明显进步。

尤为关键的是4K版本的结果：FVD进一步降至2.22，清晰度指标(I.Q.)提升至0.56以上，美观度指标(A.Q.)也超过0.40。这证明在实现更高分辨率的同时，生成内容的综合质量不仅没有衰减，反而得到了同步增强。

在ODV360数据集上同样观察到一致趋势。LPIPS从约0.43降至0.42，CLIP从约0.88提升至0.90以上，FID从约140降至123。最突出的是FVD指标，从Argus的12以上大幅降至CubeComposer的3.5，这反映了生成视频在时间连贯性与动态稳定性上实现了质的飞跃。

港中文薛天帆团队：实现 4K 全景视频生成，普通视频也能「长出空间」丨CVPR 2026

研究还对比了“先生成后放大”的传统超分辨率方案。常见的做法是先生成1K视频，再通过工具放大至2K，但这种方式并未带来质量提升。例如，FID指标会从141恶化到168，视觉效果也显得不自然。这说明后处理放大无法等同于原生高分辨率生成。CubeComposer体现的是从源头保障的“原生高质量”，而非依赖后期处理的表面清晰。

定性对比更具说服力。传统方法普遍存在远景细节模糊、运动画面抖动、拼接区域断裂等问题，经超分辨率处理后还会产生人工“涂抹感”。相比之下，CubeComposer生成的结果在远景区域保持了出色的锐度与细节，画面运动平滑连续，边界过渡自然无缝，整体观感逼近真实的360°拍摄效果。这种提升不仅是数据层面的，更是肉眼可见的。

港中文薛天帆团队：实现 4K 全景视频生成，普通视频也能「长出空间」丨CVPR 2026

通过消融实验，研究团队验证了核心机制的有效性。在上下文机制实验中，比较了完整方法、去除未来信息、以及使用全量上下文三种设置。结果显示，一旦移除未来信息，FVD会从4.25上升至6.03，性能显著下降；而使用全量上下文的方法虽性能接近完整版，但计算开销更大。这证明未来信息对视频生成至关重要，而仅保留关键片段即可在性能与效率间取得最佳平衡。

港中文薛天帆团队：实现 4K 全景视频生成，普通视频也能「长出空间」丨CVPR 2026

在防止拼接痕迹的连续性设计实验中，研究人员对比了去除位置编码、去除填充与混合、以及完整模型三种版本。结果表明，移除任一组件都会导致FID从157恶化至190以上，LPIPS指标同步变差，生成结果真实性下降。可视化现象中最直接的问题，便是边界处出现明显裂缝。由此可见，连续性设计是确保360°视频各区域自然衔接的决定性因素。

港中文薛天帆团队：实现 4K 全景视频生成，普通视频也能「长出空间」丨CVPR 2026

系统化方案：从数据构建到推理生成的完整框架

在数据集构建方面，团队首先建立了高质量的4K360Vid数据集。该数据集包含11,832段分辨率均达到4K及以上的视频，是在Argus数据集基础上扩展而来。为提升数据质量与可用性，研究人员利用Qwen-VL模型自动生成视频描述，并过滤了低质量样本，使该数据集兼具高分辨率、丰富语义标注及适用于生成模型训练的特点。此外，研究中也使用了标准的360°视频数据集ODV360进行补充训练与测试。

在训练数据构造上，团队模拟了真实拍摄场景。每个训练样本的构建流程如下：首先从原始360°视频中随机生成相机运动轨迹，据此渲染出普通视角视频（模拟手机或常规相机拍摄效果），随后将该普通视频转换为带有大面积缺失区域的360°视频。模型的核心任务便是补全这些缺失区域，并确保时间与空间上的高度一致性。为贴近实际，相机视角范围被设置为60°到120°，轨迹由3到5个关键点定义。

港中文薛天帆团队：实现 4K 全景视频生成，普通视频也能「长出空间」丨CVPR 2026

在模型训练方法上，研究人员以Wan 2.2 5B视频生成模型作为基础。具体训练时，系统会随机选取一个时间窗口以及立方体贴图（cubemap）的某一个面，围绕该目标构建由历史、当前与未来信息组成的上下文，并在此条件下训练模型预测该区域的视频内容。

在推理生成阶段，团队采用了创新的分步生成策略。首先将整段视频划分为多个时间窗口，然后在每个窗口内，按照前(F)、右(R)、后(B)、左(L)、上(U)、下(D)六个面的顺序逐步生成内容。每次生成时，系统都会充分利用上下文信息（特别是历史与未来帧），最后将六个面无缝拼接，形成完整的360°视频。本质上，这是一个对球形视频进行智能“补全”的渐进式过程。

港中文薛天帆团队：实现 4K 全景视频生成，普通视频也能「长出空间」丨CVPR 2026

在对比实验设计上，研究团队选取了Argus、Imagine360和ViewPoint作为主要基线模型。为确保公平，所有方法均使用相同的输入视频，并尽量控制视角范围在90°×45°内进行比较（ViewPoint因仅支持90°×90°输入而单独设置）。评测涵盖三类指标：参考指标（LPIPS、CLIP）、分布指标（图像FID、视频FVD）和主观质量指标（VBench中的美观度、清晰度、一致性）。研究人员特别强调，每个模型均按其原生支持的最佳分辨率进行评测，以避免不公平对比。

港中文薛天帆团队：实现 4K 全景视频生成，普通视频也能「长出空间」丨CVPR 2026

产业意义：降低门槛，赋能大众创作

回归到研究意义层面，这项工作的突破远不止于将分辨率从1K提升至4K，其更深层的价值在于，它切实攻克了360°视频生成领域长期存在的技术瓶颈。

以往的扩散模型通常需要一次性生成整段360°视频，巨大的计算量与显存压力导致输出结果往往只能停留在低分辨率，细节匮乏，实用性有限。本研究创新性地将整体生成任务进行拆解：在空间上划分为6个面，在时间上分割为多个窗口，再按序逐步生成。如此一来，难以承受的计算压力得以分散，高分辨率生成从理论难题转变为可落地的解决方案。可以说，这项研究的价值不仅是“生成得更清晰”，更是证明了“高质量360°视频生成终于成为可能”。

从方法论角度看，这项工作提出了一种极具代表性的技术思路。以往许多生成模型追求端到端的完整输出，而该团队转向了时空自回归范式，将视频生成理解为一个逐步推进、持续补全的过程。这一转变意义重大，它表明复杂的视频生成任务未必需要整体一次性完成，也可以像撰写文章或拼合地图那样，分部分、分阶段地构建。这种思路对未来的视频生成、3D内容生成乃至世界模型研究都具有启发意义，因为许多更复杂的生成任务，本质上都可能受益于这种分步骤、分区域、分时段的处理策略。

针对360°视频生成本身，这项研究直面了最核心的几大挑战，并提供了较为完整的解决路径。普通视频仅能捕捉局部视野，因此生成360°内容时，首要难题便是“如何补全视野外的区域”。不同方向的内容必须保持连贯，否则用户转动视角时会产生失真感。此外，多区域拼接极易在边界产生裂缝、错位与跳变。研究团队通过上下文机制、未来信息利用、生成顺序设计以及连续性设计等手段，系统地应对了这些问题。这表明该工作并非单一指标的优化，而是朝着打造真正可观看、可交互、可沉浸的360°视频体验迈进。

更值得关注的是，这项研究对普通用户的影响将非常直接。过去，制作360°视频通常需要专业相机或复杂的多机位系统，成本高昂、操作门槛高。而现在，沿着这项研究指明的方向，未来普通人用手机、运动相机或普通摄像机拍摄的视频，都有可能被自动扩展为360°沉浸式内容。这意味着许多原本仅限专业团队涉足的领域，未来普通创作者也能参与其中。

例如，旅行时记录的一段风景，未来可能不再仅是平面影像，而能被转化为可自由转动视角的沉浸式回忆；家庭聚会、舞台演出、婚礼庆典，也有机会被保存为更具现场感的全景内容；教师、博物馆、旅游景区、内容创作者及小型工作室，或许无需购置昂贵设备，也能制作出富有沉浸感的展示材料。

从应用前景看，这项研究影响的不仅是实验室的模型性能，更将重塑大众接触与消费内容的方式。对VR内容制作而言，它大幅降低了制作门槛，使得内容来源不再局限于专业拍摄设备。对游戏与虚拟场景生成来说，它意味着环境构建可以更快速、更经济。对数字孪生与虚拟旅游而言，它预示着现实世界中的一段普通视频，未来便有机会被扩展成更完整、更可交互的空间体验。简而言之，这项研究推动的不仅是算法升级，更是推动沉浸式内容从专业机构走向大众，变得人人可用、可看、可创作。

从更深层次看，本研究真正关键之处在于三大核心设计的融合：时空自回归生成范式、包含未来信息的上下文机制，以及用于降低计算复杂度的稀疏注意力。单独审视任一设计，都难以彻底解决问题，但三者有机结合，才使得4K 360°视频生成首次具备了现实可行性。因此，这项研究的意义不仅在于产出了一个效果更优的模型，更在于它为未来高分辨率沉浸式视频生成勾勒出一条清晰且可行的技术发展路线。

团队背景：顶尖学者领衔的跨界探索

本研究的通讯作者为薛天帆，现任香港中文大学信息工程系助理教授。他的研究聚焦于计算摄影、计算机视觉、机器学习及计算机图形学等交叉领域，长期致力于让机器更好地理解、重建与生成视觉世界。

在学术背景方面，薛天帆本科毕业于清华大学，随后于香港中文大学获得硕士学位，并在麻省理工学院计算机科学与人工智能实验室（CSAIL）完成博士研究，师从计算机视觉领域著名学者William T. Freeman。在投身学术界之前，他曾在Google Research工作多年，从事图像与视频处理相关研究，并参与了多项已实际落地的影像算法开发，例如移动设备夜景成像、图像增强与编辑系统等，这些技术已被广泛应用于真实产品中。

在科研成果方面，他在计算机视觉与图形学顶级会议和期刊上发表了大量高水平论文，研究方向覆盖视频生成、3D重建、图像增强等多个前沿领域，累计引用超过一万次。同时，其团队近年来在SIGGRAPH、CVPR、NeurIPS等国际顶级会议上屡获重要认可，展现出持续且强大的研究影响力。

港中文薛天帆团队：实现 4K 全景视频生成，普通视频也能「长出空间」丨CVPR 2026