瑞士苏黎世联邦理工学院实现3D场景重建效率提升33倍

时间：2026-06-11 12:41

瑞士苏黎世联邦理工学院与微软研究院提出ZipSplat三维重建框架，通过场景令牌聚类压缩打破像素数量决定高斯基元数量的机制，将基本图形单元削减高达33倍，在保证甚至超越重建质量的同时显著提升效率，推理时可调压缩比，适用于AR VR、自动驾驶等领域。

来自瑞士苏黎世联邦理工学院（ETH Zürich）和微软研究院的研究团队，于2026年6月3日发布了一项新成果（论文编号arXiv:2606.05102），提出了一套名为ZipSplat的三维场景重建框架。其核心成果十分明确：在保持甚至超越现有方法重建品质的前提下，将所需的基本图形单元数量削减了高达33倍。如果你对AR/VR、自动驾驶、数字孪生感兴趣，或者只是想了解“手机里的照片如何变成3D场景”，那么这个问题就触及了根本——我们真的需要那么多数据来描述一个三维世界吗？

三维场景重建的本质，就是让计算机根据几张从不同角度拍摄的照片，“脑补”出完整的三维空间，并能够从任意新视角渲染出逼真的画面。这好比你看了一座房子的前、左、右三张照片，脑海中自动勾勒出它背面的样子——计算机所做的类似，只是需要精确得多。

目前主流的三维高斯泼溅（3D Gaussian Splatting，简称3DGS）技术，会将三维空间表示为一堆椭圆形的彩色气泡，专业术语称为“高斯基元”。每个气泡拥有自己的位置、大小、颜色和透明度，将它们叠加起来就能渲染出逼真的图像。而现有的“前馈式”方法（不需要对每个场景单独优化，仅需一次神经网络推理即可输出结果）普遍存在一个根深蒂固的习惯：为每一个输入像素生成一个高斯基元。

这个设计看似合理，实则存在明显的浪费。一面白墙和一件精雕细琢的古董，如果占据相同的像素数，就会被分配到同样数量的气泡——哪怕白墙根本用不着那么多。更麻烦的是，如果从多个角度拍摄同一面墙，每张照片都会为它生成一堆气泡，导致大量重复。ZipSplat的核心思路，就是彻底打破这种“像素决定气泡数量”的绑定关系——不再追问“每个像素对应什么气泡”，而是思考“整个场景需要哪些气泡”。

一、三维重建的“像素诅咒”：为什么多不代表好

拿拍摄一间客厅来说。假设你用一台1080P的相机从6个角度拍摄，每张照片约200万像素，那么现有的前馈式方法就会生成约1200万个高斯基元——哪怕客厅里大部分是平坦的墙壁、地板和天花板，这些区域用几个大气泡就能完美描述。真正需要精细刻画的，其实是沙发的纹理、书架上的书脊、窗帘的褶皱这些细节丰富的区域。

但现有系统不管三七二十一，凡是有像素的地方就塞一个气泡。这引发了三个连锁问题：一是平坦区域和复杂区域获得同样的“预算”，资源分配严重不均衡；二是多视角拍摄同一面墙时，系统会为同一区域生成多份重叠的气泡，输入图像越多，气泡数量线性暴增，质量却几乎不再提升；三是所有气泡都被“锁”在各自的观察射线上，对相机看不到的遮挡区域基本无能为力。

这三个问题都指向同一个根源：把三维场景的表示能力绑定在了二维像素网格上。ZipSplat的研究团队给出的方案，不是修补现有框架，而是从根本上换一套逻辑。

二、场景令牌：把照片“压缩”成场景的精华摘要

ZipSplat的工作方式，可以用图书馆管理员整理藏书来类比。传统管理员按书架位置整理——第一排第一列放一本，第一排第二列放一本，不管两本书是不是同一本的复印件，也不管重不重要，每个格子必须有一本。ZipSplat的管理员则不同：先把所有书浏览一遍，内容相似的合并，重复的去掉，最终按书的内容价值分配书架空间——精彩的书多给几格，简单的薄册子共享一格。

具体到技术层面，ZipSplat分三个阶段推进。

第一阶段：提取视觉令牌。系统接收N张输入图像，用一个预训练的多视角基础模型（研究团队选用的是DA3-Giant，一个专门处理多视角图像的神经网络），从每张图像中提取密集的“视觉令牌”。可以把它理解为图像中每个小区域的特征描述卡片，包含该区域的颜色、纹理、深度等综合信息。这些令牌是多尺度的，既能捕捉细节，也能捕捉全局结构。

第二阶段：K-means聚类压缩。所有视觉令牌合在一起，数量庞大且高度冗余——毕竟多张图像描述的是同一个场景。ZipSplat用K-means聚类的方法，在特征空间里把相似的令牌归并成K个“场景令牌”。这里的“相似”不是指空间位置相近，而是语义和几何特征相近——从三个不同角度拍摄的同一面墙，描述它们的令牌会在特征空间中彼此靠近，最终被归并成一个代表“那面墙”的场景令牌。K的数量由一个压缩比参数r控制，r=1.0代表不压缩，r=0.1意味着只保留10%的令牌。关键地方在于，这个参数在推理时随时可以调整，无需重新训练模型。

第三阶段：交叉注意力精炼。聚类毕竟是有损压缩，平均化会模糊细节。为了把损失找回来，每个场景令牌通过“交叉注意力”机制重新查询原始视觉令牌，相当于对着摘要笔记和原始详细资料一一对照，补回被平均掉的细节。之后，场景令牌之间再通过“自注意力”相互交流，让每个令牌了解自己所处场景的整体上下文。

三、从令牌到气泡：不再沿着射线放置，而是自由飞翔

完成令牌精炼后，每个场景令牌被送入一个两层的MLP（可以理解成一个轻量级的变换器），解码成G个高斯基元的全套参数：三维位置、大小、旋转、不透明度和颜色系数。研究团队将G设定为32，即每个场景令牌生成32个气泡。

这里有一个关键设计：气泡的三维位置不是沿着某条观察射线放置，而是通过一个特殊的激活函数直接映射到无约束的三维坐标。这就像传统方法是“沿着楼梯扶手放置装饰品”——每个装饰品必须在扶手上，而ZipSplat则是“把装饰品放在房间里最合适的地方”——桌上、墙上、地上，完全自由。

自由放置带来的效果，在可视化对比中非常直观。现有的像素对齐方法生成的气泡分布，就像在地面铺了一张均匀的网格，无论是沙发还是白墙，气泡密度完全一样。ZipSplat生成的气泡则明显聚集在细节丰富的区域——车轮的辐条、雕像的轮廓、装饰品的边缘，而平坦的墙壁和地板上只有稀疏的几个大气泡，轻松覆盖。

研究团队还观察到一个有趣的自组织现象：同一个场景令牌解码出的32个气泡，在没有任何明确空间监督的情况下，自动聚集成空间上连贯的一组——在平坦表面上形成宽松的大片覆盖，在复杂边缘处紧密排列捕捉细节。这表明模型在训练中学会了让气泡按场景几何自我组织。

四、训练时的三个“稳定器”：防止气泡飘出场景之外

自由放置带来一个新问题：没有射线约束的气泡，如果位置不对，可能飘到相机看不到的地方，渲染损失的梯度无法触达它，它就再也无法被纠正，训练会因此不稳定甚至发散。为此，研究团队设计了三项配套机制。

第一，单向Chamfer几何损失。利用深度图将地面真实数据反投影为三维点云，然后计算每个气泡中心到最近真实三维点的距离之和，作为辅助损失函数，把漂移的气泡拉回到真实场景表面附近。注意这里只用“单向”——只惩罚气泡离真实点太远，而不惩罚真实点没有被气泡覆盖。双向惩罚会迫使气泡均匀铺满所有点，重新回到僵硬的网格逻辑，破坏自适应分配的初衷。另外，对于已经有效参与渲染的气泡，几何损失的梯度会被截断，防止几何先验压过精细的光度监督。

第二，耦合初始化。每个场景令牌解码出的32个气泡，初始时共享完全相同的参数，就像32个双胞胎从同一起点出发。这迫使模型先学会粗略的整体放置，再逐步分化出个体差异，避免训练初期多个气泡互相干扰。同时，气泡的初始不透明度被设得很低（约0.18），保证光度梯度能穿透浅层气泡到达深层；初始位置则偏向第一个参考相机的正前方，确保早期梯度有效。

第三，渐进式训练调度。训练从2个视角开始，逐渐增加到24个视角，让模型先建立双目立体视差的基础，再面对多视角冗余。压缩比r也从1.0按余弦曲线降低到最小值，并在每个训练步骤中从当前最小值到1.0之间随机采样，使模型习惯不同压缩程度下的工作状态，从而让r成为真正的推理时可调参数。最小压缩比的设置依据是rmin = 0.5√(2/N)，因为场景的独特内容随视角重叠呈亚线性增长。

五、实验数据：用数字说话

研究团队在两个主要数据集上评估了ZipSplat：DL3DV（包含140个测试场景）和RealEstate10K（包含1600个测试场景），并分别在6、12、24个输入视角下进行测试，保留8个目标视角用于评估。

在DL3DV上，6个视角输入时，ZipSplat（无需相机位姿）的PSNR（峰值信噪比，数值越高图像质量越好）达到25.24 dB，而同样不依赖相机位姿的YoNoSplat只有24.10 dB，差距超过1.1 dB。更重要的是，ZipSplat只用了62K个高斯基元，YoNoSplat用了301K个，少了大约5倍。随着输入视角从6增加到24，ZipSplat的PSNR几乎稳定在24 dB上下，而YoNoSplat从24.10一路跌到22.01，DA3（同一骨干网络的像素对齐版本）也从23.77跌到21.69。这意味着现有的像素对齐方法在输入视角增多时，气泡数量线性增长（从301K增到1.2M、从1.5M增到6.1M），质量却不升反降——大量重复观测没帮上忙，反而形成了干扰。ZipSplat通过聚类合并冗余，在24个视角时只用249K个高斯基元，质量反超所有对比方法。

在RealEstate10K上，ZipSplat（无位姿）以26.20 dB超越YoNoSplat（24.99 dB）1.2 dB，并以62K个高斯基元超越需要真实位姿的DepthSplat（393K个高斯基元，24.16 dB）2 dB。当提供真实位姿时，ZipSplat进一步提升至27.19 dB。

研究团队还测试了跨数据集的泛化能力，将仅在DL3DV和RealEstate10K上训练的ZipSplat零样本应用于Mip-NeRF360和ScanNet++。在32至128个视角的大规模输入下，ZipSplat在Mip-NeRF360上从21.72 dB稳步提升到22.29 dB，而DA3从20.94跌到20.19，AnySplat落后ZipSplat 2.3至2.7 dB。在ScanNet++上，零样本条件下ZipSplat达到18.1 dB，远超YoNoSplat的16.01 dB。

ZipSplat还支持一种“令牌测试时优化”：在拥有真实位姿时，冻结解码器，只优化场景令牌本身（而非所有高斯基元参数），50步优化（用一块4090 GPU约需3秒）就能额外提升约5 dB的PSNR，完整收敛可提升5.8 dB，并将LPIPS（感知相似度损失）减半。

六、压缩比的“旋钮效应”：一个模型走天下

ZipSplat最吸引人的特性之一，是推理时的可调节性。通过调整压缩比r，单个训练好的模型可以生成从62K到1.3M个高斯基元的各种规模重建，在质量与效率之间自由取点，完全不需要重新训练。

在质量-效率曲线上，ZipSplat明显优于所有对比方法：要达到YoNoSplat的质量，只需其1/33的高斯基元数量；使用6倍更少的高斯基元，还能额外获得约2.1 dB的PSNR提升。

压缩的视觉效果也很有说服力：在1×、2×、4×压缩下，渲染结果依然清晰锐利。而令牌分布图则显示出越来越粗糙的空间覆盖——模型并非简单地模糊图像，而是保留了最有价值的信息。

不同的令牌选择策略对压缩效果也有影响。在温和压缩（r≥0.6）时，K-means聚类、均匀步长采样和随机采样三种方法的差距在0.1 dB以内，因为后续的交叉注意力能从原始令牌中找回足够的细节。但在激进压缩（r=0.1）时，K-means以0.45 dB领先均匀步长，以0.79 dB领先随机采样。原因在于，K-means聚类时会跨越多个视角合并冗余令牌——在24视角、r=0.1时，每个K-means聚类平均横跨4.2个视角，而不是像随机采样那样直接丢弃整个视角。

在极端压缩（r=0.01）下，ZipSplat会出现明显的失效：令牌数量过少，无法覆盖整个场景，渲染图像出现大片空缺。这是系统的边界条件，在实际使用中很容易避免。

七、效率数据：速度与内存的真实表现

在单块NVIDIA 4090（24GB显存）上的测试显示，24个视角输入时，ZipSplat的完整前向推理在0.8秒内完成，峰值显存低于8.1GB，处于完全实用的范围。令牌压缩和高斯基元解码本身的计算量微乎其微，系统瓶颈始终在多视角骨干网络。

随着视角数增加到192，使用视角依赖压缩调度时，峰值显存控制在17GB（而YoNoSplat已达24GB上限），生成约102K个高斯基元（9.3MB存储，401 FPS渲染速度），相比固定r=1.0的200万高斯基元（183MB，40 FPS），实现了10倍渲染加速和20倍存储节省。在24个视角时，调度压缩生成36K个高斯基元，占用3.3MB，渲染速度达到685帧/秒，完全满足实时移动端或网页端展示的需求。

八、消融实验：每个设计选择都有意义

研究团队通过系统性消融验证了各个设计选择的贡献。在骨干网络完全相同的前提下，ZipSplat的令牌解码器相比像素对齐解码器，在6/12/24视角下稳定提升1.5至2.7 dB，且高斯基元数量减少13至25倍。这一改进在VGGT和DA3两种骨干网络上都成立，说明性能提升确实来自令牌化设计本身，而非骨干网络的差异。

关于每个令牌生成的高斯基元数量G，质量在G=32时已趋于饱和：G=64比G=32仅多0.03 dB，但高斯基元数量翻倍；G=8比G=32少0.19 dB，但高斯基元数量只有四分之一。综合考虑，G=32是最合适的平衡点。

在初始化和损失函数方面，耦合初始化贡献最大（去掉后下降0.25 dB），不透明度偏置和位置偏置各贡献约0.14至0.15 dB，深度损失贡献约0.19 dB。而单向Chamfer几何损失属于训练稳定性的必要条件——去掉它会导致训练不稳定甚至发散，无法单独量化其贡献。

话说回来，ZipSplat做了一件在三维重建领域颇为罕见的事：它把“用多少个基本单元描述一个场景”这件事，从一个由相机分辨率决定的固定值，变成了一个由场景内容驱动的自适应量。这意味着系统终于开始关心“这个场景到底需要多少表达力”，而不是“相机拍了多少像素”。

对普通用户来说，这项技术的潜在影响相当直接：未来的手机3D扫描应用，可以用更少的存储空间和更快的处理速度生成更高质量的场景模型；增强现实应用可以在资源受限的设备上运行更复杂的场景；大规模三维地图数据库的存储和传输成本也能大幅下降。研究团队还指出两个值得进一步探索的方向：一是在每个高斯基元上附加语义特征用于场景理解（令牌化后的紧凑表示使特征存储成本大幅降低）；二是将令牌聚类机制推广到四维动态场景，跨时间维度合并冗余观测。

归根结底，这项工作提醒我们：在信息处理中，“更多”并不总是“更好”，找到恰当的表达粒度往往比一味堆砌更有价值。有兴趣深入了解技术细节的读者，可以在arXiv平台通过论文编号2606.05102查阅完整原文。

Q&A

Q1：ZipSplat和现有三维重建方法相比，速度有多快？
A：ZipSplat在24个输入视角下，完整前向推理在0.8秒内完成，生成的场景可以达到685帧/秒的实时渲染速度，存储只需3.3MB。相比之下，YoNoSplat在192个视角时会产生9.6M个高斯基元（539MB、8.9 FPS），而ZipSplat用视角依赖压缩调度只生成102K个高斯基元，速度快了约45倍，存储少了约20倍。

Q2：ZipSplat用的K-means聚类和随机采样有多大差距？
A：在温和压缩（保留60%以上令牌）时差距极小，不超过0.1 dB，因为后续的交叉注意力能补回丢失的细节。但在激进压缩（只保留10%令牌）时，K-means比随机采样高出0.79 dB。原因在于K-means可以跨多个视角合并冗余令牌，而不是随机丢掉整个视角的信息。

Q3：ZipSplat需要相机位姿信息才能工作吗？
A：不需要。ZipSplat可以在完全不知道相机位置和朝向的情况下运行，这种模式下在RealEstate10K上能达到26.20 dB，已经超越了大多数需要相机位姿的对比方法。如果提供真实相机位姿，性能会进一步提升到27.19 dB，但位姿带来的增益相对有限，说明模型本身的场景理解能力已经足够强。

来源：https://www.163.com/dy/article/KV3FBVSF0511DTVV.html

自动驾驶

上一篇超微电脑拟70亿美元融资支持AI 股价大跌超15% 下一篇Stability AI教AI自动拆解图片分层

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。