游乐游手机版
首页/科技数码/文章详情

瑞士苏黎世联邦理工学院实现3D场景重建效率提升33倍

时间:2026-06-11 12:41
瑞士苏黎世联邦理工学院与微软研究院提出ZipSplat三维重建框架,通过场景令牌聚类压缩打破像素数量决定高斯基元数量的机制,将基本图形单元削减高达33倍,在保证甚至超越重建质量的同时显著提升效率,推理时可调压缩比,适用于AR VR、自动驾驶等领域。

来自瑞士苏黎世联邦理工学院(ETH Zürich)和微软研究院的研究团队,于2026年6月3日发布了一项新成果(论文编号arXiv:2606.05102),提出了一套名为ZipSplat的三维场景重建框架。其核心成果十分明确:在保持甚至超越现有方法重建品质的前提下,将所需的基本图形单元数量削减了高达33倍。如果你对AR/VR、自动驾驶、数字孪生感兴趣,或者只是想了解“手机里的照片如何变成3D场景”,那么这个问题就触及了根本——我们真的需要那么多数据来描述一个三维世界吗?

三维场景重建的本质,就是让计算机根据几张从不同角度拍摄的照片,“脑补”出完整的三维空间,并能够从任意新视角渲染出逼真的画面。这好比你看了一座房子的前、左、右三张照片,脑海中自动勾勒出它背面的样子——计算机所做的类似,只是需要精确得多。

目前主流的三维高斯泼溅(3D Gaussian Splatting,简称3DGS)技术,会将三维空间表示为一堆椭圆形的彩色气泡,专业术语称为“高斯基元”。每个气泡拥有自己的位置、大小、颜色和透明度,将它们叠加起来就能渲染出逼真的图像。而现有的“前馈式”方法(不需要对每个场景单独优化,仅需一次神经网络推理即可输出结果)普遍存在一个根深蒂固的习惯:为每一个输入像素生成一个高斯基元。

这个设计看似合理,实则存在明显的浪费。一面白墙和一件精雕细琢的古董,如果占据相同的像素数,就会被分配到同样数量的气泡——哪怕白墙根本用不着那么多。更麻烦的是,如果从多个角度拍摄同一面墙,每张照片都会为它生成一堆气泡,导致大量重复。ZipSplat的核心思路,就是彻底打破这种“像素决定气泡数量”的绑定关系——不再追问“每个像素对应什么气泡”,而是思考“整个场景需要哪些气泡”。

一、三维重建的“像素诅咒”:为什么多不代表好

拿拍摄一间客厅来说。假设你用一台1080P的相机从6个角度拍摄,每张照片约200万像素,那么现有的前馈式方法就会生成约1200万个高斯基元——哪怕客厅里大部分是平坦的墙壁、地板和天花板,这些区域用几个大气泡就能完美描述。真正需要精细刻画的,其实是沙发的纹理、书架上的书脊、窗帘的褶皱这些细节丰富的区域。

但现有系统不管三七二十一,凡是有像素的地方就塞一个气泡。这引发了三个连锁问题:一是平坦区域和复杂区域获得同样的“预算”,资源分配严重不均衡;二是多视角拍摄同一面墙时,系统会为同一区域生成多份重叠的气泡,输入图像越多,气泡数量线性暴增,质量却几乎不再提升;三是所有气泡都被“锁”在各自的观察射线上,对相机看不到的遮挡区域基本无能为力。

这三个问题都指向同一个根源:把三维场景的表示能力绑定在了二维像素网格上。ZipSplat的研究团队给出的方案,不是修补现有框架,而是从根本上换一套逻辑。

二、场景令牌:把照片“压缩”成场景的精华摘要

ZipSplat的工作方式,可以用图书馆管理员整理藏书来类比。传统管理员按书架位置整理——第一排第一列放一本,第一排第二列放一本,不管两本书是不是同一本的复印件,也不管重不重要,每个格子必须有一本。ZipSplat的管理员则不同:先把所有书浏览一遍,内容相似的合并,重复的去掉,最终按书的内容价值分配书架空间——精彩的书多给几格,简单的薄册子共享一格。

具体到技术层面,ZipSplat分三个阶段推进。

第一阶段:提取视觉令牌。系统接收N张输入图像,用一个预训练的多视角基础模型(研究团队选用的是DA3-Giant,一个专门处理多视角图像的神经网络),从每张图像中提取密集的“视觉令牌”。可以把它理解为图像中每个小区域的特征描述卡片,包含该区域的颜色、纹理、深度等综合信息。这些令牌是多尺度的,既能捕捉细节,也能捕捉全局结构。

第二阶段:K-means聚类压缩。所有视觉令牌合在一起,数量庞大且高度冗余——毕竟多张图像描述的是同一个场景。ZipSplat用K-means聚类的方法,在特征空间里把相似的令牌归并成K个“场景令牌”。这里的“相似”不是指空间位置相近,而是语义和几何特征相近——从三个不同角度拍摄的同一面墙,描述它们的令牌会在特征空间中彼此靠近,最终被归并成一个代表“那面墙”的场景令牌。K的数量由一个压缩比参数r控制,r=1.0代表不压缩,r=0.1意味着只保留10%的令牌。关键地方在于,这个参数在推理时随时可以调整,无需重新训练模型。

第三阶段:交叉注意力精炼。聚类毕竟是有损压缩,平均化会模糊细节。为了把损失找回来,每个场景令牌通过“交叉注意力”机制重新查询原始视觉令牌,相当于对着摘要笔记和原始详细资料一一对照,补回被平均掉的细节。之后,场景令牌之间再通过“自注意力”相互交流,让每个令牌了解自己所处场景的整体上下文。

三、从令牌到气泡:不再沿着射线放置,而是自由飞翔

完成令牌精炼后,每个场景令牌被送入一个两层的MLP(可以理解成一个轻量级的变换器),解码成G个高斯基元的全套参数:三维位置、大小、旋转、不透明度和颜色系数。研究团队将G设定为32,即每个场景令牌生成32个气泡。

这里有一个关键设计:气泡的三维位置不是沿着某条观察射线放置,而是通过一个特殊的激活函数直接映射到无约束的三维坐标。这就像传统方法是“沿着楼梯扶手放置装饰品”——每个装饰品必须在扶手上,而ZipSplat则是“把装饰品放在房间里最合适的地方”——桌上、墙上、地上,完全自由。

自由放置带来的效果,在可视化对比中非常直观。现有的像素对齐方法生成的气泡分布,就像在地面铺了一张均匀的网格,无论是沙发还是白墙,气泡密度完全一样。ZipSplat生成的气泡则明显聚集在细节丰富的区域——车轮的辐条、雕像的轮廓、装饰品的边缘,而平坦的墙壁和地板上只有稀疏的几个大气泡,轻松覆盖。

研究团队还观察到一个有趣的自组织现象:同一个场景令牌解码出的32个气泡,在没有任何明确空间监督的情况下,自动聚集成空间上连贯的一组——在平坦表面上形成宽松的大片覆盖,在复杂边缘处紧密排列捕捉细节。这表明模型在训练中学会了让气泡按场景几何自我组织。

四、训练时的三个“稳定器”:防止气泡飘出场景之外

自由放置带来一个新问题:没有射线约束的气泡,如果位置不对,可能飘到相机看不到的地方,渲染损失的梯度无法触达它,它就再也无法被纠正,训练会因此不稳定甚至发散。为此,研究团队设计了三项配套机制。

第一,单向Chamfer几何损失。利用深度图将地面真实数据反投影为三维点云,然后计算每个气泡中心到最近真实三维点的距离之和,作为辅助损失函数,把漂移的气泡拉回到真实场景表面附近。注意这里只用“单向”——只惩罚气泡离真实点太远,而不惩罚真实点没有被气泡覆盖。双向惩罚会迫使气泡均匀铺满所有点,重新回到僵硬的网格逻辑,破坏自适应分配的初衷。另外,对于已经有效参与渲染的气泡,几何损失的梯度会被截断,防止几何先验压过精细的光度监督。

第二,耦合初始化。每个场景令牌解码出的32个气泡,初始时共享完全相同的参数,就像32个双胞胎从同一起点出发。这迫使模型先学会粗略的整体放置,再逐步分化出个体差异,避免训练初期多个气泡互相干扰。同时,气泡的初始不透明度被设得很低(约0.18),保证光度梯度能穿透浅层气泡到达深层;初始位置则偏向第一个参考相机的正前方,确保早期梯度有效。

第三,渐进式训练调度。训练从2个视角开始,逐渐增加到24个视角,让模型先建立双目立体视差的基础,再面对多视角冗余。压缩比r也从1.0按余弦曲线降低到最小值,并在每个训练步骤中从当前最小值到1.0之间随机采样,使模型习惯不同压缩程度下的工作状态,从而让r成为真正的推理时可调参数。最小压缩比的设置依据是rmin = 0.5√(2/N),因为场景的独特内容随视角重叠呈亚线性增长。

五、实验数据:用数字说话

研究团队在两个主要数据集上评估了ZipSplat:DL3DV(包含140个测试场景)和RealEstate10K(包含1600个测试场景),并分别在6、12、24个输入视角下进行测试,保留8个目标视角用于评估。

在DL3DV上,6个视角输入时,ZipSplat(无需相机位姿)的PSNR(峰值信噪比,数值越高图像质量越好)达到25.24 dB,而同样不依赖相机位姿的YoNoSplat只有24.10 dB,差距超过1.1 dB。更重要的是,ZipSplat只用了62K个高斯基元,YoNoSplat用了301K个,少了大约5倍。随着输入视角从6增加到24,ZipSplat的PSNR几乎稳定在24 dB上下,而YoNoSplat从24.10一路跌到22.01,DA3(同一骨干网络的像素对齐版本)也从23.77跌到21.69。这意味着现有的像素对齐方法在输入视角增多时,气泡数量线性增长(从301K增到1.2M、从1.5M增到6.1M),质量却不升反降——大量重复观测没帮上忙,反而形成了干扰。ZipSplat通过聚类合并冗余,在24个视角时只用249K个高斯基元,质量反超所有对比方法。

在RealEstate10K上,ZipSplat(无位姿)以26.20 dB超越YoNoSplat(24.99 dB)1.2 dB,并以62K个高斯基元超越需要真实位姿的DepthSplat(393K个高斯基元,24.16 dB)2 dB。当提供真实位姿时,ZipSplat进一步提升至27.19 dB。

研究团队还测试了跨数据集的泛化能力,将仅在DL3DV和RealEstate10K上训练的ZipSplat零样本应用于Mip-NeRF360和ScanNet++。在32至128个视角的大规模输入下,ZipSplat在Mip-NeRF360上从21.72 dB稳步提升到22.29 dB,而DA3从20.94跌到20.19,AnySplat落后ZipSplat 2.3至2.7 dB。在ScanNet++上,零样本条件下ZipSplat达到18.1 dB,远超YoNoSplat的16.01 dB。

ZipSplat还支持一种“令牌测试时优化”:在拥有真实位姿时,冻结解码器,只优化场景令牌本身(而非所有高斯基元参数),50步优化(用一块4090 GPU约需3秒)就能额外提升约5 dB的PSNR,完整收敛可提升5.8 dB,并将LPIPS(感知相似度损失)减半。

六、压缩比的“旋钮效应”:一个模型走天下

ZipSplat最吸引人的特性之一,是推理时的可调节性。通过调整压缩比r,单个训练好的模型可以生成从62K到1.3M个高斯基元的各种规模重建,在质量与效率之间自由取点,完全不需要重新训练。

在质量-效率曲线上,ZipSplat明显优于所有对比方法:要达到YoNoSplat的质量,只需其1/33的高斯基元数量;使用6倍更少的高斯基元,还能额外获得约2.1 dB的PSNR提升。

压缩的视觉效果也很有说服力:在1×、2×、4×压缩下,渲染结果依然清晰锐利。而令牌分布图则显示出越来越粗糙的空间覆盖——模型并非简单地模糊图像,而是保留了最有价值的信息。

不同的令牌选择策略对压缩效果也有影响。在温和压缩(r≥0.6)时,K-means聚类、均匀步长采样和随机采样三种方法的差距在0.1 dB以内,因为后续的交叉注意力能从原始令牌中找回足够的细节。但在激进压缩(r=0.1)时,K-means以0.45 dB领先均匀步长,以0.79 dB领先随机采样。原因在于,K-means聚类时会跨越多个视角合并冗余令牌——在24视角、r=0.1时,每个K-means聚类平均横跨4.2个视角,而不是像随机采样那样直接丢弃整个视角。

在极端压缩(r=0.01)下,ZipSplat会出现明显的失效:令牌数量过少,无法覆盖整个场景,渲染图像出现大片空缺。这是系统的边界条件,在实际使用中很容易避免。

七、效率数据:速度与内存的真实表现

在单块NVIDIA 4090(24GB显存)上的测试显示,24个视角输入时,ZipSplat的完整前向推理在0.8秒内完成,峰值显存低于8.1GB,处于完全实用的范围。令牌压缩和高斯基元解码本身的计算量微乎其微,系统瓶颈始终在多视角骨干网络。

随着视角数增加到192,使用视角依赖压缩调度时,峰值显存控制在17GB(而YoNoSplat已达24GB上限),生成约102K个高斯基元(9.3MB存储,401 FPS渲染速度),相比固定r=1.0的200万高斯基元(183MB,40 FPS),实现了10倍渲染加速和20倍存储节省。在24个视角时,调度压缩生成36K个高斯基元,占用3.3MB,渲染速度达到685帧/秒,完全满足实时移动端或网页端展示的需求。

八、消融实验:每个设计选择都有意义

研究团队通过系统性消融验证了各个设计选择的贡献。在骨干网络完全相同的前提下,ZipSplat的令牌解码器相比像素对齐解码器,在6/12/24视角下稳定提升1.5至2.7 dB,且高斯基元数量减少13至25倍。这一改进在VGGT和DA3两种骨干网络上都成立,说明性能提升确实来自令牌化设计本身,而非骨干网络的差异。

关于每个令牌生成的高斯基元数量G,质量在G=32时已趋于饱和:G=64比G=32仅多0.03 dB,但高斯基元数量翻倍;G=8比G=32少0.19 dB,但高斯基元数量只有四分之一。综合考虑,G=32是最合适的平衡点。

在初始化和损失函数方面,耦合初始化贡献最大(去掉后下降0.25 dB),不透明度偏置和位置偏置各贡献约0.14至0.15 dB,深度损失贡献约0.19 dB。而单向Chamfer几何损失属于训练稳定性的必要条件——去掉它会导致训练不稳定甚至发散,无法单独量化其贡献。

话说回来,ZipSplat做了一件在三维重建领域颇为罕见的事:它把“用多少个基本单元描述一个场景”这件事,从一个由相机分辨率决定的固定值,变成了一个由场景内容驱动的自适应量。这意味着系统终于开始关心“这个场景到底需要多少表达力”,而不是“相机拍了多少像素”。

对普通用户来说,这项技术的潜在影响相当直接:未来的手机3D扫描应用,可以用更少的存储空间和更快的处理速度生成更高质量的场景模型;增强现实应用可以在资源受限的设备上运行更复杂的场景;大规模三维地图数据库的存储和传输成本也能大幅下降。研究团队还指出两个值得进一步探索的方向:一是在每个高斯基元上附加语义特征用于场景理解(令牌化后的紧凑表示使特征存储成本大幅降低);二是将令牌聚类机制推广到四维动态场景,跨时间维度合并冗余观测。

归根结底,这项工作提醒我们:在信息处理中,“更多”并不总是“更好”,找到恰当的表达粒度往往比一味堆砌更有价值。有兴趣深入了解技术细节的读者,可以在arXiv平台通过论文编号2606.05102查阅完整原文。

Q&A

Q1:ZipSplat和现有三维重建方法相比,速度有多快?
A:ZipSplat在24个输入视角下,完整前向推理在0.8秒内完成,生成的场景可以达到685帧/秒的实时渲染速度,存储只需3.3MB。相比之下,YoNoSplat在192个视角时会产生9.6M个高斯基元(539MB、8.9 FPS),而ZipSplat用视角依赖压缩调度只生成102K个高斯基元,速度快了约45倍,存储少了约20倍。

Q2:ZipSplat用的K-means聚类和随机采样有多大差距?
A:在温和压缩(保留60%以上令牌)时差距极小,不超过0.1 dB,因为后续的交叉注意力能补回丢失的细节。但在激进压缩(只保留10%令牌)时,K-means比随机采样高出0.79 dB。原因在于K-means可以跨多个视角合并冗余令牌,而不是随机丢掉整个视角的信息。

Q3:ZipSplat需要相机位姿信息才能工作吗?
A:不需要。ZipSplat可以在完全不知道相机位置和朝向的情况下运行,这种模式下在RealEstate10K上能达到26.20 dB,已经超越了大多数需要相机位姿的对比方法。如果提供真实相机位姿,性能会进一步提升到27.19 dB,但位姿带来的增益相对有限,说明模型本身的场景理解能力已经足够强。

来源:https://www.163.com/dy/article/KV3FBVSF0511DTVV.html
上一篇超微电脑拟70亿美元融资支持AI 股价大跌超15% 下一篇Stability AI教AI自动拆解图片分层
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。