游乐游手机版
首页/AI热点日报/热点详情

单目3DGS迎来重大突破影石开源UniSHARP实现全相机适配

类型:热点整理2026-06-29
影石研究院近日发布了一项令人瞩目的技术成果——UniSHARP,这是一个面向异构成像系统的单目新视角合成模型。该模型的最大亮点在于,它是首个能够同时兼容透视、广角、鱼眼以及360°全景相机的单目3DGS模型。仅需输入一张图片,模型便能在约一秒内快速计算出场景的高斯点云,彻底告别了传统方法需要多张图片

影石研究院近日发布了一项令人瞩目的技术成果——UniSHARP,这是一个面向异构成像系统的单目新视角合成模型。该模型的最大亮点在于,它是首个能够同时兼容透视、广角、鱼眼以及360°全景相机的单目3DGS模型。仅需输入一张图片,模型便能在约一秒内快速计算出场景的高斯点云,彻底告别了传统方法需要多张图片或针对特定场景反复迭代优化的繁琐流程。

简而言之:只需一张图、一个模型,即可适配所有相机类型。

研究团队不仅开发了模型本身,还构建了一个包含30万张全景图及深度信息的仿真数据集OmniRooms,并设计了一套覆盖多种相机类型的FoV分层基准测试平台。更令人称道的是,训练代码、测试代码、模型权重、数据集以及在线Demo全部开源,供开发者自由使用。



首先,我们来回顾一下背景。3D高斯泼溅(3D Gaussian Splatting)与新视角合成技术近年来发展迅猛,这已是不争的事实。然而,一个长期存在的瓶颈始终未能解决:绝大多数现有方法默认输入来自普通的透视相机。但现实世界中的拍摄设备远非如此单一——全景相机、鱼眼镜头、超广角运动相机才是常态。即便某些方法能够处理全景图,往往也需要多张图片输入,或者要求针对每个场景单独进行优化。然而,在实际应用中,用户手中往往只有一张随手拍摄的照片——可能是手机拍摄的普通视角,也可能是全景相机的瞬间抓拍——能够将其快速转化为高质量、可交互的新视角,才真正具有实用价值。

面对这一挑战,很多人首先想到的可能是两条路径:其一是对透视模型进行“微调”,使其适应更大视场。但模型与针孔相机的归一化设备坐标系深度绑定,本质上无法在非针孔成像域中准确预测几何形状和处理畸变。其二是将大图分割成小块,重投影成多个透视视角,分别处理后再拼接。然而,这种方法不仅计算量急剧上升,还会在拼接处产生明显的伪影和几何不连续问题,令人头疼不已。

UniSHARP正是为解决这一难题而生——它让单目3DGS彻底摆脱了针孔假设的束缚,实现了一张图、一个模型从普通照片到360°全景的统一重建。



基于射线的统一表示:彻底摆脱针孔相机假设

现有的单目3DGS方法,如SHARP、Flash3D,大多在窄视场的透视数据上训练,其几何预测与图像平面的坐标绑定过紧。一旦切换到鱼眼或全景图像,泛化能力便显得捉襟见肘。

UniSHARP的核心思路十分简洁:将场景表示迁移到射线-距离空间。具体而言,模型为每个像素预测一条单位视线方向,并附加一个沿射线的径向距离,三维点由这两者共同确定。无论输入是透视、鱼眼还是ERP全景图,高斯球都在同一个度量三维空间中进行定义,不再受限于某一种相机模型。这一设计借鉴了UniK3D的思路,使UniSHARP能够原生适配各种视场和畸变,无需再将全景图硬性分割成多张透视图后进行拼接——对比效果非常明显:当使用SHARP推理全景图的6个立方体时,拼接伪影和几何不一致问题肉眼可见,而UniSHARP渲染出的全景目标视图则保持了连贯一致。



几何锚定高斯 + 特征条件残差:兼顾稳定几何与细腻外观

在统一的射线网格空间中,UniSHARP首先构建了双层几何锚定高斯(Geometry Anchored Gaussians)。第一层用于对齐可见表面,第二层则捕捉遮挡区域以及高频结构,为单目重建提供了一个稳固的基础高斯场。随后,模型融合2D语义特征和3D几何特征,预测特征条件高斯残差(Feature Conditioned Gaussian Residuals),对高斯球进行精细化修正,最终生成可渲染的高斯点云。

相较于那些直接将RGB图像和深度图输入解码器的传统方法,这种设计能够更充分地利用几何先验和语义上下文信息。此外,值得一提的是,针对ERP全景图存在的严重畸变问题,团队引入了球面高斯初始化和畸变感知概率Dropout,在HM3D等全景数据集上取得了显著效果。



混合相机训练与无位姿推理:贴近真实部署场景

训练阶段的设计同样颇具巧思。UniSHARP在透视(RealEstate10K、DL3DV、WildRGB-D)、鱼眼(ScanNet++ Fisheye)以及全景(HM3D、OmniRooms)等数据上进行混合采样,采用统一架构,无需设置相机专用分支——所有样本均转换为相同的射线接口,共享同一个网络。

更贴近实际应用的是其无位姿模式。如果用户没有标定内参,模型能够从预测的射线场中自动推断相机类型并渲染几何,无需手动提供透视或鱼眼参数。这在真实部署场景中,价值尤为突出。



OmniRooms与FoV分层基准测试:30万全景图填补数据空白

为了系统评估从60°到360°的新视角合成能力,团队构建了一个分视场角(FoV)的基准测试平台,并发布了仿真数据集OmniRooms。该数据集包含16个大型室内场景,共计约30万张1024x2048分辨率的ERP全景图,且每张图均附有对应的深度信息。它专门针对3D重建,尤其是3DGS任务进行了优化。每个锚点在一个0.5米的体素网格上,渲染出1个中心相机和29个局部小位移相机的视图。



基准测试结果:透视性能不降,全景领域大幅领先

在透视数据集上,UniSHARP并未因追求“通用性”而牺牲窄视场性能。测试结果显示,它全面超越了SHARP、Flash3D等基线模型。在零样本测试的Tanks & Temples数据集上,UniSHARP同样取得了最佳的PSNR指标。

而在全景场景中,其优势则更加明显。



全栈开源:代码、数据、模型、Demo一键可用

UniSHARP的贡献不仅在于提出了一个全新的单目3DGS模型,更在于它展示了一条面向真实异构成像系统的完整技术路线:利用射线空间统一不同相机几何,通过几何锚定与特征残差稳定预测高斯场,借助混合相机训练实现跨视场迁移,依靠OmniRooms和分层基准测试支撑可复现的评估,并通过无位姿机制降低部署门槛。

对影石而言,这一方向与全景相机、运动相机的产品场景天然契合——用户拍摄的每一张360°照片、每一段鱼眼素材,都有望被快速转化为可自由漫游的三维空间。而对于更广泛的社区,统一的单目3D视觉也为机器人导航、AR/VR内容创作等领域提供了新的工具。这一技术值得持续关注。

来源:https://www.163.com/dy/article/L0C502H70511AQHO.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。