从稀疏视角到完整3D几何:即插即用的语义增强重建插件
SERES将跨视角的语义一致性与结构层面的区域约束,转化为一种低成本、可解释、可复用的训练先验。本文作者团队来自上海交通大学、英国曼彻斯特大学与香港中文大学。团队成员包括:徐博、王超、乐心怡(上海交通大学,自动化系),郭宇峰、王昌凌(英国曼彻斯特大学,机械与航空航天工程学院),王文婷、任扬(香港中文大学,机械与自动化工程学系)。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
表面重建的核心挑战,在于如何在少量视角下同时兼顾几何准确性、细节还原与结构完整。现有神经隐式表达在样本稀疏时容易出现跨视角对应不稳、边界模糊、局部缺失等现象;当可见区域有限、纹理不明显、遮挡复杂时,这些问题会被进一步放大。
为了补救,不少工作尝试引入单目深度、法线或稠密视角序列等外部几何线索,但这通常意味着额外的采集成本和不稳定的噪声来源,一旦误差被带入,反而会破坏原本已经较为准确的几何。
另一条思路是通过更复杂的网络结构或强先验来提升稳定性,但可迁移性与训练成本却随之上升,且在真实场景下的鲁棒性并不总是稳定。
归根结底,稀疏视角的难点在于覆盖不足导致的匹配不稳与形变放射义:同一结构在不同视角里的局部片段难以可靠对应,优化过程容易迷失在局部最优。
直观经验却告诉我们,只要把同一物体的“对应部分”对齐,形状就会变得清晰。基于这一朴素而有效的直觉,作者提出SERES,在不改动主干框架的前提下,将跨视角的语义一致性变成一种训练先验注入到模型里,用低成本的方法去解决高代价的歧义问题,让少量视角也能得到清晰而完整的几何。

该工作来自上海交通大学、曼彻斯特大学和香港中文大学的团队,目前已被IEEE Transactions on Visualization and Computer Graphics接收。

论文标题:SERES: Semantic-Aware Neural Reconstruction from Sparse Views论文主页:https://seres0.github.io/论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=11197045
方法概述
SERES的设计围绕两条主线展开:语义匹配先验与区域级正则。整体以训练期插件的方式接入常见主干,如NeuS或Neuralangelo,不改变渲染与隐式表达的基本表达,仅在训练中提供额外的线索与约束。

图1 SERES方法流程
语义匹配先验
首先是语义匹配先验。直观地说,作者让“来自他视角的提醒”在训练中始终存在。具体做法是,从每张输入图像中自动提取一组稳定的语义块与几何原语。语义块侧重于外观与语义的一致性,几何原语则对应更具结构意义的区域。随后,对这些语义块提取图像级特征,并在多视角之间进行交互式的对齐与聚合,让不同视角中“看似相似”的部分彼此对上号。这样得到的先验信息作为额外输入喂给主干,使得主干在每一次更新时,都能显式感知来自其他视角的对应关系。

图2 语义匹配质量对重建质量的影响
这种做法的好处在于,模型不再孤立地依赖单一视角的证据,而是在训练的每一步都被提醒哪些细节需要被保留、哪些边界应当对齐、哪些区域存在歧义需要更谨慎地处理。对于稀疏视角尤其是极少数视角的情况,这份提醒能显著减少错配带来的形状扭曲与边界模糊。
区域级正则
仅有像素级误差往往不足以约束形状的全局一致性,尤其在纹理稀薄或反射复杂的区域,像素级监督容易放大噪声。SERES在图像空间引入了解释性强的区域一致性约束。基于前述的几何原语,作者为每张图像得到一组覆盖关键部件的区域分割与掩码。在训练过程中,这些可解释的区域与模型渲染得到的语义分布进行对齐,形成面向区域的一致性约束。它鼓励模型在真实边界处给出更清晰、稳定的表面表达,在容易产生歧义的部分尽量减少破碎或漂移。与仅依赖像素损失不同,区域级正则提供了“形状应该如何对齐”的强信号,能有效抑制噪声碎片,让最终的网格更干净、曲面更连贯。

图3 语义属性体渲染结果
从工程实现角度看,SERES的两条主线都只在训练期生效,不改变推理流程。语义先验分解为稳定分割块、特征提取与跨视角聚合三步,接口简单;而区域级正则以可解释的掩码为锚,和主干的渲染分布对齐即可。整体额外计算开销小,训练时间仅有小幅增加,对不同主干的适配也无需侵入式改造。
消融实验表明,缺失语义匹配先验时,跨视角错配与形变明显增多;去掉区域级正则时,网格易出现噪声与断裂;而使用未优化或质量不高的先验,同样会拖累最终几何。
实验
在DTU的稀疏多视角设置中,SERES作为训练期插件显著提升了重建质量与新视角合成质量。与主流基线相比,画面质量指标在多组场景中全面优于对应的原始主干,同时几何误差在从极少数到较少视角的范围内稳定下降。随着视角数从极少逐步增加,误差的下降趋势依旧保持,说明这套先验与正则对不同稀疏程度都有稳定收益。


图4 DTU重建效果

图5 视角数变化的影响
在BlendedMVS以及多种真实场景中,SERES输出更完整、更干净的几何,在难匹配区域有效减少断裂与噪声,体现出良好的鲁棒性与通用性。
与仅依赖像素级误差不同,区域级正则的价值在真实边界处更为直观。很多难例,如重复纹理、细杆与树枝类的复杂拓扑,往往在像素层面难以稳定监督。区域级正则将这些区域包裹起来,以更高层次的一致性去牵引优化,使得模型对边界位置的判断更具确定性,从而减少边缘模糊、壳体破洞以及不必要的表面漂移。

图6 BMVS重建效果

图7 实拍场景重建效果
消融实验显示,缺失语义匹配先验或区域级正则都会明显拉低重建质量,这两者是互补且必要的。

图8 消融实验结果
结论
SERES将跨视角的语义一致性与结构层面的区域约束,转化为一种低成本、可解释、可复用的训练先验。它以即插即用的方式接入现有的隐式重建框架,不需要额外传感器或复杂改造,即便在很少的视角下,也能恢复边界清晰、结构完整、细节可靠的表面。面对更大规模场景、更复杂材质与光照等现实挑战,这一思路仍有充分拓展空间。对工程师和研究人员而言,SERES的接口简单、迁移门槛低、真实场景友好,适合直接集成到当前的三维重建工作流中,用更少的视角获得更高保真的几何重建。
相关攻略
2024有赞春季发布会在北京举办,本次发布会的主题是 "利润增长‘AI "。会上有赞创始人兼CEO白鸦表示,消费市场从增量市场进入到存量市场,生意经营的核心从“快速规模”转向为“深度运营”。 存量竞争时代,利润增长从何而来?有赞给出的答案是:借助AI,在“营销转化”和“复购分销”这两个核心战场上做深、做
AI Agent沙盒技术深度解析:E2B与OpenSandbox,谁是你的安全“护航员”? 当AI Agent开始帮你写代码、跑数据、甚至操作浏览器时,一个现实的问题也随之而来:万一它“手滑”了怎么办?今天,我们就来深入聊聊为AI Agent保驾护航的核心技术——沙盒,并对比分析当前两大热门开源项目
苹果的工程师们正在“地毯式地梳理操作系统,誓要切除多余的赘肉,消灭那些烦人的 Bug,并寻找‘任何能显著提升性能和整体质量的机会’。” 六月将至,WWDC(苹果全球开发者大会)的钟声又将敲响。 如果以为这只是一场例行的技术秀,那可就错了。近期密集的行业爆料,正拼凑出一个令人兴奋的图景:即将登场的 i
洞见一:守护型Agent技术的必要性 眼下,AI Agent的普及早已不是新闻,从《华尔街日报》到《金融时报》,主流媒体的报道比比皆是。真实的业务部署进展如何?Team8在2025年对CISO(首席信息安全官)的调研数据给出了清晰画像: 近70%的企业已经在生产环境中运行AI Agent(这里指的是
当1张照片“站”成3D小人:AI如何把虚拟形象塞进百元消费区? 最近,AI工具SnapTo3D正式亮相,这事儿有点意思。它让用户上传一张普通照片,就能换回一个专属的3D数字角色。这个角色不仅能放在走秀场、舞蹈舞台、摄影棚这些场景里互动,更关键的是,平台直接接入了3D打印服务,可以把手办模型变成实物送
热门专题
热门推荐
三季报收官,光伏企业交出了近年难得的尚佳成绩 三季报发布完毕,光伏行业总算交出了一份近年来难得的、还算不错的成绩单。市场等这一刻,确实等了挺久。 根据Choice光伏设备板块收录的78家企业财报,整个板块三季度的净利润达到了7 58亿元。这个数字怎么看?不妨对比一下:就在二季度,板块的净亏损还高达4
北京天兵科技天龙三号火箭首飞失利解析 最近,北京天兵科技自主研发的天龙三号大型液体运载火箭,在酒泉卫星发射中心执行首次飞行任务时遭遇失利,这无疑是给国内商业航天关注者带来了一次震动。这款被寄予厚望的火箭,瞄准的是近地轨道20吨级的可回收运力,其设计初衷是通过低成本、高频次的发射模式,抢占一箭36星组
苹果芯片实战:48台Mac mini搭建本地AI集群,如何碘伏云端语音识别? 最近科技圈有个挺有意思的消息。知名播客应用Overcast的开发者Marco Arment,自己动手搭了个“大家伙”——一个由48台苹果Mac mini组成的服务器集群。关键是,这个集群没走寻常路,它完全绕开了云端AI服务
纯电赛道再进化:领克10系列如何重新定义“运动轿车”? 如果问,纯电时代最让人怀念传统燃油车的是什么?很多人会把票投给两件事:说走就走的补能,和随心所欲的操控。最近,领克用一场全球首秀给出了自己的答案。旗下全新的中大型运动轿车领克10,以及更极致的性能版本领克10+联袂登场。这不仅仅是两款新车,更像
苹果正酝酿一款“可自定义”的Vision Pro,核心框架支持模块化拼装 一则来自供应链和专利领域的消息,引起了科技圈的关注。4月8日,有外媒报道指出,苹果似乎并不满足于当前的一体化设计思路,其正在深入探索如何打造一款高度可自定义的Apple Vision Pro。未来的VR AR头显,用户或许能像





