NVIDIA与多伦多大学打造3D资产物理材质透视仪

时间：2026-07-05 12:18

这项由NVIDIA与多伦多大学联合完成的突破性研究，正式入选2026年第43届国际机器学习大会（ICML 2026），会议在韩国首尔举办，论文收录于PMLR 306论文集，编号为arXiv:2606 18231。你是否好奇过，电影中随风飘动的布料、坐下去缓慢下陷的沙发——这种“真实感”究竟源自何处

这项由NVIDIA与多伦多大学联合完成的突破性研究，正式入选2026年第43届国际机器学习大会（ICML 2026），会议在韩国首尔举办，论文收录于PMLR 306论文集，编号为arXiv:2606.18231。

你是否好奇过，电影中随风飘动的布料、坐下去缓慢下陷的沙发——这种“真实感”究竟源自何处？答案的核心就是物理模拟。而物理模拟的关键，在于为每一块虚拟材料赋予三个关键物理参数：杨氏模量（衡量材料硬度）、泊松比（衡量材料受挤压时横向扩张的程度）以及密度（衡量材料质量）。这三个参数如同材料的“身份证”，共同决定了它在虚拟世界中的力学行为。

然而现实是，绝大多数3D资产都缺少这张“身份证”。设计师们耗费数周建模一个精致的沙发，却往往不清楚该设置何种材质参数才能模拟出真实的物理手感。更棘手的是，现实中的物体从来不是单一材料构成——沙发包含木头框架、泡沫填充、布料表面，每一部分都需要不同的参数，且这些参数必须贯穿整个体积内部，而不仅仅是表面上的装饰。

NVIDIA与多伦多大学的研究团队决心彻底解决这一难题。他们开发了一套名为ADA VOMP的系统，能够通过“观察”3D物体的外观，自动推断其内部每个角落的物理材质参数。这项研究最大的突破在于：所达到的分辨率比此前最好的方法高出163倍，能够捕捉到过去系统完全无法察觉的细小零件和材质边界。

一、为什么给3D物体“量体裁衣”如此困难

用烤面包机来打比方会更容易理解。面包机的外壳是金属，按钮是塑料，加热丝是陶瓷，弹簧是钢铁。如果你要在物理引擎里模拟这台面包机被砸到地上的全过程，就需要知道每个部分有多硬、多重、受撞击后如何变形。这些信息通常并不会写在模型文件里，需要人工逐一测量或标注——对一两个物体或许可行，但对于现代游戏、影视特效、机器人训练所需的数以万计的资产来说，根本无法规模化操作。

此前也有一些方法尝试走自动化路线，但各有短板。有的方法从视频中反推材质，却过于依赖特定模拟器，换一个环境便失效；另一些方法只分析物体表面，对内部结构一无所知——对于需要体积形变模拟的场景来说，这等于没做实质性工作；还有一些方法虽然能预测体积材质，但分辨率极低，如同用马赛克图片来描述人脸细节，所有精细结构都糊成一团。

这正是ADA VOMP所要解决的核心矛盾：如何在不手动测量、不依赖特定模拟器的前提下，快速、准确、高分辨率地推断出3D物体内部的材质分布？

研究团队选择了一条直观的路线：“看外表推内里”——通过物体的多视角照片，结合深度学习，让模型自己学会从颜色、纹理、形状等视觉特征推断材质。这个思路其实并不新鲜，人类天生就会这么做：看到亮晶晶的东西，你会猜它是金属；看到蓬松的东西，你会猜它是泡沫。ADA VOMP只是将这套判断逻辑教给了机器，并且做得更加精细、系统化。

二、把体积变成一棵会“生长”的树

ADA VOMP的核心发明是一种名为SA V（稀疏自适应体素树）的数据结构。要理解这个概念，可以用城市地图来类比。

一张城市地图如果每个地方都用同样精细的比例尺来画，那么空旷的郊外田野和市中心的密集街道会占用完全相同的存储空间，这显然非常浪费。聪明的做法是根据信息密度动态调整：郊外只需要粗略标注，市中心则需要精确到每一条小巷。SA V对材质空间的处理方式，正是这个道理。

对于一个沙发来说，扶手部分全是木头，材质完全均匀，不需要精细记录——SA V会用一个大格子覆盖整片区域。但到了布料和海绵的交界处、金属支架穿过木头的位置，材质在短短几毫米内发生剧变，这时就需要将格子不断细分，直到能够清晰捕捉这个边界为止。

这棵“树”从整个物体的粗略描述开始（一个大格子），然后根据材质变化程度决定是否继续细分。如果某片区域材质很均匀，就保持为一个粗格子，存储该区域材质的平均值；如果材质变化复杂，就继续往下分，直到格子细到足以准确描述为止。最终生成的结构中，最细的格子对应的分辨率可以达到1024？——即1024×1024×1024个网格，而此前最好的方法VoMP只能处理64？的分辨率，差距整整达到163倍。

更关键的是，这棵树并非预先固定结构再填数据，而是由神经网络一边“生长”一边填数。生长本身就是预测的一部分——模型需要同时决定“这里需不需要细分”以及“这里的材质是什么”。这两个任务相互关联、协同训练，让整个系统更加高效。

三、眼睛如何传递信息：从照片到3D特征树

有了存储材质的框架，下一步的问题是：如何将物体外观的信息输入进来？

研究团队借助了一种名为DINOv3的视觉特征提取模型——你可以把它理解为一个经过大量训练的“眼睛”，能从图片中提取出丰富的语义信息，例如“这里是金属光泽”、“这块区域纹理像木头”等。研究人员为每个3D物体渲染了150张不同角度的照片，再让DINOv3从每张照片中提取特征，然后将这些特征“投影”回3D空间，填充到体素网格中。

这个投影过程有一个很精妙的细节：距离相机较远的体素，其特征会被赋予更低的可信度权重。这就好比近距离观察一块布料和隔了十几米远，所看到的细节精度完全不同——越近越可信。传统方法对所有角度的观测一视同仁，这其实不太合理。ADA VOMP的深度衰减加权策略避免了远处观测对特征的“稀释”，让模型将注意力集中在更可靠的视觉信息上。

提取到体素特征后，同样不是简单地将所有细格子保留下来，而是构建一棵“特征树”。方法与材质树类似：相邻体素如果特征非常相似（说明该区域看起来差不多，材质可能均匀），就合并成一个粗格子；只有特征差异大的区域才保持精细划分。这棵特征树就是输入给后续神经网络的“素材”——它已经完成了第一轮智能压缩，把计算资源集中在信息最密集的区域。

四、两个协同工作的“大脑”

ADA VOMP的神经网络部分由两个模块构成，你可以把它们理解为侦探工作中的两个角色：一个负责“收集线索”，一个负责“做出判断”。

负责收集线索的叫做“自适应几何变换器”（Adaptive Geometry Transformer，简称AGT）。它接收特征树里混合了不同分辨率的体素，将它们统一编码成一组“情报”。为了让模型知道不同大小的格子在空间中的位置关系，每个体素都被赋予了一套“统一坐标”——将不管多粗的格子都折算到同一个最细网格下的坐标系中来表示。这样，粗格子和细格子可以在同一个框架内相互“对话”，通过一种叫做稀疏窗口自注意力的机制，让每个位置的特征都能参考周围邻居的情况。

负责做出判断的叫做“自适应材质生成器”（Adaptive Material Generator，简称AMG）。它接收AGT输出的情报，然后从最粗的层级开始，一层一层地往下预测。在每一层，它对当前层的所有候选格子都做三个判断：这个格子是空的（物体内部没有材质）？还是可以保留为叶节点（这个格子足够细，可以直接记录材质）？还是需要继续细分（这个格子太粗，里面还有更多细节）？

对于被判断为“继续细分”的格子，它的八个子格子会进入下一层的候选列表，继续接受同样的判断。这个过程从1个格子开始，逐层展开，直到达到最细层级为止。最终留下来的所有叶节点，共同构成了这个物体的材质场。

每个格子在判断自己应该“保留”还是“细分”时，不仅会看自己当前的情况，还会继承来自父格子的“记忆”——父格子的隐藏状态会传递给它的所有子格子。这种记忆传递确保了空间连贯性：即使某个区域的粗格子决定保留而不细分，它的空间信息依然会流向邻近的细分区域，不会出现“信息孤岛”。

五、训练时的三重保障

训练这个系统面临一个很大的挑战：生成结构（树如何生长）和生成内容（格子里存什么）必须同步优化，而结构的生长路径会影响到内容的训练样本，反过来内容的质量又影响结构的判断。

研究团队采用了“教师强制”策略来稳定训练。具体来说，在训练阶段，模型的结构判断不依赖自己的预测结果，而是强制使用正确答案——即从标注数据中得到的真实材质树结构。这就好比让一个学生在练习解题时，每一步都参照标准答案来决定下一步走哪个分支，而不是完全依靠自己的推断。这样可以确保训练早期不会因为结构判断失误而导致整个训练崩溃。

除此之外，训练还引入了对“空格子”的显式监督。此前的很多方法只关注有材质的区域，忽略了空格子的预测。但如果模型不知道什么地方应该是空的，它就可能跑到物体外部或者内部的空洞里去乱填材质，导致结果一塌糊涂。ADA VOMP专门让空格子参与训练，作为明确的负样本，帮助模型学会“物体的边界到底在哪里”。

还有一个叫做MatVAE的组件，它来自此前的VoMP研究，被作为“物理合理性约束器”嵌入系统。每当模型预测一个格子的材质时，它不是直接输出三个数字，而是先输出一个2维的潜在编码，再通过MatVAE解码成实际的杨氏模量、泊松比和密度值。MatVAE在训练时已经学到了“哪些材质组合是物理上合理的”，所以这个约束相当于给模型装了一道“合理性过滤器”，避免输出那些在现实中不可能存在的材质参数组合。

六、数据从哪里来：给3D资产自动贴“材质标签”

监督学习需要标注数据，而给3D资产标注体积材质参数是一件非常繁琐的工作。研究团队延续了此前VoMP研究的方法，使用大型视觉语言模型（VLM）自动完成标注。

具体过程是这样的：3D资产通常由多个零件组成，每个零件有其所属的材料类型（比如“橡木”、“铝合金”、“棉布”）。研究人员让Qwen2.5-VL这个多模态模型看着这些零件的渲染图，判断每个零件是什么材质，然后从材质数据库里查找对应的物理参数范围，填入标注。

整个数据集叫做GVT（Geometry with Volumetric Trees），包含1725个高质量3D资产，涵盖55个语义类别，从家具、容器到植被、商业设备，种类相当丰富。训练数据共包含约1.5亿个输入词元和16.2亿个输出词元，前者是特征树节点，后者是材质树节点。

七、效果如何：数字说话

研究团队与五个现有方法进行了系统比较，包括NeRF2Physics、PUGS、Phys4DGen、Pixie和VoMP。评测指标包括绝对误差、相对误差以及以对数尺度衡量的误差（因为杨氏模量的数值范围可以跨越十几个数量级，用对数尺度评估更科学）。

在标准测试集上，无论是64？分辨率下还是1024？分辨率下，ADA VOMP在杨氏模量、泊松比、密度三项指标上都全面超越所有竞争方法。更值得一提的是，即便ADA VOMP只在低分辨率（64？）下运行，其表现依然优于大多数竞争对手——这说明系统的优势不仅来自于更高的分辨率，模型本身的预测能力也更强，相当于上了双保险。

研究团队还专门设计了一个“困难测试集”GVT-HARD，专门收录那些包含细小零件、在粗分辨率下完全被忽略的物体。在这个测试集上，所有方法的表现都明显下滑，但ADA VOMP与其他方法的差距反而拉大了——对于粗分辨率方法几乎等于放弃的细节，ADA VOMP依然能给出合理的预测，这种能力在真实场景中非常宝贵。

在质量评估方面，研究人员还检验了预测材质的“物理合理性”——即预测值是否落在真实材料的测量范围内。结果显示ADA VOMP与VoMP旗鼓相当，说明虽然大幅提高了分辨率，但没有因此牺牲物理合理性，没有顾此失彼。

在一个独立的质量估算基准测试（ABO-500）上，ADA VOMP也取得了明显优于所有方法的成绩，进一步验证了其密度预测的准确性。

八、紧凑性：少用格子，多出细节

SA V结构的一个重要优势是它的紧凑性。研究团队统计了地面真值材质树的叶节点数量，与同等区域下密集64？网格所需的格子数量进行比较。结果显示，在标准测试集上，真值材质树只需要密集网格的7.24%的节点就能完整表示材质分布；在整个数据集上，这个比例也只有10.54%。换言之，超过90%的格子是冗余的，可以被安全合并。

模型生成的材质树与真值相比，节点数量多出了约26%——这是模型在不确定的区域选择“保守细分”的代价，但总体上依然远比密集网格高效，生成树只需要密集网格的9.14%节点。

从物理维度上看，SA V所表示的空间结构有效维度约为2.48，介于纯表面（维度2）和完全密集体积（维度3）之间。这意味着体积中的材质变化主要发生在类表面区域和边界层，而内部大多是均匀的——这与我们对现实物体的直觉完全吻合，也验证了SA V这种“集中火力在边界上”的策略是科学的。

九、规模扩展：越大越好，越细越准

研究团队训练了六个不同大小的模型，从最小的2000万参数（S）到最大的5.73亿参数（H），并系统测试了训练数据量和推理分辨率的影响。

从结果来看，三个维度的扩展都有稳定的收益。训练更多数据（从5亿到3000亿词元），误差持续下降，且较大的模型在固定数据量下表现更好。提高推理分辨率（从64？到1024？），误差也持续改善，说明在更高分辨率下运行确实能发现更多有用的细节，而不只是在低分辨率答案上做无意义的插值。模型规模提升同样带来稳定收益，且在推理分辨率较高时，大模型相对小模型的优势更加明显。

内存消耗随分辨率的增长呈亚二次方关系（大约是1.35次方），意味着把分辨率提高到16倍时，内存消耗不会增加16的平方倍，而是更温和的增幅。这使得在标准的8块A100 GPU上就能运行1024？分辨率的推理，实用性很强。

计算成本则呈更陡峭的趋势（约2.32次方），说明分辨率是计算开销的主要驱动因素，而模型参数量的影响相对温和——增大十倍参数只带来约十倍计算量增加，而分辨率从128？提升到1024？则带来约两个数量级的计算量增加。所以，在实际部署时，可以灵活地在精度和成本之间做权衡。

十、从参数到真实模拟

研究的最终目的不只是预测一堆数字，而是让3D资产真的能被物理模拟。研究团队把ADA VOMP生成的材质场输入到多种模拟器中，包括有限元方法（FEM）、Simplicits简化阶模拟器，以及NVIDIA的Isaac Sim机器人模拟平台，并展示了一系列令人信服的结果。

沙发在重力下稳定地坐着、枕头被挤压后缓慢回弹、一台GPU被机械手臂触碰时按照金属和塑料各自的特性产生不同程度的形变。这些模拟完全使用ADA VOMP自动预测的材质，没有任何人工微调。研究人员还展示了将这套系统集成进RoboLab机器人训练平台的案例，让机器人在有物理真实感的环境里学习操作技能。

特别有意思的一个案例是：研究人员用手机上的商业应用扫描了一个真实世界的游戏手柄，得到一个高斯点云（Gaussian Splat）形式的3D模型，然后直接把它输入ADA VOMP，预测出材质，生成四面体网格，用FEM模拟手柄被扔到地上的过程。整个流程完全自动化，没有任何专业人员介入，从扫描到模拟一气呵成。

说到底，ADA VOMP做的事情可以用一句话来概括：它是一台“材质透视仪”，通过观察3D物体的外表，推断出它从内到外每一个角落的物理属性。这台透视仪比此前所有同类工具都精细163倍，同时还做到了“聪明地分配精力”——在均匀区域只用极少的计算资源，在复杂区域重点深挖，整体效率远高于暴力全分辨率方案。

这项研究的意义远不止于学术指标的提升。当机器人训练、影视特效、游戏开发、数字孪生这些应用都需要大量物理真实的3D资产时，手动标注的方式根本无法满足需求，那可是个无底洞。ADA VOMP提供了一条可以大规模部署的自动化路径，让原本需要材质工程师花费数小时工作的任务，变成几分钟内自动完成的流水线工序。

当然，这项研究也坦诚地列出了局限：目前只能处理静态资产，无法从视频中获取动态物理线索；只支持各向同性材质，无法处理那些在不同方向上刚度不同的材料（比如竹子——顺着纹理和垂直于纹理的强度差异很大）；预测结果是针对特定物理模拟器意义下的“真实参数”，在某些追求速度而非精度的实时模拟器里，这些参数可能还需要进一步调整。这些方向为未来研究留下了清晰的路标。

Q&A

Q1：ADA VOMP和此前的VoMP方法相比，主要提升了什么？

A：ADA VOMP最核心的提升是分辨率，从VoMP的64？提升到了1024？，高出163倍。这背后是用稀疏自适应体素树替换了固定均匀网格，让系统能在材质变化复杂的区域集中精力细化，而在均匀区域节省计算。除了分辨率，在预测精度上，ADA VOMP在所有评测指标和所有测试集上也全面优于VoMP，即便在低分辨率模式下运行，表现也不亚于VoMP。可以说是综合性的显著提升。

Q2：ADA VOMP预测材质需要什么输入，普通3D模型都能用吗？

A：ADA VOMP的输入要求相对宽泛，只需要能被体素化（即转成三维网格形式）并且能从多个角度渲染出图片的3D资产即可。支持的格式包括传统网格模型、有符号距离场、高斯点云（3D Gaussian Splatting）以及神经辐射场（NeRF）。这意味着从建模软件导出的标准资产到手机扫描生成的点云，基本上都可以直接使用，不需要特殊预处理。

Q3：SA V稀疏自适应体素树实际能节省多少存储和计算？

A：在标准测试集上，SA V材质树只需要等效密集64？网格约7%到10%的节点数量就能完整表示材质分布。模型生成的树比理想真值多用了约26%的节点（保守细分），但总体仍只需密集网格约9%的节点。内存随分辨率的增长大约是1.35次方关系，远低于密集网格的三次方增长，使得1024？分辨率下的推理在8块A100 GPU上即可运行，这在实际部署中是非常有吸引力的效率优势。

来源：https://www.163.com/dy/article/L04G9O670511DTVV.html

IDIA

上一篇任天堂Switch 2港版售价9月1日起上调至3700港元 下一篇英伟达持续统治TOP500超算榜单市场份额占比高达81%

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。