南洋理工开源3D重建框架单图生成可交互模型

首页

热心网友

转载

2026-05-18

在3D生成技术快速发展的今天，从单张图片创建物体模型已逐渐成为现实。然而，一个普遍存在的痛点也随之凸显：大多数生成的模型仅仅是静态的“雕塑”，缺乏真实的物理交互能力。

想象一下，你生成了一台外观精美的冰箱，却发现它的门无法打开；你指挥机器人去搬运一把折叠椅，它却无法理解椅腿可以收合。这种静态模型与我们所期待的、能够与环境进行智能交互的“具身智能”愿景之间，仍存在巨大鸿沟。

近期，南洋理工大学S-Lab团队提出的MonoArt框架，为这一难题提供了高效且新颖的解决方案。其核心思想非常明确：与其让AI模型盲目地“猜测”物体的运动方式，不如先系统地教会它如何“理解”物体内在的机械结构。

简而言之，MonoArt将单目可动物体重建任务，构建为一个渐进式的结构理解流程。模型并非一次性输出所有复杂的运动参数，而是模仿人类工程师的思维，分步完成几何重建、部件分割、运动关系推断和参数精确估计，最终输出一个集成了精细几何、部件层级与完整关节信息的可交互3D资产。

引言：突破静态模型，迈向可交互重建的挑战

与传统的静态3D重建相比，可动3D重建的任务复杂度呈指数级增长。它不仅需要精准恢复物体的外观形状，还必须进一步解析出：物体由哪些独立部件构成、部件间采用何种关节连接、旋转或平移的轴心位于何处、以及每个关节的运动范围是多少。其核心难点在于，物体的结构与运动方式是深度耦合的：不明确部件的划分，就难以推断其运动模式；反之，不理解运动关系，也无法构建出正确的可动结构。因此，那些试图直接从图像特征回归出所有运动参数的方法，往往稳定性不足，泛化能力也受到限制。

纵观现有技术方案，主要可分为三大类：

第一类是基于多视角或视频序列的方法。它们依赖同一物体在不同开合状态下的多张观测图像，虽然重建效果较好，但对数据采集条件要求极为苛刻，在现实应用场景中往往难以满足。

第二类是基于检索与组装的方法。通过从现有3D资产库中检索相似部件进行拼装来构建可动物体。这种方法受限于资产库的覆盖范围，容易产生几何错误或纹理不匹配的问题。

第三类是基于外部先验的方法。借助大型视觉语言模型或辅助视频生成来推测运动，降低了对多视角数据的依赖。但这类系统通常更为复杂，高度依赖外部先验知识，且推理耗时较长。

这些方法存在一个共性：它们都未能将“深度结构理解”本身作为推理物体运动关系的根本起点。要么依赖额外的观测信息来弥补单视图的不足，要么借助外部知识来提供线索，却回避了一个更本质的问题——能否首先从单张图像中，稳定地解构出物体的几何与部件组成，再基于此可靠地推断出运动关系？

MonoArt正是精准地瞄准了这一核心挑战。它不再将运动参数视为一个需要直接回归的终点，而是将其构建为一个渐进式的、环环相扣的结构推理链条。让几何、部件和运动信息在一条连续的推理线上依次浮现，最终使得“运动”成为“结构理解”之后水到渠成的自然结果。

方法详解：四步渐进式推理框架

具体而言，MonoArt通过四个核心模块的串联，实现了从单张图像到完整可动3D模型的逐步、稳健推理。

第一步：获取高保真3D几何形状

所有高级推理的基础，是一个从单张图像恢复出的高精度三维几何。MonoArt采用TRELLIS作为冻结的3D生成骨干网络，输出一个规范化的网格模型及其对应的潜在特征。这一步的关键意义在于，它将后续所有关于“部件划分”和“运动推断”的推理，都锚定在了明确的三维空间坐标系中，而非模糊的二维图像像素层面。这比直接从图像特征回归关节参数要稳定、直观得多，为后续步骤奠定了坚实的空间基础。

第二步：智能识别与分割可动部件

在获得可靠的3D形状后，下一个核心问题是：这个形状中，哪些部分是可以独立运动的？例如，一个文件柜的门和主体显然是两个不同的运动部件，但原始的网格数据并不会提供这种语义信息。MonoArt的“部件感知语义推理器”正是为了解决这一问题而设计。

该模块将网格表面每个顶点的几何特征，投影到三个正交的二维平面上，再通过Transformer架构捕捉全局的结构上下文关系，最终为每个点生成一个蕴含部件归属信息的特征嵌入向量。在训练阶段，通过引入三元组损失函数，拉大不同部件特征之间的距离，从而使得属于同一部件的点特征高度聚集，而不同部件的点特征显著分离。

下方的可视化对比结果清晰地证明了该模块的有效性：在没有此模块时，点的特征混杂，难以区分不同运动部件；而引入模块并进行监督训练后，不同部件（如柜门、抽屉）的特征在嵌入空间中被清晰地分离出来。

第三步：解耦推理部件的运动语义与空间关系

明确了部件划分后，接下来需要推断每个部件的具体运动方式。这里存在一个关键挑战：完整描述一个部件的运动，需要同时回答两类问题——它的“语义类别是什么”（例如，这是旋转门还是平移抽屉？）以及它的运动“空间参数在哪里”（例如，旋转轴心位于何处？）。

若将这两类信息混杂在同一个特征表示中进行端到端回归，结果往往不稳定。MonoArt创新的“双查询运动解码器”采用了巧妙的解耦设计：使用“内容查询”来编码部件的语义信息，使用“位置查询”来编码运动的空间锚点信息，两者通过6层迭代注意力机制进行逐步对齐与细化。

在每一层迭代中，查询之间通过自注意力模块建模部件与部件之间的相互关系，再通过交叉注意力模块从网格点特征中提取证据。这种“语义与空间并行推理、迭代对齐”的策略，使得运动关系的推断更加稳健和准确。

第四步：输出物理精确的运动学参数

最后，“运动学参数估计器”模块将前几步的推理结果，转化为明确、物理可解释的最终输出。这包括：每个独立部件的精确掩码、关节类型（如固定、旋转、平移）、旋转轴的方向向量、旋转中心的3D坐标、以及运动的角度或位移范围上下限。此外，该模块还会预测部件之间的“父子”层级关系，从而构建出完整的运动学树，明确界定“哪个部件连接在哪个基础部件之上”。

一个精妙的设计细节在于，对于关节中心位置的预测，模型采用了残差学习的形式。它以上一步“位置查询”预测的部件质心作为初始锚点，仅预测一个精细的偏移量。消融实验证明，这种残差预测方式比直接回归绝对坐标更为准确。这也完美呼应了MonoArt整体“渐进式、步步为营”的设计哲学：每一步的推理都稳固地建立在上一步的可靠结果之上。

这种四步递进的框架设计带来了一个显著优势：整个可动重建流程完全自给自足，无需依赖任何外部先验知识——既不需要多视角图像或视频，也无需检索3D资产库，更不依赖视觉语言模型或辅助生成视频。那么，它的实际性能与效果究竟如何？

实验结果：卓越性能与强大实用性

在权威的PartNet-Mobility基准数据集上进行评测，MonoArt在7个常见类别和全部46个类别的两种设置下，均取得了领先的综合性能。

与SINGAPO、URDFormer、Articulate-Anything、PhysXAnything等当前代表性方法相比，MonoArt在多个核心评估指标上表现最优，包括几何重建质量、关节类型分类准确率、以及旋转轴/中心等关键运动参数的估计精度，同时保持了更高的推理效率。

例如，在推理速度方面，对比Articulate-Anything所需的229.9秒和PhysXAnything的256.8秒，MonoArt仅需约20.5秒（其中约18.2秒用于TRELLIS的3D几何生成，新增的运动推理开销仅约2秒），效率提升显著。

更重要的是其在下游机器人任务中展现出的实用价值。MonoArt生成的可动3D物体能够直接用于机械臂的仿真训练。重建出的模型可以无缝导入Isaac Sim等物理仿真环境，让Franka等机械臂执行抓取、开门、操作抽屉等复杂任务，而无需任何额外的人工关节标注。这充分证明了其生成结果具备“开箱即用”的可用性。此外，MonoArt的框架能力还可以进一步扩展，用于生成包含多个可动物体的复杂交互场景。