首页 游戏 软件 资讯 排行榜 专题
首页
AI
南洋理工开源3D重建框架 单图生成可交互模型

南洋理工开源3D重建框架 单图生成可交互模型

热心网友
85
转载
2026-05-18

在3D生成技术快速发展的今天,从单张图片创建物体模型已逐渐成为现实。然而,一个普遍存在的痛点也随之凸显:大多数生成的模型仅仅是静态的“雕塑”,缺乏真实的物理交互能力。

想象一下,你生成了一台外观精美的冰箱,却发现它的门无法打开;你指挥机器人去搬运一把折叠椅,它却无法理解椅腿可以收合。这种静态模型与我们所期待的、能够与环境进行智能交互的“具身智能”愿景之间,仍存在巨大鸿沟。

近期,南洋理工大学S-Lab团队提出的MonoArt框架,为这一难题提供了高效且新颖的解决方案。其核心思想非常明确:与其让AI模型盲目地“猜测”物体的运动方式,不如先系统地教会它如何“理解”物体内在的机械结构。

简而言之,MonoArt将单目可动物体重建任务,构建为一个渐进式的结构理解流程。模型并非一次性输出所有复杂的运动参数,而是模仿人类工程师的思维,分步完成几何重建、部件分割、运动关系推断和参数精确估计,最终输出一个集成了精细几何、部件层级与完整关节信息的可交互3D资产。


引言:突破静态模型,迈向可交互重建的挑战

与传统的静态3D重建相比,可动3D重建的任务复杂度呈指数级增长。它不仅需要精准恢复物体的外观形状,还必须进一步解析出:物体由哪些独立部件构成、部件间采用何种关节连接、旋转或平移的轴心位于何处、以及每个关节的运动范围是多少。其核心难点在于,物体的结构与运动方式是深度耦合的:不明确部件的划分,就难以推断其运动模式;反之,不理解运动关系,也无法构建出正确的可动结构。因此,那些试图直接从图像特征回归出所有运动参数的方法,往往稳定性不足,泛化能力也受到限制。

纵观现有技术方案,主要可分为三大类:

第一类是基于多视角或视频序列的方法。它们依赖同一物体在不同开合状态下的多张观测图像,虽然重建效果较好,但对数据采集条件要求极为苛刻,在现实应用场景中往往难以满足。

第二类是基于检索与组装的方法。通过从现有3D资产库中检索相似部件进行拼装来构建可动物体。这种方法受限于资产库的覆盖范围,容易产生几何错误或纹理不匹配的问题。

第三类是基于外部先验的方法。借助大型视觉语言模型或辅助视频生成来推测运动,降低了对多视角数据的依赖。但这类系统通常更为复杂,高度依赖外部先验知识,且推理耗时较长。

这些方法存在一个共性:它们都未能将“深度结构理解”本身作为推理物体运动关系的根本起点。要么依赖额外的观测信息来弥补单视图的不足,要么借助外部知识来提供线索,却回避了一个更本质的问题——能否首先从单张图像中,稳定地解构出物体的几何与部件组成,再基于此可靠地推断出运动关系?

MonoArt正是精准地瞄准了这一核心挑战。它不再将运动参数视为一个需要直接回归的终点,而是将其构建为一个渐进式的、环环相扣的结构推理链条。让几何、部件和运动信息在一条连续的推理线上依次浮现,最终使得“运动”成为“结构理解”之后水到渠成的自然结果。


方法详解:四步渐进式推理框架

具体而言,MonoArt通过四个核心模块的串联,实现了从单张图像到完整可动3D模型的逐步、稳健推理。


第一步:获取高保真3D几何形状

所有高级推理的基础,是一个从单张图像恢复出的高精度三维几何。MonoArt采用TRELLIS作为冻结的3D生成骨干网络,输出一个规范化的网格模型及其对应的潜在特征。这一步的关键意义在于,它将后续所有关于“部件划分”和“运动推断”的推理,都锚定在了明确的三维空间坐标系中,而非模糊的二维图像像素层面。这比直接从图像特征回归关节参数要稳定、直观得多,为后续步骤奠定了坚实的空间基础。

第二步:智能识别与分割可动部件

在获得可靠的3D形状后,下一个核心问题是:这个形状中,哪些部分是可以独立运动的?例如,一个文件柜的门和主体显然是两个不同的运动部件,但原始的网格数据并不会提供这种语义信息。MonoArt的“部件感知语义推理器”正是为了解决这一问题而设计。

该模块将网格表面每个顶点的几何特征,投影到三个正交的二维平面上,再通过Transformer架构捕捉全局的结构上下文关系,最终为每个点生成一个蕴含部件归属信息的特征嵌入向量。在训练阶段,通过引入三元组损失函数,拉大不同部件特征之间的距离,从而使得属于同一部件的点特征高度聚集,而不同部件的点特征显著分离。

下方的可视化对比结果清晰地证明了该模块的有效性:在没有此模块时,点的特征混杂,难以区分不同运动部件;而引入模块并进行监督训练后,不同部件(如柜门、抽屉)的特征在嵌入空间中被清晰地分离出来。


第三步:解耦推理部件的运动语义与空间关系

明确了部件划分后,接下来需要推断每个部件的具体运动方式。这里存在一个关键挑战:完整描述一个部件的运动,需要同时回答两类问题——它的“语义类别是什么”(例如,这是旋转门还是平移抽屉?)以及它的运动“空间参数在哪里”(例如,旋转轴心位于何处?)。

若将这两类信息混杂在同一个特征表示中进行端到端回归,结果往往不稳定。MonoArt创新的“双查询运动解码器”采用了巧妙的解耦设计:使用“内容查询”来编码部件的语义信息,使用“位置查询”来编码运动的空间锚点信息,两者通过6层迭代注意力机制进行逐步对齐与细化。

在每一层迭代中,查询之间通过自注意力模块建模部件与部件之间的相互关系,再通过交叉注意力模块从网格点特征中提取证据。这种“语义与空间并行推理、迭代对齐”的策略,使得运动关系的推断更加稳健和准确。

第四步:输出物理精确的运动学参数

最后,“运动学参数估计器”模块将前几步的推理结果,转化为明确、物理可解释的最终输出。这包括:每个独立部件的精确掩码、关节类型(如固定、旋转、平移)、旋转轴的方向向量、旋转中心的3D坐标、以及运动的角度或位移范围上下限。此外,该模块还会预测部件之间的“父子”层级关系,从而构建出完整的运动学树,明确界定“哪个部件连接在哪个基础部件之上”。

一个精妙的设计细节在于,对于关节中心位置的预测,模型采用了残差学习的形式。它以上一步“位置查询”预测的部件质心作为初始锚点,仅预测一个精细的偏移量。消融实验证明,这种残差预测方式比直接回归绝对坐标更为准确。这也完美呼应了MonoArt整体“渐进式、步步为营”的设计哲学:每一步的推理都稳固地建立在上一步的可靠结果之上。

这种四步递进的框架设计带来了一个显著优势:整个可动重建流程完全自给自足,无需依赖任何外部先验知识——既不需要多视角图像或视频,也无需检索3D资产库,更不依赖视觉语言模型或辅助生成视频。那么,它的实际性能与效果究竟如何?

实验结果:卓越性能与强大实用性

在权威的PartNet-Mobility基准数据集上进行评测,MonoArt在7个常见类别和全部46个类别的两种设置下,均取得了领先的综合性能。

与SINGAPO、URDFormer、Articulate-Anything、PhysXAnything等当前代表性方法相比,MonoArt在多个核心评估指标上表现最优,包括几何重建质量、关节类型分类准确率、以及旋转轴/中心等关键运动参数的估计精度,同时保持了更高的推理效率。

例如,在推理速度方面,对比Articulate-Anything所需的229.9秒和PhysXAnything的256.8秒,MonoArt仅需约20.5秒(其中约18.2秒用于TRELLIS的3D几何生成,新增的运动推理开销仅约2秒),效率提升显著。

更重要的是其在下游机器人任务中展现出的实用价值。MonoArt生成的可动3D物体能够直接用于机械臂的仿真训练。重建出的模型可以无缝导入Isaac Sim等物理仿真环境,让Franka等机械臂执行抓取、开门、操作抽屉等复杂任务,而无需任何额外的人工关节标注。这充分证明了其生成结果具备“开箱即用”的可用性。此外,MonoArt的框架能力还可以进一步扩展,用于生成包含多个可动物体的复杂交互场景。

总结与展望

MonoArt为单目可动3D重建领域指明了一条清晰且有效的技术路径:与其依赖日益庞杂的外部数据与先验去“弥补”信息的缺失,不如通过精心设计的渐进式结构推理,让AI模型真正学会理解物体为何如此构成、以及如何基于物理规律运动。

当然,该方法目前也存在一定的局限性。例如,对于尺度差异极大的微小部件,均匀采样可能导致其特征不够显著;对于拓扑结构极其新颖或罕见的运动模式,模型的参数预测精度也可能面临挑战。这些存在的问题,也为未来更深入的研究与技术优化留下了宝贵的探索空间。


来源:https://www.163.com/dy/article/KR46M3P70511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

国产万亿参数大模型开源 养龙虾能力超越GPT-5
AI
国产万亿参数大模型开源 养龙虾能力超越GPT-5

5月15日,蚂蚁开源万亿参数模型Ring-2 6-1T。其核心创新是可调节推理强度机制,提供“high”与“xhigh”模式,分别优化智能体任务与高难度科研数学。采用异步强化学习与“棒冰算法”,显著提升训练效率与稳定性。基准测试表现顶尖,在代码生成、财务分析、3D游戏开发等场景展现广泛应用潜力。

热心网友
05.18
RPA开源软件推荐与选择指南
业界动态
RPA开源软件推荐与选择指南

深夜,一位电商运营专员仍在手动将数千条订单数据从一个平台复制粘贴到另一个系统;而隔壁技术团队的工程师,早已通过简洁的脚本指令,让“数字员工”在十分钟内精准无误地完成了全部工作。 这巨大效率差距的背后,核心驱动力正是机器人流程自动化(RPA)技术。如今,开源RPA框架已成为众多企业和开发者实践自动化、

热心网友
05.17
开源洁癖技能让智能体越用越聪明
AI
开源洁癖技能让智能体越用越聪明

在AI辅助开发的日常中,我们常常会遇到一个令人头疼的问题:项目初期文档清晰、记忆整洁,但随着功能迭代和Bug修复,代码库越来越庞大,而配套的文档和AI记忆却逐渐“腐化”,变得过时甚至矛盾。这直接导致了一个普遍现象——你的AI助手似乎越用越“笨”,给出的建议开始偏离实际,甚至犯下一些莫名其妙的错误。

热心网友
05.17
阿里通义开源全模态RAG框架VimRAG详解
AI
阿里通义开源全模态RAG框架VimRAG详解

在多模态人工智能处理领域,传统的检索增强生成(RAG)框架长期面临一个核心瓶颈:它们通常专精于文本处理,一旦涉及图像、视频等非文本信息,要么需要依赖OCR等技术进行“翻译”,要么就完全无法处理。这种割裂的处理模式不仅损失了原始数据的丰富语义和视觉细节,也让整个推理过程如同黑箱,难以追溯、验证与优化。

热心网友
05.17
最强开源图像生成模型GPT-Image-2平替版正式发布
AI
最强开源图像生成模型GPT-Image-2平替版正式发布

全球AI图像生成领域的竞争格局,正迎来前所未有的激烈变革与范式升级。 就在上周,OpenAI正式推出GPT-Image-2,其卓越的视觉表现力与精准的文本遵循能力引发了行业广泛关注。无论是高度拟真的电商直播场景、充满复古质感的90年代风格照片,还是逻辑缜密的知识图谱可视化,一系列令人惊叹的演示案例迅

热心网友
05.17

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

微信群接龙数据自动整理工具OpenClaw一键生成表格
AI
微信群接龙数据自动整理工具OpenClaw一键生成表格

微信群里的接龙,方便是真方便,但整理起来,那叫一个头疼。手动复制粘贴,不仅耗时费力,还容易出错、遗漏,最后导出的表格格式五花八门,看着就心累。 有没有一种方法,能让这个过程自动化,让数据自己“跑”进表格里?答案是肯定的。借助一些工具,我们可以实现群内接龙数据的自动识别、解析和归档。下面,就来拆解一下

热心网友
05.18
VINE币怎么买?VINE价格预测2025到2030年及未来前景分析
web3.0
VINE币怎么买?VINE价格预测2025到2030年及未来前景分析

VineCoin(VINE币):重塑创作者经济的区块链新星 在数字资产的浪潮中,VineCoin(VINE币)正作为一个新兴项目崭露头角。它并非又一种简单的代币,其野心在于利用区块链技术,从根本上重塑内容创作与社交互动的经济规则。可以说,它致力于成为一个去中心化生态系统的核心引擎,目标是为全球的内容

热心网友
05.18
ToClaw文件整理术一键清理桌面杂乱文件实用教程
AI
ToClaw文件整理术一键清理桌面杂乱文件实用教程

ToClaw文件整理术:一键清理桌面杂乱文件的秘籍 | AI智能文件管理教程 利用AI智能助手整理电脑桌面文件,愿景虽好,但在实际应用中,你是否也遇到过分类不准确、指令执行失败,甚至文件被误移的困扰?请放心,这些问题往往源于几个关键的设置步骤尚未完善。掌握以下这套经过验证的ToClaw文件整理优化方

热心网友
05.18
全链网罢工计划不变 区块链去中心化争议持续
web3.0
全链网罢工计划不变 区块链去中心化争议持续

三星电子工会确认原定罢工计划未取消,但将遵守法院禁令,确保罢工不影响正常生产流程。劳资博弈进入微妙阶段,工会需在法律框架内施压,公司生产秩序暂获法律庇护,后续发展取决于双方谈判。

热心网友
05.18
千问AI如何助力社群运营实现自动回复与管理
AI
千问AI如何助力社群运营实现自动回复与管理

千问AI赋能社群自动化运营:一、关键词触发智能回复;二、定时任务精准推送;三、敏感词实时过滤预警;四、成员标签化智能分组。 社群运营工作繁杂,常常需要处理大量重复性任务,如解答常见问题、发布定时通知、监控群内动态等,这让运营者倍感压力。如何实现高效、智能的社群管理,解放人力?利用千问AI的强大功能,

热心网友
05.18