北大港中文上海AI Lab联手推出VGGT-Edit 3D场景编辑效率提升120倍

首页

AI资讯

热心网友

转载

2026-05-28

3D场景生成技术如今已能“看懂”世界，但距离“灵活修改”仍有巨大鸿沟。

从NeRF到3D Gaussian Splatting，再到VGGT、π³等前馈式重建模型，技术迭代日新月异——仅凭几张图片，短短数秒，一个完整的3D场景便能呈现眼前。

然而，瓶颈也在于此。这些模型虽已学会“理解”三维结构，却远未掌握“编辑”三维世界的核心能力。你可以轻松重建一个房间，却难以对其下达精确指令：

“请将椅子移至窗边，移除中间那把，并将灰色皮质沙发替换为白色长绒款式。”

更棘手的是，一旦涉及此类复杂编辑，现有方法往往漏洞百出——从某个视角看物体已消失，换个角度却又如“幽灵”般重现；明明只想修改前景物体，背景却随之扭曲变形。

针对这一核心挑战，来自北京大学、香港中文大学、上海人工智能实验室、南洋理工大学等机构的研究团队，提出了一套创新解决方案：VGGT-Edit。其核心思路直击要害：

彻底绕开繁琐的2D转换路径，直接在3D空间内完成编辑操作。

在DeltaScene测试集上，VGGT-Edit在语义一致性、多视角稳定性与推理速度三大关键指标上全面领先现有方案，单次编辑耗时仅约5秒，最高可实现120倍的速度提升。

问题根源：传统方法困于2D思维

当前绝大多数3D编辑方法，本质上仍未脱离“2D思维”的局限。它们通常先将3D场景分解为多个2D视角图像，对每张图像独立进行编辑，再试图将修改结果拼接回3D整体。

这种“分而治之”的策略带来了根本性难题：由于各视角被独立处理，编辑结果在多视角间无法保持一致。从而导致：

某一视角中物体已被删除；
转换角度后，该物体依然存在；
本应保持不变的背景区域发生畸变；
物体边缘出现重影与闪烁等视觉瑕疵。

△ 传统基于2D的编辑方法导致的多视角不一致问题

许多输出结果更像“在不同角度强行合成的图片集合”，而非内在统一、稳定的3D空间。对于追求高可靠性的机器人导航、增强现实/虚拟现实应用乃至未来的空间智能而言，这种不一致性是致命缺陷——它们需要的不是“某个角度正确”，而是整个3D世界在任何视角下均保持逻辑自洽。

原生3D编辑：从概念走向实用

VGGT-Edit的应对策略极为直接：既然问题源于2D转换的损耗，便彻底摒弃这一路径。

整个框架构建于VGGT等高效的前馈式3D重建模型之上，继承了其快速生成紧凑3D表示的能力。但团队的巧妙之处在于，并未选择笨拙地重新生成整个场景，而是引入了一项精妙机制：

残差场预测。

△ VGGT-Edit的核心“残差场预测”思路

这一概念可简单理解为：模型首先稳固捕捉原始场景的3D结构，随后仅学习“哪些部分需要发生变化”。例如：

椅子需向右平移；
沙发表面材质需从皮质改为绒布；
特定物体需要移除；
需添加新的家具物件。

所有编辑操作均被统一表达为一个简洁公式：新场景 = 原场景 + 局部残差变化。

此设计带来显著优势：由于场景大部分区域无需改动，模型不必费力“重新构想整个世界”，只需聚焦于局部修改。其结果便是，未被编辑的背景区域能保持高度稳定性，这正是VGGT-Edit与众多现有方法最直观的差异之一。

文本语义与3D空间的深度对齐

研究团队在实践中发现，若仅将文本指令（如“移动椅子”）简单输入模型，极易出现“指令理解偏差”——模型大致知道修改目标，却难以精确定位具体区域。

为解决这一“对齐”难题，VGGT-Edit设计了一套关键机制：深度同步文本注入。

其本质是让文本语义信息与3D空间特征，在模型处理的多个层级中持续、同步地进行融合。传统方法往往仅在网络前端注入一次文本信息，而VGGT-Edit则在多个关键层反复融合文本语义。这使得模型在形成3D表示的整个过程中，始终能明确：

当前应修改哪个空间区域；
修改的具体目标为何；
目标在3D空间中的确切位置。

同时，团队还设计了一套视角重要性加权策略。因为在多视角数据中，并非所有视角都同等可靠——有些视角可能被遮挡，有些仅能看到物体局部。VGGT-Edit能自动评估并为更清晰、更完整的视角赋予更高权重，从而使最终的多视角编辑结果更加稳定一致。

专为“编辑”任务设计的核心模块

除整体框架创新外，VGGT-Edit还包含一个至关重要的组成部分——一个专门为3D编辑任务定制的编辑头。

团队发现，对于VGGT这类原生用于重建的模型，其输出头更专注于“如何精准还原场景”。但3D编辑的核心需求截然不同，它需要解决的是：如何在保持整体场景稳定的前提下，精准且一致地修改局部区域。

因此，VGGT-Edit额外引入了一个独立的编辑分支，专门用于预测场景中需要发生的局部变化。这个编辑头直接作用于模型的3D表示空间，并输出对应的残差场。本质上，它学习的是：

哪些区域应保持原状；
哪些区域是编辑目标；
编辑后如何确保所有视角的结果一致。

相比直接重新生成整个场景，这种“外科手术式”的局部修改不仅结果更稳定，计算效率也大幅提升。这正是让VGGT等快速重建模型获得实用化编辑能力的关键一步。

十万级数据集：专为训练“3D编辑”模型打造

为有效训练VGGT-Edit，团队构建了一个全新的、规模近10万样本的3D编辑数据集——DeltaScene。它覆盖了客厅、办公室、住宅、商业空间等多种室内场景类型。

△ DeltaScene数据集示例

更关键的是，其数据生成流程实现了高度自动化。研究团队利用Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max等一系列先进模型，自动完成编辑指令生成、目标物体识别、多视角编辑模拟，并经过严格的3D一致性过滤，最终得到真正满足“多视角几何一致”要求的高质量训练数据。

△ 自动化数据生成与过滤流程

对于原生3D编辑任务而言，这一步至关重要。模型需要学习的，不仅是图像层面的像素变化，更是同一条编辑指令如何在所有不同视角下，引发协调、一致的3D空间变化。

3D编辑首次逼近实时交互门槛

实验结果表明，这条“原生3D编辑”的技术路线是行之有效的。

在DeltaScene测试集上，VGGT-Edit在语义一致性、多视角稳定性和推理速度这三个核心评估维度上，均超越了现有主流方法。

尤其在添加家具、调整物体位置、修改材质属性等复杂编辑任务中，许多传统方法产生的输出仍带有明显的“贴图感”和几何错位，而VGGT-Edit生成的结果，则更接近一个真实、稳固的3D空间。

△ VGGT-Edit与其他方法的编辑效果对比

速度的提升更为关键。根据论文数据，VGGT-Edit完成单次编辑仅需大约5秒。相比于那些需要长时间迭代优化的传统方法，最高实现了120倍的加速。这意味着，3D内容编辑首次真正逼近了“实时交互”的体验门槛。

对于机器人实时环境重构、数字孪生更新、AR/VR内容创作等领域而言，这种速度的飞跃意义重大。只有当编辑操作足够迅捷，3D世界才能真正从一个静态的“观看对象”，转变为一个可以实时、动态操作的“交互空间”。

△ 快速编辑能力开启实时交互新可能

模型开始理解“空间变化”的本质

论文中还有一个颇具启发性的发现。研究人员输入了一条模型在训练中从未见过的指令：“将中间那把椅子顺时针旋转90度。”

结果，模型依然成功地完成了编辑任务。

△ 对未见指令（旋转）的泛化编辑能力

这表明，VGGT-Edit所学到的，并非简单的编辑模板匹配，而是开始真正理解文本语义如何映射到3D空间中的几何与属性变化。这种对“空间变化”本身的泛化理解能力，可能比“生成一个静态3D场景”更为重要。

因为对于未来的空间智能而言，最核心的能力或许不在于“创造一个世界”，而在于能否像人类一样，对这个已存在的世界进行自由、稳定、实时的感知与修改。VGGT-Edit，正将我们向这一目标推进了一步。

论文链接：https://arxiv.org/abs/2605.15186

来源:https://36kr.com/p/3827152888730503

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：Agent Skills架构设计指南：老板催促时如何冷静规划下一篇：海螺AI制作市场调研报告的方法与效果