5秒3D场景编辑北大港中文等推VGGT-Edit 120倍加速

首页

AI资讯

热心网友

转载

2026-05-28

# 3D世界已能“看懂”，但尚未学会“修改” 从NeRF到3D Gaussian Splatting，再到VGGT、π³等前馈式3D重建模型，该领域的推进速度显著加快——仅需数张图片，就能在短短几秒内重建出完整的3D场景。然而，技术瓶颈也随之凸显。这些模型虽然具备理解三维空间的能力，却仍无法直接修改三维世界。你可以让模型重建一个房间，但很难真正下达指令：将椅子移到窗边，删除中间那把椅子，把灰色皮沙发换成白色长毛沙发。更棘手的是，一旦涉及复杂编辑，现有方案往往迅速失效——某些视角里椅子消失了，换个视角椅子又再次出现；明明未修改的背景，也跟着一起变形。为攻克这一难题，来自**北京大学**、**香港中文大学**、**上海AI Lab**、**NTU**等机构的研究团队，提出了一套原生3D编辑框架：**VGGT-Edit**。核心宗旨只有一个—— **不再绕回2D，而是直接在3D空间内完成编辑。** 在DeltaScene测试集上，VGGT-Edit在语义一致性、多视角稳定性、推理速度三个维度均超越现有方法，单次编辑仅需约**5秒**，最高实现**120倍**加速。 ## 问题根源始终在于2D 目前大多数3D编辑方法，本质上仍是“2D思维”——先将场景拆解成多张2D图片，逐一编辑，再重新拼接为3D。但由于每个视角独立处理，极易出现： - 一个视角里椅子已被删除； - 换个角度椅子又再次现身； - 背景区域随之漂移； - 物体边缘产生重影和闪烁。 ![3D编辑方法的比较](https://img.318050.com/uploads/20260528/17799423466a17c3caa6238924373986.webp) 许多结果更像是“在不同角度生硬拼贴出的图像”，而非真正稳定一致的3D空间。对于机器人、AR/VR、空间智能等场景，这几乎是致命问题——这些领域真正需要的，不是“某一个视角看起来正确”，而是整个3D世界始终稳定且一致。 ## 原生3D编辑，从概念迈向实用 VGGT-Edit的核心思路十分直接：既然问题源于2D，那就不要再绕回2D。整个框架建立在VGGT-Like前馈式重建模型之上，继承了其快速、高效的3D表示能力。但巧妙之处在于，团队并未选择重新生成整个场景，而是提出了一种精妙机制： **残差场预测（Residual Field Prediction）。** ![VGGT-Edit技术概览](https://img.318050.com/uploads/20260528/17799423476a17c3cb5016e030014792.webp) 打个比方：模型先保留原始场景稳定的3D结构，然后只学习“哪些区域需要变化”，例如： - 椅子向右移动； - 沙发材质发生改变； - 删除某个物体； - 新增一件家具。这些变化都被表示为：**新场景 = 原场景 + 局部残差变化** 这一设计有一个显著优势——由于大部分区域本就不需要变化，模型无需重新“生成整个世界”，只需修改局部区域。结果就是未改动的背景保持高度稳定。这也是VGGT-Edit与众多现有方案最明显的区别之一。 ## 文本语义，首次真正“对齐”3D空间研究团队发现，如果仅简单地将一句文本输入模型，很容易出现这种情况——模型知道“你想改什么”，但不知道“该改哪里”。为解决这一问题，VGGT-Edit设计了一套关键机制： **深度同步文本注入（Depth-Synchronized Text Injection）** 本质上可理解为：让文本语义与3D空间特征在同一个深度层级里持续同步。传统方法通常只在前面注入一次文本信息，但VGGT-Edit会在多个关键层持续融合文本语义。这样一来，在整个3D生成过程中，模型始终清楚： - 当前应修改哪个区域； - 修改目标是什么； - 空间位置在哪里。与此同时，团队还专门设计了一套“**视角重要性加权**”——因为并非所有视角都同样可靠，有些角度可能被遮挡，有些视角只能看到半个物体。 VGGT-Edit会自动判断哪个视角更值得信赖，最终让多视角编辑结果更加稳定。 ## 一个真正面向“3D编辑”的编辑头除整体框架外，VGGT-Edit还有一个关键组件——**专门面向3D编辑任务设计的编辑头**。研究团队发现，对于VGGT-Like模型而言，原有的重建Head更关注“如何恢复场景”，但3D编辑真正解决的问题是：**如何在保持整体稳定的前提下，仅修改局部区域。** 因此，VGGT-Edit额外设计了一套编辑分支，专门预测场景中的局部变化。该编辑Head直接作用于3D表示空间，并输出对应的残差场变化。本质上，它学习的是： - 哪些区域应保持不变； - 哪些区域需要被编辑； - 编辑后如何保持多视角一致性。相比直接重新生成整个场景，这种方式更稳定、更高效——这也是让VGGT-Like前馈重建模型具备编辑能力的关键一步。 ## 一个10万规模的数据集，专门训练“3D编辑” 为了训练VGGT-Edit，团队专门构建了一个全新的3D编辑数据集**DeltaScene**，规模接近10万组，涵盖客厅、办公室、住宅、商业空间等多种场景。 ![DeltaScene数据集概述](https://img.318050.com/uploads/20260528/17799423476a17c3cbc2fba608444704.webp) 更关键的是，整个数据生成流程高度自动化。团队借助Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max，自动完成编辑指令生成、目标识别、多视角编辑、3D一致性过滤，最终得到真正满足“多视角几何一致”的训练数据。 ![DeltaScene数据构造流程](https://img.318050.com/uploads/20260528/17799423486a17c3cc40295461231689.webp) 对于原生3D编辑而言，这一步至关重要——模型真正需要学习的，不只是“图像变化”，而是同一编辑在不同视角下如何始终保持空间一致。 ## 3D编辑，首次接近实时交互从结果来看，这条路线确实有效。在DeltaScene测试集上，VGGT-Edit在语义一致性、多视角稳定性、推理速度三个维度均超越现有方法。尤其是在添加家具、调整位置、修改材质等复杂任务中，许多传统方法仍会出现明显的“贴图感”和几何漂移，但VGGT-Edit生成的结果明显更像一个真实稳定的3D空间。 ![不同3D编辑任务的定性比较](https://img.318050.com/uploads/20260528/17799423486a17c3ccd84f8581215128.webp) 更关键的是速度——论文中，VGGT-Edit单次编辑仅需约**5秒**，相比许多需要长时间优化的传统方法，最高可实现**120倍**加速。这意味着3D编辑首次真正接近实时交互。对于机器人、数字孪生、AR/VR等方向来说，这种变化意义重大——只有当编辑速度足够快，3D世界才真正可能变成“可交互”的世界。 ![在DeltaScene数据集上的定量结果](https://img.318050.com/uploads/20260528/17799423496a17c3cd8d661037223490.webp) ## 模型开始真正理解“空间变化” 论文中还有一个非常有趣的实验。研究人员输入了一条训练中从未出现过的指令——“将中间椅子顺时针旋转90度。” 结果模型依然成功完成了编辑。 ![对未见过的指令进行泛化](https://img.318050.com/uploads/20260528/17799423496a17c3cdee95d701864162.webp) 这说明VGGT-Edit学到的，并不只是固定模板——它真正开始理解文本语义如何映射到3D空间变化。而这，或许比“会生成3D”本身更重要。因为对于空间智能来说，未来真正关键的能力，也许不是“生成一个世界”，而是能否像人一样，自由、稳定、实时地修改这个世界。 VGGT-Edit，正在将这件事推进一步。 *论文链接：https://arxiv.org/abs/2605.15186*

来源:https://www.aitntnews.com/newDetail.html?newId=25571

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：上海仪电等联合发布国内首个光互连光交换GPU超节点光跃下一篇：为电脑所有Agent统一技能库