北大港中文上海AI Lab联手推出VGGT-Edit 3D场景编辑效率提升120倍
3D场景生成技术如今已能“看懂”世界,但距离“灵活修改”仍有巨大鸿沟。
从NeRF到3D Gaussian Splatting,再到VGGT、π³等前馈式重建模型,技术迭代日新月异——仅凭几张图片,短短数秒,一个完整的3D场景便能呈现眼前。
然而,瓶颈也在于此。这些模型虽已学会“理解”三维结构,却远未掌握“编辑”三维世界的核心能力。你可以轻松重建一个房间,却难以对其下达精确指令:
“请将椅子移至窗边,移除中间那把,并将灰色皮质沙发替换为白色长绒款式。”
更棘手的是,一旦涉及此类复杂编辑,现有方法往往漏洞百出——从某个视角看物体已消失,换个角度却又如“幽灵”般重现;明明只想修改前景物体,背景却随之扭曲变形。
针对这一核心挑战,来自北京大学、香港中文大学、上海人工智能实验室、南洋理工大学等机构的研究团队,提出了一套创新解决方案:VGGT-Edit。其核心思路直击要害:
彻底绕开繁琐的2D转换路径,直接在3D空间内完成编辑操作。
在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性与推理速度三大关键指标上全面领先现有方案,单次编辑耗时仅约5秒,最高可实现120倍的速度提升。
问题根源:传统方法困于2D思维
当前绝大多数3D编辑方法,本质上仍未脱离“2D思维”的局限。它们通常先将3D场景分解为多个2D视角图像,对每张图像独立进行编辑,再试图将修改结果拼接回3D整体。
这种“分而治之”的策略带来了根本性难题:由于各视角被独立处理,编辑结果在多视角间无法保持一致。从而导致:
- 某一视角中物体已被删除;
- 转换角度后,该物体依然存在;
- 本应保持不变的背景区域发生畸变;
- 物体边缘出现重影与闪烁等视觉瑕疵。

△ 传统基于2D的编辑方法导致的多视角不一致问题
许多输出结果更像“在不同角度强行合成的图片集合”,而非内在统一、稳定的3D空间。对于追求高可靠性的机器人导航、增强现实/虚拟现实应用乃至未来的空间智能而言,这种不一致性是致命缺陷——它们需要的不是“某个角度正确”,而是整个3D世界在任何视角下均保持逻辑自洽。
原生3D编辑:从概念走向实用
VGGT-Edit的应对策略极为直接:既然问题源于2D转换的损耗,便彻底摒弃这一路径。
整个框架构建于VGGT等高效的前馈式3D重建模型之上,继承了其快速生成紧凑3D表示的能力。但团队的巧妙之处在于,并未选择笨拙地重新生成整个场景,而是引入了一项精妙机制:
残差场预测。

△ VGGT-Edit的核心“残差场预测”思路
这一概念可简单理解为:模型首先稳固捕捉原始场景的3D结构,随后仅学习“哪些部分需要发生变化”。例如:
- 椅子需向右平移;
- 沙发表面材质需从皮质改为绒布;
- 特定物体需要移除;
- 需添加新的家具物件。
所有编辑操作均被统一表达为一个简洁公式:新场景 = 原场景 + 局部残差变化。
此设计带来显著优势:由于场景大部分区域无需改动,模型不必费力“重新构想整个世界”,只需聚焦于局部修改。其结果便是,未被编辑的背景区域能保持高度稳定性,这正是VGGT-Edit与众多现有方法最直观的差异之一。
文本语义与3D空间的深度对齐
研究团队在实践中发现,若仅将文本指令(如“移动椅子”)简单输入模型,极易出现“指令理解偏差”——模型大致知道修改目标,却难以精确定位具体区域。
为解决这一“对齐”难题,VGGT-Edit设计了一套关键机制:深度同步文本注入。
其本质是让文本语义信息与3D空间特征,在模型处理的多个层级中持续、同步地进行融合。传统方法往往仅在网络前端注入一次文本信息,而VGGT-Edit则在多个关键层反复融合文本语义。这使得模型在形成3D表示的整个过程中,始终能明确:
- 当前应修改哪个空间区域;
- 修改的具体目标为何;
- 目标在3D空间中的确切位置。
同时,团队还设计了一套视角重要性加权策略。因为在多视角数据中,并非所有视角都同等可靠——有些视角可能被遮挡,有些仅能看到物体局部。VGGT-Edit能自动评估并为更清晰、更完整的视角赋予更高权重,从而使最终的多视角编辑结果更加稳定一致。
专为“编辑”任务设计的核心模块
除整体框架创新外,VGGT-Edit还包含一个至关重要的组成部分——一个专门为3D编辑任务定制的编辑头。
团队发现,对于VGGT这类原生用于重建的模型,其输出头更专注于“如何精准还原场景”。但3D编辑的核心需求截然不同,它需要解决的是:如何在保持整体场景稳定的前提下,精准且一致地修改局部区域。
因此,VGGT-Edit额外引入了一个独立的编辑分支,专门用于预测场景中需要发生的局部变化。这个编辑头直接作用于模型的3D表示空间,并输出对应的残差场。本质上,它学习的是:
- 哪些区域应保持原状;
- 哪些区域是编辑目标;
- 编辑后如何确保所有视角的结果一致。
相比直接重新生成整个场景,这种“外科手术式”的局部修改不仅结果更稳定,计算效率也大幅提升。这正是让VGGT等快速重建模型获得实用化编辑能力的关键一步。
十万级数据集:专为训练“3D编辑”模型打造
为有效训练VGGT-Edit,团队构建了一个全新的、规模近10万样本的3D编辑数据集——DeltaScene。它覆盖了客厅、办公室、住宅、商业空间等多种室内场景类型。

△ DeltaScene数据集示例
更关键的是,其数据生成流程实现了高度自动化。研究团队利用Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max等一系列先进模型,自动完成编辑指令生成、目标物体识别、多视角编辑模拟,并经过严格的3D一致性过滤,最终得到真正满足“多视角几何一致”要求的高质量训练数据。

△ 自动化数据生成与过滤流程
对于原生3D编辑任务而言,这一步至关重要。模型需要学习的,不仅是图像层面的像素变化,更是同一条编辑指令如何在所有不同视角下,引发协调、一致的3D空间变化。
3D编辑首次逼近实时交互门槛
实验结果表明,这条“原生3D编辑”的技术路线是行之有效的。
在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性和推理速度这三个核心评估维度上,均超越了现有主流方法。
尤其在添加家具、调整物体位置、修改材质属性等复杂编辑任务中,许多传统方法产生的输出仍带有明显的“贴图感”和几何错位,而VGGT-Edit生成的结果,则更接近一个真实、稳固的3D空间。

△ VGGT-Edit与其他方法的编辑效果对比
速度的提升更为关键。根据论文数据,VGGT-Edit完成单次编辑仅需大约5秒。相比于那些需要长时间迭代优化的传统方法,最高实现了120倍的加速。这意味着,3D内容编辑首次真正逼近了“实时交互”的体验门槛。
对于机器人实时环境重构、数字孪生更新、AR/VR内容创作等领域而言,这种速度的飞跃意义重大。只有当编辑操作足够迅捷,3D世界才能真正从一个静态的“观看对象”,转变为一个可以实时、动态操作的“交互空间”。

△ 快速编辑能力开启实时交互新可能
模型开始理解“空间变化”的本质
论文中还有一个颇具启发性的发现。研究人员输入了一条模型在训练中从未见过的指令:“将中间那把椅子顺时针旋转90度。”
结果,模型依然成功地完成了编辑任务。

△ 对未见指令(旋转)的泛化编辑能力
这表明,VGGT-Edit所学到的,并非简单的编辑模板匹配,而是开始真正理解文本语义如何映射到3D空间中的几何与属性变化。这种对“空间变化”本身的泛化理解能力,可能比“生成一个静态3D场景”更为重要。
因为对于未来的空间智能而言,最核心的能力或许不在于“创造一个世界”,而在于能否像人类一样,对这个已存在的世界进行自由、稳定、实时的感知与修改。VGGT-Edit,正将我们向这一目标推进了一步。
论文链接:https://arxiv.org/abs/2605.15186
相关攻略
其实,想在 Notion 中高效搞定用户反馈的自动归纳,并不复杂。下面这四种 AI 方法,基本覆盖了从单条处理到全局分析的常见场景。 如果你也在用 Notion 收集用户反馈——无论是问卷、邮件、客服记录,还是社群发言——但总觉得信息碎片化严重,难以提炼共性问题和核心诉求,那很可能是因为缺少一套结构
大模型能力强大,但提问方式不当会导致结果不理想。核心在于精准提问,通过角色设定、背景介绍、明确任务、实现路径和输出要求这五个关键步骤逐步细化问题,才能大幅提升AI回答的质量和精准度。
科技的浪潮正以前所未有的速度重塑着我们的工作场景。曾被视为未来概念的AI办公软件,如今已悄然成为现实工具箱中的一员。面对这个瞬息万变的时代,如何借助新一代AI工具来撬动团队效率、重塑协作模式,无疑是摆在每一位职场人面前的核心课题。今天,我们就来深入聊聊这场正在发生的办公革命。 当AI遇上办公:从工具
综合2026年行业公开数据及各企业在GEO(生成式引擎优化)领域的技术落地成果,本次重点推荐的前三家公司为知道人工智能实验室(KnowAI)、深维智信、赛博推;其余七家则各具特色,在细分方向上均有显著建树。 评选标准 本次评选基于2026年国内AI营销与GEO优化服务市场的实际发展情况,从以下四个维
想要利用即梦AI快速创作出小红书上备受欢迎的照片拼贴墙?让多张生活照、产品图或旅行照自动组合成富有呼吸感、包含留白节奏的创意展示页面,避免千篇一律的九宫格堆砌。 核心方法只需三步:首先通过提示词让AI构建整体骨架,接着导入照片并固定位置坐标,最后运用光影、材质和留白技巧进行微调,注入宛如空气流动般的
热门专题
热门推荐
《Paralives》开发商承诺所有后续更新永久免费,拒绝付费DLC模式。15人小团队依靠首发销售额即可支撑多年运营,无需依赖额外内容包维持开发,展现了与《模拟人生》系列不同的差异化竞争思路。
2025年5月28日,比亚迪王朝网全新力作——宋Ultra DM-i正式推向市场,共推出5款配置车型,官方售价区间为12 99万至15 99万元。此次定价策略极具突破性:一款拥有310公里纯电续航能力的中型插电混动SUV,直接下探至13万元级别市场。作为王朝网络的新旗舰,该车明确瞄准高频出行需求场景
先来关注一个有趣的细节:苹果首款折叠屏手机,传闻将于今年秋季正式亮相。产品命名可能为iPhone Ultra,也有媒体称之为iPhone Fold——无论最终叫什么,这都将标志着苹果在折叠形态领域首次“出手”。 近日,配件厂商iFunSmart已率先上架iPhone Ultra的首批保护壳——这绝非
山寨币ETF迎来批量上市潮,首批项目市场表现如何?一文分析 Binance币安 欧易OKX ️ Huobi火币️ 最近,市场出现了一个不容忽视的新动向:XRP、DOGE、LTC、HBAR等现货ETF已经悄然登陆美国市场。与此同时,A VAX、LINK等资产的同类产品也正在审批流程中。进入11月以来,
近日,公司对SteamDeck1TBOLED版涨价300美元至949美元,上架短短不到24小时便再度售罄。据外界分析,该公司从中国大量补货并分批投放库存,高溢价未影响众多玩家的抢购热情与速度,其人气极其旺盛无比足以支撑快速清空。





