首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
北大港中文与上海AI Lab联合发布VGGT-Edit 3D场景编辑工具120倍速

北大港中文与上海AI Lab联合发布VGGT-Edit 3D场景编辑工具120倍速

热心网友
85
转载
2026-05-28

3D生成技术已经能够“看见”世界,但距离“修改”世界仍有差距——这正是当前领域面临的核心挑战。

5秒完成3D场景编辑,北大&港中文&上海AILab搞出VGGT-Edit,120倍加速太炸了

从NeRF到3D Gaussian Splatting,再到VGGT、π³等前馈式3D重建模型,技术迭代日新月异。如今,仅凭几张图片,即可在数秒内构建出完整的3D场景。

然而,瓶颈也随之显现。现有模型虽能理解三维结构,却难以执行精准的编辑指令。例如,重建一个房间后,用户希望“将椅子移至窗边”、“移除中间的椅子”或“将灰色皮沙发更换为白色长毛款式”,这些操作仍充满挑战。

更棘手的是,复杂编辑常导致模型崩溃:物体在不同视角下时隐时现,未修改的背景区域发生畸变,一致性难以维持。

为攻克此难题,来自北京大学、香港中文大学、上海人工智能实验室、南洋理工大学等机构的研究团队,联合推出了原生3D编辑框架:VGGT-Edit

其核心思路直击要害:摒弃迂回的2D编辑路径,直接在3D空间内完成修改。

在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性与推理速度三大指标上均超越现有方案,单次编辑耗时仅约5秒,最高可实现120倍的速度提升。

症结所在:传统2D编辑思维的局限

当前主流的3D编辑方法,本质上仍未脱离“2D思维”:将场景分解为多个2D视图,分别编辑后再试图融合回3D。

由于各视角独立处理,不可避免地引发一系列问题:

  • 物体在某一视角被删除,另一视角却依然存在;
  • 背景区域发生非预期的位移或变形;
  • 物体边缘出现重影、闪烁等伪影。

最终结果往往像是“多张硬性合成的图片”,而非一个稳定、连贯的三维空间。

这对于机器人导航、增强现实/虚拟现实(AR/VR)、空间智能等应用而言是致命缺陷——它们需要的是整个3D世界在所有角度都保持逻辑一致,而非仅某个视角正确。

迈向实用:原生3D编辑框架的突破

VGGT-Edit的设计哲学非常明确:既然问题源于2D转换,便应彻底转向原生3D编辑。

该框架基于VGGT-Like前馈重建模型构建,继承了其高效、快速的3D表示能力。但创新之处在于,团队并未选择全场景重新生成,而是引入了一种巧妙的残差场预测(Residual Field Prediction)机制。

简而言之,模型首先保留原始场景稳定的三维结构,仅学习需要发生变化的局部区域,例如:

  • 物体的位移调整;
  • 材质或颜色的替换;
  • 特定物体的删除或新增。

这一过程可概括为一个简洁公式:新场景 = 原场景 + 局部残差变化

该设计的显著优势在于:由于大部分区域无需改动,模型无需重新生成整个场景,仅聚焦于局部修改。因此,未被编辑的背景区域能保持高度稳定,这是VGGT-Edit与许多传统方法最直观的区别。

语义对齐:文本指令与3D空间的深度耦合

研究团队发现,若仅将文本指令简单输入模型,常导致模型理解“要改什么”,却无法精准定位“该改哪里”。

为此,VGGT-Edit设计了一套深度同步文本注入(Depth-Synchronized Text Injection)机制。

其本质是让文本语义信息与3D空间特征在相同的深度层级上持续对齐与融合。

不同于传统方法仅在前期注入一次文本,VGGT-Edit在多个关键网络层持续融合语义信息,确保模型在整个生成过程中始终明确:

  • 当前应修改哪个空间区域;
  • 修改的具体目标是什么;
  • 该区域在三维空间中的确切位置。

此外,团队还设计了视角重要性加权策略。由于不同视角的可靠度不同(如存在遮挡或局部可见),模型能自动评估各视角的可信度,从而生成更稳定、一致的多视角编辑结果。

专用架构:为3D编辑量身定制的编辑头

除了整体框架,VGGT-Edit另一个核心组件是专门为3D编辑任务设计的编辑头(Editing Head)

研究发现,VGGT-Like模型原有的重建头更侧重于“如何复原场景”,而3D编辑的核心需求是:如何在保持全局稳定的前提下,精准修改局部。

因此,VGGT-Edit额外引入了一个编辑分支,专门预测场景中的局部变化。该编辑头直接作用于3D表示空间,并输出对应的残差场。本质上,它学习的是:

  • 哪些区域应保持原状;
  • 哪些区域需执行编辑;
  • 编辑后如何保证多视角一致性。

相比全场景重生成,这种定向修改的方式更稳定、更高效,也是让前馈式重建模型获得强大编辑能力的关键一步。

数据驱动:专为3D编辑构建的大规模数据集

为训练VGGT-Edit,团队构建了全新的3D编辑数据集DeltaScene,规模近10万组,覆盖客厅、办公室、住宅、商业空间等多种场景。

更重要的是,数据生成流程实现了高度自动化。利用Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max等工具,自动完成编辑指令生成、目标识别、多视角编辑与3D一致性过滤,最终产出真正满足“多视角几何一致”要求的高质量训练数据。

对于原生3D编辑而言,这一步至关重要——模型需要学习的不仅是“图像层面的变化”,更是同一编辑指令在不同视角下如何始终保持三维空间的一致性。

速度革命:3D编辑迈入近实时交互时代

实验结果验证了该路径的有效性。在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性与推理速度上均领先现有方法。

尤其在添加家具、调整物体位置、修改材质等复杂任务中,传统方法常产生明显的“贴图感”与几何漂移,而VGGT-Edit的结果则更接近真实、稳定的三维空间。

速度提升尤为关键:论文显示,VGGT-Edit单次编辑仅需约5秒,相比依赖长时间优化的传统方法,最高可实现120倍加速。

这意味着3D编辑首次真正接近实时交互。对于机器人操作、数字孪生、AR/VR等领域,这一进展意义重大——只有当编辑速度足够快,3D世界才能真正成为可实时操作与交互的空间。

理解空间:模型学会泛化编辑能力

论文中一项有趣实验展示了模型的泛化能力。研究人员输入了一条训练中未出现的指令——“将中间椅子顺时针旋转90度”,模型依然成功完成了编辑。

这表明VGGT-Edit学到的并非固定模板,而是开始真正理解文本语义如何映射到三维空间的变化。

这种能力或许比“生成3D场景”本身更为重要。对于空间智能的未来,核心能力或许不在于“创造一个世界”,而在于能否像人类一样,自由、稳定、实时地修改与塑造这个世界。VGGT-Edit,正将这一愿景向前推进了一步。

论文链接:https://arxiv.org/abs/2605.15186

来源:https://www.qbitai.com/2026/05/425870.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Notion AI运营指南:自动归纳用户反馈
AI资讯
Notion AI运营指南:自动归纳用户反馈

其实,想在 Notion 中高效搞定用户反馈的自动归纳,并不复杂。下面这四种 AI 方法,基本覆盖了从单条处理到全局分析的常见场景。 如果你也在用 Notion 收集用户反馈——无论是问卷、邮件、客服记录,还是社群发言——但总觉得信息碎片化严重,难以提炼共性问题和核心诉求,那很可能是因为缺少一套结构

热心网友
05.28
AI给出的答案为何总不符期望?原因解析
AI资讯
AI给出的答案为何总不符期望?原因解析

大模型能力强大,但提问方式不当会导致结果不理想。核心在于精准提问,通过角色设定、背景介绍、明确任务、实现路径和输出要求这五个关键步骤逐步细化问题,才能大幅提升AI回答的质量和精准度。

热心网友
05.28
新一代AI办公软件开启未来协作新视野
AI教程
新一代AI办公软件开启未来协作新视野

科技的浪潮正以前所未有的速度重塑着我们的工作场景。曾被视为未来概念的AI办公软件,如今已悄然成为现实工具箱中的一员。面对这个瞬息万变的时代,如何借助新一代AI工具来撬动团队效率、重塑协作模式,无疑是摆在每一位职场人面前的核心课题。今天,我们就来深入聊聊这场正在发生的办公革命。 当AI遇上办公:从工具

热心网友
05.28
2026年AI排名优化十大信赖公司精选
业界动态
2026年AI排名优化十大信赖公司精选

综合2026年行业公开数据及各企业在GEO(生成式引擎优化)领域的技术落地成果,本次重点推荐的前三家公司为知道人工智能实验室(KnowAI)、深维智信、赛博推;其余七家则各具特色,在细分方向上均有显著建树。 评选标准 本次评选基于2026年国内AI营销与GEO优化服务市场的实际发展情况,从以下四个维

热心网友
05.28
即梦AI照片拼贴墙创意排版效果制作方法
AI资讯
即梦AI照片拼贴墙创意排版效果制作方法

想要利用即梦AI快速创作出小红书上备受欢迎的照片拼贴墙?让多张生活照、产品图或旅行照自动组合成富有呼吸感、包含留白节奏的创意展示页面,避免千篇一律的九宫格堆砌。 核心方法只需三步:首先通过提示词让AI构建整体骨架,接着导入照片并固定位置坐标,最后运用光影、材质和留白技巧进行微调,注入宛如空气流动般的

热心网友
05.28

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Paralives首发销量充足 支撑后续开发无需DLC
游戏攻略
Paralives首发销量充足 支撑后续开发无需DLC

《Paralives》开发商承诺所有后续更新永久免费,拒绝付费DLC模式。15人小团队依靠首发销售额即可支撑多年运营,无需依赖额外内容包维持开发,展现了与《模拟人生》系列不同的差异化竞争思路。

热心网友
05.28
比亚迪宋Ultra DM-i上市12.99万 承诺城市领航安全兜底
业界动态
比亚迪宋Ultra DM-i上市12.99万 承诺城市领航安全兜底

2025年5月28日,比亚迪王朝网全新力作——宋Ultra DM-i正式推向市场,共推出5款配置车型,官方售价区间为12 99万至15 99万元。此次定价策略极具突破性:一款拥有310公里纯电续航能力的中型插电混动SUV,直接下探至13万元级别市场。作为王朝网络的新旗舰,该车明确瞄准高频出行需求场景

热心网友
05.28
折叠屏iPhone Ultra外观已定,第三方保护壳亮相
科技数码
折叠屏iPhone Ultra外观已定,第三方保护壳亮相

先来关注一个有趣的细节:苹果首款折叠屏手机,传闻将于今年秋季正式亮相。产品命名可能为iPhone Ultra,也有媒体称之为iPhone Fold——无论最终叫什么,这都将标志着苹果在折叠形态领域首次“出手”。 近日,配件厂商iFunSmart已率先上架iPhone Ultra的首批保护壳——这绝非

热心网友
05.28
山寨币ETF批量上市后市场表现分析 哪些项目值得关注
web3.0
山寨币ETF批量上市后市场表现分析 哪些项目值得关注

山寨币ETF迎来批量上市潮,首批项目市场表现如何?一文分析 Binance币安 欧易OKX ️ Huobi火币️ 最近,市场出现了一个不容忽视的新动向:XRP、DOGE、LTC、HBAR等现货ETF已经悄然登陆美国市场。与此同时,A VAX、LINK等资产的同类产品也正在审批流程中。进入11月以来,

热心网友
05.28
即使在大幅涨价后 Steam Deck 玩家热情依旧再次售罄
游戏攻略
即使在大幅涨价后 Steam Deck 玩家热情依旧再次售罄

近日,公司对SteamDeck1TBOLED版涨价300美元至949美元,上架短短不到24小时便再度售罄。据外界分析,该公司从中国大量补货并分批投放库存,高溢价未影响众多玩家的抢购热情与速度,其人气极其旺盛无比足以支撑快速清空。

热心网友
05.28