首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
5秒3D场景编辑 北大港中文等推VGGT-Edit 120倍加速

5秒3D场景编辑 北大港中文等推VGGT-Edit 120倍加速

热心网友
11
转载
2026-05-28
# 3D世界已能“看懂”,但尚未学会“修改” 从NeRF到3D Gaussian Splatting,再到VGGT、π³等前馈式3D重建模型,该领域的推进速度显著加快——仅需数张图片,就能在短短几秒内重建出完整的3D场景。 然而,技术瓶颈也随之凸显。这些模型虽然具备理解三维空间的能力,却仍无法直接修改三维世界。你可以让模型重建一个房间,但很难真正下达指令:将椅子移到窗边,删除中间那把椅子,把灰色皮沙发换成白色长毛沙发。 更棘手的是,一旦涉及复杂编辑,现有方案往往迅速失效——某些视角里椅子消失了,换个视角椅子又再次出现;明明未修改的背景,也跟着一起变形。 为攻克这一难题,来自**北京大学**、**香港中文大学**、**上海AI Lab**、**NTU**等机构的研究团队,提出了一套原生3D编辑框架:**VGGT-Edit**。 核心宗旨只有一个—— **不再绕回2D,而是直接在3D空间内完成编辑。** 在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性、推理速度三个维度均超越现有方法,单次编辑仅需约**5秒**,最高实现**120倍**加速。 ## 问题根源始终在于2D 目前大多数3D编辑方法,本质上仍是“2D思维”——先将场景拆解成多张2D图片,逐一编辑,再重新拼接为3D。 但由于每个视角独立处理,极易出现: - 一个视角里椅子已被删除; - 换个角度椅子又再次现身; - 背景区域随之漂移; - 物体边缘产生重影和闪烁。 ![3D编辑方法的比较](https://img.318050.com/uploads/20260528/17799423466a17c3caa6238924373986.webp) 许多结果更像是“在不同角度生硬拼贴出的图像”,而非真正稳定一致的3D空间。 对于机器人、AR/VR、空间智能等场景,这几乎是致命问题——这些领域真正需要的,不是“某一个视角看起来正确”,而是整个3D世界始终稳定且一致。 ## 原生3D编辑,从概念迈向实用 VGGT-Edit的核心思路十分直接:既然问题源于2D,那就不要再绕回2D。 整个框架建立在VGGT-Like前馈式重建模型之上,继承了其快速、高效的3D表示能力。但巧妙之处在于,团队并未选择重新生成整个场景,而是提出了一种精妙机制: **残差场预测(Residual Field Prediction)。** ![VGGT-Edit技术概览](https://img.318050.com/uploads/20260528/17799423476a17c3cb5016e030014792.webp) 打个比方:模型先保留原始场景稳定的3D结构,然后只学习“哪些区域需要变化”,例如: - 椅子向右移动; - 沙发材质发生改变; - 删除某个物体; - 新增一件家具。 这些变化都被表示为:**新场景 = 原场景 + 局部残差变化** 这一设计有一个显著优势——由于大部分区域本就不需要变化,模型无需重新“生成整个世界”,只需修改局部区域。结果就是未改动的背景保持高度稳定。 这也是VGGT-Edit与众多现有方案最明显的区别之一。 ## 文本语义,首次真正“对齐”3D空间 研究团队发现,如果仅简单地将一句文本输入模型,很容易出现这种情况——模型知道“你想改什么”,但不知道“该改哪里”。 为解决这一问题,VGGT-Edit设计了一套关键机制: **深度同步文本注入(Depth-Synchronized Text Injection)** 本质上可理解为:让文本语义与3D空间特征在同一个深度层级里持续同步。 传统方法通常只在前面注入一次文本信息,但VGGT-Edit会在多个关键层持续融合文本语义。这样一来,在整个3D生成过程中,模型始终清楚: - 当前应修改哪个区域; - 修改目标是什么; - 空间位置在哪里。 与此同时,团队还专门设计了一套“**视角重要性加权**”——因为并非所有视角都同样可靠,有些角度可能被遮挡,有些视角只能看到半个物体。 VGGT-Edit会自动判断哪个视角更值得信赖,最终让多视角编辑结果更加稳定。 ## 一个真正面向“3D编辑”的编辑头 除整体框架外,VGGT-Edit还有一个关键组件——**专门面向3D编辑任务设计的编辑头**。 研究团队发现,对于VGGT-Like模型而言,原有的重建Head更关注“如何恢复场景”,但3D编辑真正解决的问题是:**如何在保持整体稳定的前提下,仅修改局部区域。** 因此,VGGT-Edit额外设计了一套编辑分支,专门预测场景中的局部变化。 该编辑Head直接作用于3D表示空间,并输出对应的残差场变化。本质上,它学习的是: - 哪些区域应保持不变; - 哪些区域需要被编辑; - 编辑后如何保持多视角一致性。 相比直接重新生成整个场景,这种方式更稳定、更高效——这也是让VGGT-Like前馈重建模型具备编辑能力的关键一步。 ## 一个10万规模的数据集,专门训练“3D编辑” 为了训练VGGT-Edit,团队专门构建了一个全新的3D编辑数据集**DeltaScene**,规模接近10万组,涵盖客厅、办公室、住宅、商业空间等多种场景。 ![DeltaScene数据集概述](https://img.318050.com/uploads/20260528/17799423476a17c3cbc2fba608444704.webp) 更关键的是,整个数据生成流程高度自动化。 团队借助Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max,自动完成编辑指令生成、目标识别、多视角编辑、3D一致性过滤,最终得到真正满足“多视角几何一致”的训练数据。 ![DeltaScene数据构造流程](https://img.318050.com/uploads/20260528/17799423486a17c3cc40295461231689.webp) 对于原生3D编辑而言,这一步至关重要——模型真正需要学习的,不只是“图像变化”,而是同一编辑在不同视角下如何始终保持空间一致。 ## 3D编辑,首次接近实时交互 从结果来看,这条路线确实有效。 在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性、推理速度三个维度均超越现有方法。 尤其是在添加家具、调整位置、修改材质等复杂任务中,许多传统方法仍会出现明显的“贴图感”和几何漂移,但VGGT-Edit生成的结果明显更像一个真实稳定的3D空间。 ![不同3D编辑任务的定性比较](https://img.318050.com/uploads/20260528/17799423486a17c3ccd84f8581215128.webp) 更关键的是速度——论文中,VGGT-Edit单次编辑仅需约**5秒**,相比许多需要长时间优化的传统方法,最高可实现**120倍**加速。 这意味着3D编辑首次真正接近实时交互。 对于机器人、数字孪生、AR/VR等方向来说,这种变化意义重大——只有当编辑速度足够快,3D世界才真正可能变成“可交互”的世界。 ![在DeltaScene数据集上的定量结果](https://img.318050.com/uploads/20260528/17799423496a17c3cd8d661037223490.webp) ## 模型开始真正理解“空间变化” 论文中还有一个非常有趣的实验。研究人员输入了一条训练中从未出现过的指令——“将中间椅子顺时针旋转90度。” 结果模型依然成功完成了编辑。 ![对未见过的指令进行泛化](https://img.318050.com/uploads/20260528/17799423496a17c3cdee95d701864162.webp) 这说明VGGT-Edit学到的,并不只是固定模板——它真正开始理解文本语义如何映射到3D空间变化。 而这,或许比“会生成3D”本身更重要。因为对于空间智能来说,未来真正关键的能力,也许不是“生成一个世界”,而是能否像人一样,自由、稳定、实时地修改这个世界。 VGGT-Edit,正在将这件事推进一步。 *论文链接:https://arxiv.org/abs/2605.15186*
来源:https://www.aitntnews.com/newDetail.html?newId=25571
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Notion AI运营指南:自动归纳用户反馈
AI资讯
Notion AI运营指南:自动归纳用户反馈

其实,想在 Notion 中高效搞定用户反馈的自动归纳,并不复杂。下面这四种 AI 方法,基本覆盖了从单条处理到全局分析的常见场景。 如果你也在用 Notion 收集用户反馈——无论是问卷、邮件、客服记录,还是社群发言——但总觉得信息碎片化严重,难以提炼共性问题和核心诉求,那很可能是因为缺少一套结构

热心网友
05.28
AI给出的答案为何总不符期望?原因解析
AI资讯
AI给出的答案为何总不符期望?原因解析

大模型能力强大,但提问方式不当会导致结果不理想。核心在于精准提问,通过角色设定、背景介绍、明确任务、实现路径和输出要求这五个关键步骤逐步细化问题,才能大幅提升AI回答的质量和精准度。

热心网友
05.28
新一代AI办公软件开启未来协作新视野
AI教程
新一代AI办公软件开启未来协作新视野

科技的浪潮正以前所未有的速度重塑着我们的工作场景。曾被视为未来概念的AI办公软件,如今已悄然成为现实工具箱中的一员。面对这个瞬息万变的时代,如何借助新一代AI工具来撬动团队效率、重塑协作模式,无疑是摆在每一位职场人面前的核心课题。今天,我们就来深入聊聊这场正在发生的办公革命。 当AI遇上办公:从工具

热心网友
05.28
2026年AI排名优化十大信赖公司精选
业界动态
2026年AI排名优化十大信赖公司精选

综合2026年行业公开数据及各企业在GEO(生成式引擎优化)领域的技术落地成果,本次重点推荐的前三家公司为知道人工智能实验室(KnowAI)、深维智信、赛博推;其余七家则各具特色,在细分方向上均有显著建树。 评选标准 本次评选基于2026年国内AI营销与GEO优化服务市场的实际发展情况,从以下四个维

热心网友
05.28
即梦AI照片拼贴墙创意排版效果制作方法
AI资讯
即梦AI照片拼贴墙创意排版效果制作方法

想要利用即梦AI快速创作出小红书上备受欢迎的照片拼贴墙?让多张生活照、产品图或旅行照自动组合成富有呼吸感、包含留白节奏的创意展示页面,避免千篇一律的九宫格堆砌。 核心方法只需三步:首先通过提示词让AI构建整体骨架,接着导入照片并固定位置坐标,最后运用光影、材质和留白技巧进行微调,注入宛如空气流动般的

热心网友
05.28

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Paralives首发销量充足 支撑后续开发无需DLC
游戏攻略
Paralives首发销量充足 支撑后续开发无需DLC

《Paralives》开发商承诺所有后续更新永久免费,拒绝付费DLC模式。15人小团队依靠首发销售额即可支撑多年运营,无需依赖额外内容包维持开发,展现了与《模拟人生》系列不同的差异化竞争思路。

热心网友
05.28
比亚迪宋Ultra DM-i上市12.99万 承诺城市领航安全兜底
业界动态
比亚迪宋Ultra DM-i上市12.99万 承诺城市领航安全兜底

2025年5月28日,比亚迪王朝网全新力作——宋Ultra DM-i正式推向市场,共推出5款配置车型,官方售价区间为12 99万至15 99万元。此次定价策略极具突破性:一款拥有310公里纯电续航能力的中型插电混动SUV,直接下探至13万元级别市场。作为王朝网络的新旗舰,该车明确瞄准高频出行需求场景

热心网友
05.28
折叠屏iPhone Ultra外观已定,第三方保护壳亮相
科技数码
折叠屏iPhone Ultra外观已定,第三方保护壳亮相

先来关注一个有趣的细节:苹果首款折叠屏手机,传闻将于今年秋季正式亮相。产品命名可能为iPhone Ultra,也有媒体称之为iPhone Fold——无论最终叫什么,这都将标志着苹果在折叠形态领域首次“出手”。 近日,配件厂商iFunSmart已率先上架iPhone Ultra的首批保护壳——这绝非

热心网友
05.28
山寨币ETF批量上市后市场表现分析 哪些项目值得关注
web3.0
山寨币ETF批量上市后市场表现分析 哪些项目值得关注

山寨币ETF迎来批量上市潮,首批项目市场表现如何?一文分析 Binance币安 欧易OKX ️ Huobi火币️ 最近,市场出现了一个不容忽视的新动向:XRP、DOGE、LTC、HBAR等现货ETF已经悄然登陆美国市场。与此同时,A VAX、LINK等资产的同类产品也正在审批流程中。进入11月以来,

热心网友
05.28
即使在大幅涨价后 Steam Deck 玩家热情依旧再次售罄
游戏攻略
即使在大幅涨价后 Steam Deck 玩家热情依旧再次售罄

近日,公司对SteamDeck1TBOLED版涨价300美元至949美元,上架短短不到24小时便再度售罄。据外界分析,该公司从中国大量补货并分批投放库存,高溢价未影响众多玩家的抢购热情与速度,其人气极其旺盛无比足以支撑快速清空。

热心网友
05.28