首页 游戏 软件 资讯 排行榜 专题
首页
AI
Adobe研究院与UCL合作革新:用词语生成完整3D模型

Adobe研究院与UCL合作革新:用词语生成完整3D模型

热心网友
31
转载
2026-05-14

这项由伦敦大学学院(UCL)与Adobe研究院联合开展的突破性研究,于2025年3月发表在计算机视觉顶级会议上,论文编号为arXiv:2603.17995。研究团队提出了一项名为LoST(Level of Semantics Tokenization)的革命性技术,其目标直指一个核心问题:能否让计算机像人类理解语言一样,去“理解”和“表达”三维物体?

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

UCL与Adobe研究院联手突破:让3D模型像语言一样

想象一下,我们仅用“一只黑白相间、摇摇摆摆的企鹅”几个词,就能在朋友脑海中勾勒出完整的形象,而无需描述每一片羽毛的几何细节。LoST技术实现的正是这种能力——它让计算机仅用一两个“语义词汇”,就能构建出完整且合理的3D物体模型,彻底告别了传统方法需要成千上万个数据点的“笨重”时代。

这项技术的本质,是对3D模型“表达方式”的一次范式转移。以往的方法如同用显微镜扫描画作,必须逐点记录;而LoST则像一位经验丰富的画家,先用粗线条抓住神韵,再逐步渲染细节。最关键的是,哪怕只有最初的寥寥数笔,观者也能立刻认出画的是什么。

为了让计算机学会这种“抓重点”的思维方式,团队还开发了名为RIDA(Relational Inter-Distance Alignment)的训练方法。这相当于给计算机上了一堂“语义关系课”,让它能理解不同3D物体之间的内在关联,比如知道企鹅和鸭子属于“鸟类”这个大家庭,而与汽车则相去甚远。

实验结果足以用“惊艳”来形容:LoST不仅在语义准确性上大幅超越现有方法,其几何精度同样出色。而这一切,仅需传统方法0.1%到10%的数据量即可达成。这意味着,3D内容的生成速度将迎来数量级的提升,同时质量不降反升。

一、重新定义3D世界的“语言”:从几何堆砌到语义表达

要理解LoST的革命性,不妨先看看人类是如何认知世界的。当你看到一只鸟,大脑首先捕捉的是“这是一只鸟”的核心语义,而非其羽毛的几何排列。然而,传统3D建模技术却像一位过于较真的工程师,执着于从最细微的三角面开始构建,这种方法被称为“几何层次细节”。

听起来合理,但传统方法存在两大硬伤:一是“数据爆炸”,描述一个简单轮廓也需要海量“词汇”;二是“早期不可用”,在生成初期,模型往往只是一团难以辨识的抽象几何,毫无语义可言。

那么,为何不让3D表达更贴近人类的认知模式呢?LoST的核心洞察正在于此。它摒弃了按几何复杂度排列信息的旧思路,转而采用“语义层次细节”——确保最重要的语义信息优先表达。

在这种框架下,生成一个3D模型就像完成一首诗。第一个“词汇”点明主旨(如“动物”),第二个词汇细化类别(如“四足动物”),后续词汇再逐步增添毛发、姿态等细节。美妙之处在于,创作在任何阶段暂停,你得到的都是一个语义完整、视觉合理的作品,而非残缺的半成品。

实验证实,LoST仅用一个词汇生成的模型,已具备清晰可辨的物体类型,而传统方法在同等条件下,产出的仍是难以理解的几何碎片。这种语义优先的策略,为AI理解三维世界铺平了道路,每个“词汇”都承载着丰富的意义,为人机交互、虚拟现实等应用奠定了全新的基础。

二、RIDA技术:教会计算机理解3D世界的“语义地图”

让计算机按语义重要性组织信息,最大的挑战在于:如何定义“重要性”?这好比教一个从未见过色彩的人按颜色深浅排序。研究团队的解决方案颇具巧思——他们决定让3D系统向已经“学成出师”的2D图像AI“取经”。

团队选择了在图像理解上表现卓越的DINO模型作为“导师”。但直接照搬行不通,因为2D图像与3D几何数据截然不同。RIDA的巧妙,在于它不复制DINO的具体答案,而是学习其判断事物关系的“思维方式”。

具体而言,如果DINO认为图像A与B相似,与C迥异,那么RIDA就会引导3D系统,在处理对应的3D模型时,也建立起相似的关联认知。这一过程通过三个精妙机制协同实现:

首先是“全局关系对比学习”。它不仅告诉系统“这是猫”,更强调“猫与老虎的相似度,高于猫与鱼”。通过广泛的对比,系统逐渐构建起对物体类别关系的宏观理解。

其次是“实例间等级蒸馏”。这一机制追求更精细的区分,它不满足于“相似与否”的二元判断,而是要学习精确的相似度排序,如同品酒师能辨别出葡萄酒之间细微的优劣梯度。

最后是“空间结构蒸馏”。它确保系统不仅能把握整体语义,还能理解物体内部组件的关联与重要性。例如,在理解“鸟”时,它能认识到翅膀、喙、尾巴之间的相对关系。

通过这三重机制,RIDA成功将2D领域的语义理解能力“迁移”至3D领域。经过训练的系统,不仅能准确分类,还能处理“外形像鱼的潜水艇”这类易混淆对象,真正理解了物体的功能与身份,而非仅仅其外形。

三、技术架构:构建语义驱动的3D生成流水线

LoST的实现,依赖一个如同交响乐团般精密协作的技术架构。整个流程始于一个基于Vision Transformer的编码器,但其核心创新在于引入了“寄存器令牌”。

你可以这样理解:传统方法像用一张巨网打捞所有信息,无论重要与否;而寄存器令牌则像一队训练有素的“侦察兵”,专门负责从复杂数据中捕捉并整理最关键的特征,并按重要性优先级汇报,而非按空间位置罗列。

如何训练这些“侦察兵”分清主次?研究团队采用了两个关键策略:“因果遮蔽”与“嵌套丢弃”。前者防止前面的令牌“偷看”后面的,迫使每个令牌都必须基于已有信息做出独立贡献,自然形成层次。后者则更具巧思,它在训练中随机决定使用多少个令牌来描述一个物体,这迫使系统必须确保即使只用第一个令牌,也能传达出最核心的语义信息,后续令牌仅用于增强细节。

在解码端,团队采用了基于扩散模型的生成式解码器。它不像传统解码器那样机械复现每一个点,而是更像一位富有想象力的建筑师,能根据有限的线索“合理脑补”出完整形态。这种能力在令牌极少时至关重要。

该解码器采用扩散变换器架构,其过程如同照片显影:从模糊的噪声开始,在令牌序列的“指导”下,逐渐生成清晰、确定的3D形状。令牌越多,约束越强,结果越精确;令牌越少,系统创造性发挥的空间越大,但始终保证语义合理。

整个架构的训练,需要在几何保真度与语义一致性之间寻找最佳平衡。团队通过精心调节损失函数的权重,最终让系统既能生成形状准确的模型,又能确保其符合人类的语义认知。

四、从令牌到3D世界:LoST-GPT的语言模型方法

有了能产出语义令牌的LoST,下一步就是让计算机学会“使用”这门新语言。于是,LoST-GPT应运而生——一个专门用于理解和生成3D语义令牌序列的语言模型。

它的设计哲学与ChatGPT一脉相承,但处理的对象是3D的“语义词汇”。传统方法通常将连续的数据“量化”为离散令牌,这难免损失信息。LoST-GPT则采用了更先进的连续空间建模,如同音乐家演奏滑音,能处理细腻的过渡。

其实现依赖于扩散损失技术:系统不直接预测下一个令牌的确切值,而是学习预测一个“方向”,再通过微调精确定位。这好比射箭先瞄准靶心区域,再调整准星。

得益于令牌的语义有序性,LoST-GPT能高效学习。它掌握了“按需生成”的灵活性:快速预览只需前几个令牌;需要高精度模型,则继续生成更多令牌。这为实际应用带来了巨大便利。

更有趣的是,LoST-GPT展现出一定的“创意”。由于早期令牌编码的是高层语义(如“容器”),具体形态(如“带锁的木箱”还是“敞开的金杯”)由后续令牌决定,这为设计提供了多样化的起点。

团队还为它增添了条件生成能力,使其能根据文本或图像提示生成对应3D模型。性能测试显示,LoST-GPT仅用128个令牌就能生成高质量模型,效率远超需要数千令牌的传统方法,使得在移动设备上运行高质量3D生成成为可能。

五、实验验证:从理论到实践的完美转化

任何突破性技术都需经严格检验。研究团队设计了一套全面、公正的测试方案,核心挑战在于如何公平比较不同原理的方法。

他们构建了一个独立的测试集,其数据来源与训练集完全不同,确保了评估的客观性。评估围绕三个核心指标展开:衡量几何精度的Chamfer距离、评估语义一致性的DINO相似度,以及判断视觉真实性的FID得分。

结果令人信服。在所有测试中,LoST均显著领先。尤其在低令牌数下,优势堪称碘伏性:仅用1个令牌,LoST的语义相似度(0.731)便远超最强基线方法使用219个令牌的表现(0.382)。在效率上,LoST用512个令牌达到的效果,传统方法往往需要数万乃至数十万令牌才能企及。

在生成任务中,LoST-GPT同样脱颖而出。其FID得分(34.251)远优于其他先进方法(48.702-118.576),语义一致性(0.758)也保持领先。这意味其生成的模型从最初就语义清晰、视觉合理,随着细节添加愈发生动。

一项特别的形状检索实验,有力证明了RIDA学会了真正的语义理解。当查询一个“鱼形潜水艇”时,基于几何特征的检索会返回各种鱼,而基于RIDA特征的检索则能正确找到其他潜水艇,说明它理解了对象的“身份”而非单纯“外形”。

六、技术细节与创新突破:从概念到实现的工程奇迹

LoST的成功,离不开一系列精妙的工程实现。在数据表示上,团队选择了Direct3D的VAE潜在空间(triplane表示),它以紧凑的格式承载了丰富的3D信息,为高效处理奠定了基础。

Vision Transformer编码器中寄存器令牌的注意力机制设计巧妙:令牌可关注所有原始数据,但反之则不行,确保了信息从具体几何到抽象语义的单向纯净流动。

嵌套丢弃策略选择以2的幂次(1,2,4,8…)作为丢弃长度,这并非随意,而是构建了一个天然的二进制式层次结构,让模型能优雅地在不同“分辨率”上组织信息。

RIDA的三个损失函数组件各司其职:全局关系对比损失允许多个正样本,以捕捉更丰富的语义结构;实例间等级蒸馏损失采用z-score标准化,只关注相似度排序而非绝对值,巧妙规避了跨模态数据的分布差异;空间结构蒸馏损失则通过匹配自注意力模式,确保模型理解物体内部的结构关系。

在训练中,团队应用了混合精度训练(bf16格式)来平衡效率与稳定性,并采用指数移动平均来平滑训练过程,获得更稳健的模型。LoST-GPT的连续空间建模,则避免了离散化带来的信息损失,如同从数字音频升级到模拟录音,保留了更多细节。

七、应用前景与实际影响:重塑3D创作的未来

LoST技术的潜力,远不止于学术论文。它预示着3D内容创作与应用范式的根本性变革。

在游戏与影视领域,开发者可通过文本描述快速生成资产,并能根据场景远近动态调整模型细节,极大提升制作效率。虚拟与增强现实体验将变得更加直观,用户用手势或语音就能实时创建并操控3D物体。

教育领域将迎来革新。历史课上的“罗马竞技场”、生物课上的“人类心脏”,都可以瞬间化为可交互、可探索的3D模型,让抽象知识触手可及。电商行业则能借此为商品提供三维展示,消费者可以从任意角度审视产品细节。

对建筑师与工业设计师而言,快速将概念草图或语言描述转化为三维原型,将大幅加速创作迭代。医疗领域,医生可快速生成器官模型用于术前规划或病患沟通,使信息传递更直观。

更重要的是,这项技术降低了3D创作的门槛。内容创作者和艺术家无需精通复杂软件,用语言即可“雕塑”三维艺术品,可能催生全新的艺术形式。未来的AI助手,也将能直接生成3D模型来回应查询,而不仅仅是展示图片。

当然,技术的普及也伴随挑战:生成模型与现有设计可能引发的知识产权问题,涉及敏感数据时的隐私安全,以及传统3D建模师所需的技能转型,都需要行业与社会未雨绸缪。

归根结底,LoST技术代表了一次重要的人机交互进化。它将3D创作从一门专业技艺,转变为更普适的表达能力,有望释放巨大的创新潜力,推动我们走向一个更加立体、沉浸的数字未来。

Q&A

Q1:LoST技术和传统3D建模方法有什么本质区别?

本质区别在于信息组织逻辑。传统方法依据几何复杂度排列信息,必须积累足够多的细节(数据点)形状才可辨认。LoST则依据语义重要性排列,第一个“词汇”就表达了物体的核心类别(如“动物”),后续词汇逐步添加细节。这好比传统方法是“用显微镜作画”,而LoST是“先画轮廓,再润色彩”。

Q2:RIDA技术是如何让计算机理解3D物体语义关系的?

RIDA采用了“知识迁移”的策略。它利用已在2D图像理解上表现优异的AI模型(如DINO)作为“教师”。RIDA并不直接复制教师对具体图像的判断,而是学习教师衡量图像间相似关系的“模式”或“标准”,然后将这种关系判断模式应用到3D数据上,从而使3D系统获得对语义关系的理解能力。

Q3:使用LoST技术生成3D模型需要多少计算资源?

LoST在计算效率上优势显著。生成一个高质量模型通常只需128个令牌,而传统方法往往需要数千甚至上万个。在实际应用中,简单物体可能仅需1-4个令牌,复杂物体也很少超过512个。这种极高的数据压缩率,使得在智能手机等移动设备上进行实时或近实时的3D生成成为可能。

来源:https://www.techwalker.com/2026/0327/3182456.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Adobe研究院与UCL合作革新:用词语生成完整3D模型
AI
Adobe研究院与UCL合作革新:用词语生成完整3D模型

这项由伦敦大学学院(UCL)与Adobe研究院联合开展的突破性研究,于2025年3月发表在计算机视觉顶级会议上,论文编号为arXiv:2603 17995。研究团队提出了一项名为LoST(Level of Semantics Tokenization)的革命性技术,其目标直指一个核心问题:能否让计算

热心网友
05.14
3D打印机让年轻人轻松实现Labubu自由:定制全攻略
科技数码
3D打印机让年轻人轻松实现Labubu自由:定制全攻略

“实现手办自由。”这不仅是社交平台上的热门标签,也是部分年轻人正在经历的事实。一些视频博主展示自家书房和客厅里,一台机器嗡嗡作响,像不知疲倦的“现代神灯”,将数字模型变为触手可及的玩具、工具和惊喜。

热心网友
10.21

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

机器人通用大脑如何实现这家公司给出创新方案
业界动态
机器人通用大脑如何实现这家公司给出创新方案

旧金山初创公司PhysicalIntelligence致力于为机器人打造通用“大脑”,以解决莫拉维克悖论。公司通过海量数据与算法训练,使机器人掌握叠衣、制作咖啡等复杂技能,并展现泛化能力。投资人看好其团队与进展,目标是将人类从枯燥危险的劳动中解放,企业级应用已可见曙光。

热心网友
05.14
索塔无界创始人再创业 押注机器人大脑出海新机遇
业界动态
索塔无界创始人再创业 押注机器人大脑出海新机遇

开普勒前CEO胡德波二次创业,成立索塔无界,聚焦研发具身智能“大脑”。公司以世界动作模型为核心,旨在让机器人理解并预测物理世界。目前从欧美商超分拣场景切入,计划结合中国供应链优势,提供涵盖硬件、部署的完整解决方案,以满足海外市场对机器人替代劳动力的需求。

热心网友
05.14
2026年Web3交易平台十大排名与最新权威榜单解析
web3.0
2026年Web3交易平台十大排名与最新权威榜单解析

2026年Web3交易平台格局呈现多元化发展,头部平台在安全、资产与用户体验上持续领先。去中心化交易平台(DEX)在交易深度与跨链互操作性方面取得突破,聚合器服务优化了交易路径。新兴平台凭借细分领域创新获得关注,而合规与安全已成为用户选择的核心考量因素。未来,平台竞争将更侧重于技术整合与生态构建能力。

热心网友
05.14
2026年Web3交易平台十大排行推荐与深度评测分析
web3.0
2026年Web3交易平台十大排行推荐与深度评测分析

本文梳理了2026年Web3交易平台的格局,重点分析了几个具有代表性的平台。内容涵盖去中心化与中心化混合型平台、纯去中心化交易所以及新兴的跨链聚合器,分别探讨了它们在安全性、流动性、用户体验和创新功能方面的优势与潜在不足,旨在为用户提供多维度的选择参考。

热心网友
05.14
2026年Web3交易平台最新排名与深度评测指南
web3.0
2026年Web3交易平台最新排名与深度评测指南

本文梳理了2026年Web3交易平台的格局,从去中心化交易所、聚合器与跨链平台、新兴趋势与挑战三个维度进行分析。重点探讨了DEX在流动性、用户体验与合规方面的进展,聚合器如何优化交易路径,以及跨链技术的成熟度。同时,也审视了平台面临的监管、安全与可持续性等核心挑战,为理解未来交易生态提供参考。

热心网友
05.14