Adobe研究院与UCL合作革新：用词语生成完整3D模型_AI热点日报

这项由伦敦大学学院（UCL）与Adobe研究院联合开展的突破性研究，于2025年3月发表在计算机视觉顶级会议上，论文编号为arXiv:2603 17995。研究团队提出了一项名为LoST（Level of Semantics Tokenization）的革命性技术，其目标直指一个核心问题：能否让计算

这项由伦敦大学学院（UCL）与Adobe研究院联合开展的突破性研究，于2025年3月发表在计算机视觉顶级会议上，论文编号为arXiv:2603.17995。研究团队提出了一项名为LoST（Level of Semantics Tokenization）的革命性技术，其目标直指一个核心问题：能否让计算机像人类理解语言一样，去“理解”和“表达”三维物体？

UCL与Adobe研究院联手突破：让3D模型像语言一样

想象一下，我们仅用“一只黑白相间、摇摇摆摆的企鹅”几个词，就能在朋友脑海中勾勒出完整的形象，而无需描述每一片羽毛的几何细节。LoST技术实现的正是这种能力——它让计算机仅用一两个“语义词汇”，就能构建出完整且合理的3D物体模型，彻底告别了传统方法需要成千上万个数据点的“笨重”时代。

这项技术的本质，是对3D模型“表达方式”的一次范式转移。以往的方法如同用显微镜扫描画作，必须逐点记录；而LoST则像一位经验丰富的画家，先用粗线条抓住神韵，再逐步渲染细节。最关键的是，哪怕只有最初的寥寥数笔，观者也能立刻认出画的是什么。

为了让计算机学会这种“抓重点”的思维方式，团队还开发了名为RIDA（Relational Inter-Distance Alignment）的训练方法。这相当于给计算机上了一堂“语义关系课”，让它能理解不同3D物体之间的内在关联，比如知道企鹅和鸭子属于“鸟类”这个大家庭，而与汽车则相去甚远。

实验结果足以用“惊艳”来形容：LoST不仅在语义准确性上大幅超越现有方法，其几何精度同样出色。而这一切，仅需传统方法0.1%到10%的数据量即可达成。这意味着，3D内容的生成速度将迎来数量级的提升，同时质量不降反升。

一、重新定义3D世界的“语言”：从几何堆砌到语义表达

要理解LoST的革命性，不妨先看看人类是如何认知世界的。当你看到一只鸟，大脑首先捕捉的是“这是一只鸟”的核心语义，而非其羽毛的几何排列。然而，传统3D建模技术却像一位过于较真的工程师，执着于从最细微的三角面开始构建，这种方法被称为“几何层次细节”。

听起来合理，但传统方法存在两大硬伤：一是“数据爆炸”，描述一个简单轮廓也需要海量“词汇”；二是“早期不可用”，在生成初期，模型往往只是一团难以辨识的抽象几何，毫无语义可言。

那么，为何不让3D表达更贴近人类的认知模式呢？LoST的核心洞察正在于此。它摒弃了按几何复杂度排列信息的旧思路，转而采用“语义层次细节”——确保最重要的语义信息优先表达。

在这种框架下，生成一个3D模型就像完成一首诗。第一个“词汇”点明主旨（如“动物”），第二个词汇细化类别（如“四足动物”），后续词汇再逐步增添毛发、姿态等细节。美妙之处在于，创作在任何阶段暂停，你得到的都是一个语义完整、视觉合理的作品，而非残缺的半成品。

实验证实，LoST仅用一个词汇生成的模型，已具备清晰可辨的物体类型，而传统方法在同等条件下，产出的仍是难以理解的几何碎片。这种语义优先的策略，为AI理解三维世界铺平了道路，每个“词汇”都承载着丰富的意义，为人机交互、虚拟现实等应用奠定了全新的基础。

二、RIDA技术：教会计算机理解3D世界的“语义地图”

让计算机按语义重要性组织信息，最大的挑战在于：如何定义“重要性”？这好比教一个从未见过色彩的人按颜色深浅排序。研究团队的解决方案颇具巧思——他们决定让3D系统向已经“学成出师”的2D图像AI“取经”。

团队选择了在图像理解上表现卓越的DINO模型作为“导师”。但直接照搬行不通，因为2D图像与3D几何数据截然不同。RIDA的巧妙，在于它不复制DINO的具体答案，而是学习其判断事物关系的“思维方式”。

具体而言，如果DINO认为图像A与B相似，与C迥异，那么RIDA就会引导3D系统，在处理对应的3D模型时，也建立起相似的关联认知。这一过程通过三个精妙机制协同实现：

首先是“全局关系对比学习”。它不仅告诉系统“这是猫”，更强调“猫与老虎的相似度，高于猫与鱼”。通过广泛的对比，系统逐渐构建起对物体类别关系的宏观理解。

其次是“实例间等级蒸馏”。这一机制追求更精细的区分，它不满足于“相似与否”的二元判断，而是要学习精确的相似度排序，如同品酒师能辨别出葡萄酒之间细微的优劣梯度。

最后是“空间结构蒸馏”。它确保系统不仅能把握整体语义，还能理解物体内部组件的关联与重要性。例如，在理解“鸟”时，它能认识到翅膀、喙、尾巴之间的相对关系。

通过这三重机制，RIDA成功将2D领域的语义理解能力“迁移”至3D领域。经过训练的系统，不仅能准确分类，还能处理“外形像鱼的潜水艇”这类易混淆对象，真正理解了物体的功能与身份，而非仅仅其外形。

三、技术架构：构建语义驱动的3D生成流水线

LoST的实现，依赖一个如同交响乐团般精密协作的技术架构。整个流程始于一个基于Vision Transformer的编码器，但其核心创新在于引入了“寄存器令牌”。

你可以这样理解：传统方法像用一张巨网打捞所有信息，无论重要与否；而寄存器令牌则像一队训练有素的“侦察兵”，专门负责从复杂数据中捕捉并整理最关键的特征，并按重要性优先级汇报，而非按空间位置罗列。

如何训练这些“侦察兵”分清主次？研究团队采用了两个关键策略：“因果遮蔽”与“嵌套丢弃”。前者防止前面的令牌“偷看”后面的，迫使每个令牌都必须基于已有信息做出独立贡献，自然形成层次。后者则更具巧思，它在训练中随机决定使用多少个令牌来描述一个物体，这迫使系统必须确保即使只用第一个令牌，也能传达出最核心的语义信息，后续令牌仅用于增强细节。

在解码端，团队采用了基于扩散模型的生成式解码器。它不像传统解码器那样机械复现每一个点，而是更像一位富有想象力的建筑师，能根据有限的线索“合理脑补”出完整形态。这种能力在令牌极少时至关重要。

该解码器采用扩散变换器架构，其过程如同照片显影：从模糊的噪声开始，在令牌序列的“指导”下，逐渐生成清晰、确定的3D形状。令牌越多，约束越强，结果越精确；令牌越少，系统创造性发挥的空间越大，但始终保证语义合理。

整个架构的训练，需要在几何保真度与语义一致性之间寻找最佳平衡。团队通过精心调节损失函数的权重，最终让系统既能生成形状准确的模型，又能确保其符合人类的语义认知。

四、从令牌到3D世界：LoST-GPT的语言模型方法

有了能产出语义令牌的LoST，下一步就是让计算机学会“使用”这门新语言。于是，LoST-GPT应运而生——一个专门用于理解和生成3D语义令牌序列的语言模型。

它的设计哲学与ChatGPT一脉相承，但处理的对象是3D的“语义词汇”。传统方法通常将连续的数据“量化”为离散令牌，这难免损失信息。LoST-GPT则采用了更先进的连续空间建模，如同音乐家演奏滑音，能处理细腻的过渡。

其实现依赖于扩散损失技术：系统不直接预测下一个令牌的确切值，而是学习预测一个“方向”，再通过微调精确定位。这好比射箭先瞄准靶心区域，再调整准星。

得益于令牌的语义有序性，LoST-GPT能高效学习。它掌握了“按需生成”的灵活性：快速预览只需前几个令牌；需要高精度模型，则继续生成更多令牌。这为实际应用带来了巨大便利。

更有趣的是，LoST-GPT展现出一定的“创意”。由于早期令牌编码的是高层语义（如“容器”），具体形态（如“带锁的木箱”还是“敞开的金杯”）由后续令牌决定，这为设计提供了多样化的起点。

团队还为它增添了条件生成能力，使其能根据文本或图像提示生成对应3D模型。性能测试显示，LoST-GPT仅用128个令牌就能生成高质量模型，效率远超需要数千令牌的传统方法，使得在移动设备上运行高质量3D生成成为可能。

五、实验验证：从理论到实践的完美转化

任何突破性技术都需经严格检验。研究团队设计了一套全面、公正的测试方案，核心挑战在于如何公平比较不同原理的方法。

他们构建了一个独立的测试集，其数据来源与训练集完全不同，确保了评估的客观性。评估围绕三个核心指标展开：衡量几何精度的Chamfer距离、评估语义一致性的DINO相似度，以及判断视觉真实性的FID得分。

结果令人信服。在所有测试中，LoST均显著领先。尤其在低令牌数下，优势堪称碘伏性：仅用1个令牌，LoST的语义相似度（0.731）便远超最强基线方法使用219个令牌的表现（0.382）。在效率上，LoST用512个令牌达到的效果，传统方法往往需要数万乃至数十万令牌才能企及。

在生成任务中，LoST-GPT同样脱颖而出。其FID得分（34.251）远优于其他先进方法（48.702-118.576），语义一致性（0.758）也保持领先。这意味其生成的模型从最初就语义清晰、视觉合理，随着细节添加愈发生动。

一项特别的形状检索实验，有力证明了RIDA学会了真正的语义理解。当查询一个“鱼形潜水艇”时，基于几何特征的检索会返回各种鱼，而基于RIDA特征的检索则能正确找到其他潜水艇，说明它理解了对象的“身份”而非单纯“外形”。

六、技术细节与创新突破：从概念到实现的工程奇迹

LoST的成功，离不开一系列精妙的工程实现。在数据表示上，团队选择了Direct3D的VAE潜在空间（triplane表示），它以紧凑的格式承载了丰富的3D信息，为高效处理奠定了基础。

Vision Transformer编码器中寄存器令牌的注意力机制设计巧妙：令牌可关注所有原始数据，但反之则不行，确保了信息从具体几何到抽象语义的单向纯净流动。

嵌套丢弃策略选择以2的幂次（1,2,4,8…）作为丢弃长度，这并非随意，而是构建了一个天然的二进制式层次结构，让模型能优雅地在不同“分辨率”上组织信息。

RIDA的三个损失函数组件各司其职：全局关系对比损失允许多个正样本，以捕捉更丰富的语义结构；实例间等级蒸馏损失采用z-score标准化，只关注相似度排序而非绝对值，巧妙规避了跨模态数据的分布差异；空间结构蒸馏损失则通过匹配自注意力模式，确保模型理解物体内部的结构关系。

在训练中，团队应用了混合精度训练（bf16格式）来平衡效率与稳定性，并采用指数移动平均来平滑训练过程，获得更稳健的模型。LoST-GPT的连续空间建模，则避免了离散化带来的信息损失，如同从数字音频升级到模拟录音，保留了更多细节。

七、应用前景与实际影响：重塑3D创作的未来

LoST技术的潜力，远不止于学术论文。它预示着3D内容创作与应用范式的根本性变革。

在游戏与影视领域，开发者可通过文本描述快速生成资产，并能根据场景远近动态调整模型细节，极大提升制作效率。虚拟与增强现实体验将变得更加直观，用户用手势或语音就能实时创建并操控3D物体。

教育领域将迎来革新。历史课上的“罗马竞技场”、生物课上的“人类心脏”，都可以瞬间化为可交互、可探索的3D模型，让抽象知识触手可及。电商行业则能借此为商品提供三维展示，消费者可以从任意角度审视产品细节。

对建筑师与工业设计师而言，快速将概念草图或语言描述转化为三维原型，将大幅加速创作迭代。医疗领域，医生可快速生成器官模型用于术前规划或病患沟通，使信息传递更直观。

更重要的是，这项技术降低了3D创作的门槛。内容创作者和艺术家无需精通复杂软件，用语言即可“雕塑”三维艺术品，可能催生全新的艺术形式。未来的AI助手，也将能直接生成3D模型来回应查询，而不仅仅是展示图片。

当然，技术的普及也伴随挑战：生成模型与现有设计可能引发的知识产权问题，涉及敏感数据时的隐私安全，以及传统3D建模师所需的技能转型，都需要行业与社会未雨绸缪。

归根结底，LoST技术代表了一次重要的人机交互进化。它将3D创作从一门专业技艺，转变为更普适的表达能力，有望释放巨大的创新潜力，推动我们走向一个更加立体、沉浸的数字未来。

Q&A

Q1：LoST技术和传统3D建模方法有什么本质区别？

本质区别在于信息组织逻辑。传统方法依据几何复杂度排列信息，必须积累足够多的细节（数据点）形状才可辨认。LoST则依据语义重要性排列，第一个“词汇”就表达了物体的核心类别（如“动物”），后续词汇逐步添加细节。这好比传统方法是“用显微镜作画”，而LoST是“先画轮廓，再润色彩”。

Q2：RIDA技术是如何让计算机理解3D物体语义关系的？

RIDA采用了“知识迁移”的策略。它利用已在2D图像理解上表现优异的AI模型（如DINO）作为“教师”。RIDA并不直接复制教师对具体图像的判断，而是学习教师衡量图像间相似关系的“模式”或“标准”，然后将这种关系判断模式应用到3D数据上，从而使3D系统获得对语义关系的理解能力。

Q3：使用LoST技术生成3D模型需要多少计算资源？

LoST在计算效率上优势显著。生成一个高质量模型通常只需128个令牌，而传统方法往往需要数千甚至上万个。在实际应用中，简单物体可能仅需1-4个令牌，复杂物体也很少超过512个。这种极高的数据压缩率，使得在智能手机等移动设备上进行实时或近实时的3D生成成为可能。