Meta与伯克利联手让AI真正看懂三维空间

时间：2026-06-04 12:38

一项研究提出GASP训练框架，在大语言模型每个变换器层插入轻量级对应点识别头，结合对比学习与深度一致性损失训练，使AI建立三维几何内在理解。该方法在摄像机姿态估计、物体计数等空间推理任务上提升显著，且不牺牲原有语言能力。

这项由Meta基础人工智能研究院（FAIR at Meta）主导，携手加州大学伯克利分校与香港大学团队共同完成的研究成果，于2026年5月28日以预印本形式公开发布，论文编号为arXiv:2605.30231。

不妨设想一个教育场景。教一个孩子认知世界，有两种截然不同的路径。第一种是让他机械记忆：椅子通常多高，桌子多宽，冰箱摆放在房间的哪个角落。第二种则是培养他的空间感知力：让他学会从不同视角辨认同一把椅子，理解“前与后”的空间关系，感受物体在三维世界中的精确位置。第一种方式见效迅速但极其脆弱——换一个陌生环境，所有记忆便作废。第二种方式虽然较为耗时，但培养出的能力可以轻松应对任何全新场景。

这恰恰是当前人工智能在空间理解领域面临的核心困境。如今的视觉语言模型，通俗来说就是能看图说话的AI，尽管在回答问题上表现不俗，但一旦涉及真实的三维空间，往往力不从心。问它“图中的微波炉离摄像头有多远”，或者“从这个视角看，门位于沙发的左边还是右边”，给出的回答经常令人哭笑不得。

该研究团队的核心洞察十分直接：现有的解决方案，走的都是第一条路——死记硬背式的刷题训练。为此，他们提出了一套名为GASP（几何感知空间先验，Geometric-Aware Spatial Priors）的全新训练框架，试图从根本上扭转局面，让AI真正建立起对三维几何世界的内在理解能力。

一、现有方法为何像在“刷题”而非真正理解

首先需要弄清楚当前AI是如何学习空间理解的，以及这种学习方式的问题究竟出在哪里。

主流做法是收集大量与三维空间相关的问答数据集，然后对AI进行微调训练。举例来说，数据集里可能包含成千上万条记录：“这张图中，沙发距离门口2.3米”，或者“从这个视角看，冰箱位于窗户的左侧”。AI通过大量学习这类问答，逐步能够给出正确的回答。

表面上看，这种做法似乎合理。但研究团队通过实验发现了一个令人担忧的现象：这些专门训练的AI，在见过的数据集上表现极为出色，一旦换到全新场景，性能便大幅下滑。例如，某个专门为VSI-Bench（一个著名的空间推理测试集）训练的模型，在该测试集上性能提升了十多个百分点，但在另一个名为MMSI-Bench的测试集上，表现反而比训练前更差。

这就像专门为某套考试刷题的学生——能在那套卷子上拿到高分，但考题一变，就手足无措。因为他们学到的不是真正的能力，而是那套卷子的答题套路。

研究团队进行了一个非常有趣的实验来揭示这一问题。他们从VSI-Bench的问答数据中统计了各类物体的平均尺寸和平均房间大小，然后直接将这些平均值作为提示输入给模型：“冰箱平均宽度大约是这么多，房间平均面积大概是那么大，请根据这些信息回答问题”。结果令人震惊：仅凭这种统计平均值的小抄，模型的“物体绝对距离估计”得分就从0.14暴涨到0.61，甚至超过了某些专门经过三维问答训练的模型。

这说明，这类测试集中隐藏着大量“非视觉捷径”——AI根本不需要真正理解图像，只需记住数据集的统计规律，就能拿到不错的分数。而那些经过大量刷题训练的AI，恰恰学会了利用这些捷径，而非真正的空间推理能力。

另一条现有路线是给AI配备专门的三维视觉模块——相当于给一个普通人配备专业测距仪和三维扫描仪。这类方法虽然能提供更丰富的三维信息，但代价是模型变得更庞大、推理更慢，而且这些专门的三维模块通常是固定的，不能随整体模型一起调整，就像给汽车安装了一个不兼容的零件，两者难以真正协同工作。

二、问题的真正根源藏在AI内部哪里

研究团队并未止步于发现问题，而是深入追问：AI的空间理解能力为何如此薄弱？问题到底出在哪个环节？

现代视觉语言模型的工作方式，可以用一个简单的比喻来理解：AI先用“眼睛”（视觉编码器）将图像转化成一串数字标记，然后将这串标记与文字标记一起输入“大脑”（大型语言模型的变换器层），由大脑综合处理后给出答案。

在大脑处理信息的过程中，有一个关键机制称为“自注意力”。简单来说，这个机制让大脑能够判断“哪些信息与哪些信息是相关的”。对图像理解而言，视觉标记之间的相互关联尤为重要——大脑需要能够识别出“帧1里的这个角落，与帧2里的那个角落，其实是同一个物体”。

研究团队设计了一套诊断实验，专门测量AI内部的视觉对应关系识别能力：给AI展示同一场景的两帧画面，询问它“帧1中的这个点，对应帧2中的哪个点”。这个任务对人类来说也需要一定的空间感，对AI而言，它直接反映了内部是否真正建立了视觉上的几何一致性。

测量结果令人震惊：无论是Qwen2.5-VL-7B还是LLaVA-NeXT-Video-7B，这两款最先进的视觉语言模型，其内部对应点匹配的准确率普遍低于5%，很多层甚至接近于零。更糟糕的是，这些模型还表现出明显的“自信地犯错”特征——它们对错误答案往往信心十足，而对正确答案反而犹豫不决。这在统计上表现为“置信度-准确率”之间的负相关关系，模型越自信，反而越可能是错的。

此外，测试还考察了模型跨时间帧的鲁棒性：当两帧之间的时间间隔逐渐增大时，匹配准确率会如何变化？基线模型的表现几乎呈断崖式下跌，超过8帧距离后，准确率就跌到初始值的5%以下，基本等于随机猜测。

这一诊断结果非常清晰：问题的根源不在视觉编码器，而在大型语言模型的核心层。这些模型在训练时大量接触文本，建立了强大的语言理解能力，但对三维几何世界的内在规律毫无敏感性。单纯依靠刷空间问答题，只是在给这个根本缺陷贴创可贴。GASP要做的，是从内部真正修复它。

三、GASP的核心思路：像培养运动员一样训练AI的空间感

GASP的核心理念，类似于体育训练中的“基本功训练”。一名优秀的篮球运动员，不是靠观看录像记住“这种情况下应该投篮”来提高的，而是通过无数次运球、传球、投篮练习，把对球的感觉和身体协调能力刻进肌肉记忆。GASP要做的，就是为AI设计一套针对空间感知能力的“基本功训练”。

具体来说，GASP在AI的大型语言模型的每一个变换器层中，都插入一个轻量级的“对应点识别头”模块（correspondence head）。该模块的作用是：接收该层的视觉标记，将它们映射到一个专门为几何匹配优化的嵌入空间中，然后判断不同帧中的视觉标记是否对应同一个三维空间点。

这个模块仅在训练阶段存在。训练完成后，它会被彻底移除，模型恢复成标准的视觉语言模型，推理时不需要任何额外的三维输入或辅助模块。几何理解能力已经被“烙印”进模型内部的权重参数中。

训练数据来自DL3DV这个大规模三维视频数据集，结合了LLaVA-Video-178K通用视频问答数据集，两者交替训练，以防止AI“遗忘”原有的语言能力。从DL3DV数据中，研究团队生成了约175万个视频序列，每个序列包含8到24帧，并自动标注了帧间的精确对应点关系和深度信息，形成了一套既有粗粒度（8×8网格）又有细粒度（24×24网格）覆盖的训练标注。

四、GASP的两套“基本功”训练方案

GASP的训练使用两个互补的损失函数，分别针对空间理解中两个不同层次的挑战。

第一套训练针对“视角无关的视觉对应”。可以用这样一个场景来理解：你看到一只猫从不同角度拍摄的两张照片，虽然猫的姿势、光线、拍摄角度都不同，但你能一眼认出猫鼻子的位置在两张照片中是对应的。这种能力称为视角不变性。

GASP采用一种名为InfoNCE的对比学习损失函数来训练这种能力。具体来说：给定帧A中的一个点，以及帧B中该点真正对应的位置（正样本），还有帧B中其他所有不对应的位置（负样本），训练目标是让AI将正样本的相似度分数推得尽可能高，将负样本的分数压得尽可能低。研究团队选择对比学习而非直接预测坐标，是因为对比学习学到的是视角无关的嵌入空间，能更好地应对不同场景和视角的泛化需求。

第二套训练针对“深度一致性”，解决的是一个更为微妙的三维歧义问题。考虑这样一个场景：房间里有两张外观几乎一模一样的椅子，一张在前景，一张在背景。纯粹基于纹理和外观的匹配算法，可能会把前景的椅子和背景的椅子错误地配对，因为它们看起来过于相似。但从三维空间角度来看，这两张椅子处于不同深度，根本不是同一个点的对应关系。

为了解决这类“视觉相似但三维位置不同”的混淆，GASP引入了深度一致性损失。核心思路是：利用对应点匹配的软分布（即模型对每个候选位置的匹配置信度），计算期望的深度值，然后与真实深度值进行对比。如果模型错误地把前景椅子配到了背景椅子，那么预测深度与真实深度之间会产生明显差异，损失函数就会惩罚这个匹配，迫使模型进行调整。该损失采用相对误差形式，使得它对不同尺度的场景（无论是小房间还是大厅）都能统一适用，无需每个场景单独校准。

这两套训练是互补的：第一套教会AI“跨视角认出同一个东西”，第二套教会AI“不要被外表相似但空间位置不同的东西所迷惑”。两者结合，才能建立真正鲁棒的三维几何理解能力。

最终的总训练目标是三者之和：原有的语言建模损失，加上带权重的对应关系损失，再加上带权重的深度一致性损失。这样的多任务训练格局确保AI在学习几何感知的同时，不会丢失原有的语言理解能力。

五、从“内功”到“外功”：内部改进如何转化为实际能力提升

训练结束后，研究团队首先回到内部诊断层面，验证GASP是否真正改变了AI的内部几何表示。

在对应点匹配准确率方面，训练后的GASP模型相比基线有了天壤之别的改变。以LLaVA-NeXT-Video-7B为例，基线模型各层的匹配准确率几乎全程贴近零线，而GASP训练后的模型在中层到深层（大约第20到25层）出现了一个明显的准确率峰值，最高超过了70%。Qwen2.5-VL-7B的情况类似，峰值出现在第25到28层。更重要的是，同时使用对应关系损失和深度一致性损失的完整模型，表现始终优于只使用对应关系损失的模型，这直接验证了深度监督的附加价值。

在置信度校准方面，基线模型的置信度与准确率之间呈现约负0.22的相关系数，意味着它越自信就越可能犯错。GASP训练后的模型将这个相关系数翻转为约正0.62，意味着它的信心与实际的准确性高度匹配，这是一个行为上根本性的改善。

在跨时间帧鲁棒性方面，基线模型在超过8帧的时间距离后，准确率跌至初始的5%以下；而GASP模型即使在24帧的距离下，仍然维持着初始准确率的85%以上，展现出真正的时间不变性。

这些内部改进的最终考验，是能否转化为下游空间推理任务的实际能力提升。研究团队在三个主要基准上进行了评测。All-Angles Bench专门测试从不同视角理解场景的能力，VSI-Bench测试物体计数、路线规划、相对方向等综合空间推理能力，BLINK的空间子集则侧重于相对深度和多视角感知。

在All-Angles Bench的摄像机姿态估计任务上，LLaVA-NeXT-Video-7B的基线分数是22.7%，GASP版本提升到40.9%，绝对提升18.2个百分点；Qwen2.5-VL-7B从34.1%提升到52.8%，绝对提升18.7个百分点。在VSI-Bench的物体计数任务上，LLaVA-NeXT-Video-7B从23.5%跃升到52.5%，提升整整29个百分点；Qwen2.5-VL-7B从33.8%提升到41.6%，提升7.8个百分点。在BLINK的多视角推理子任务上，LLaVA-NeXT-Video-7B从42.1%提升到57.1%，提升15个百分点；Qwen2.5-VL-7B从41.5%提升到53.4%，提升11.9个百分点。

这些增益出现在一个额外重要的背景下：与GASP同数据量的“公平基线”（用相同DL3DV数据，但以问答形式训练）在多个关键指标上表现反而有所下降，例如摄像机姿态估计从22.7%降至19.8%，物体计数从23.5%降至21.4%。这再次证明，GASP带来的提升源自几何先验的注入，而非数据量的增加。

六、不牺牲“老本行”：对通用能力的影响

一个自然而然担忧的问题是：专门训练几何感知，会不会让AI遗忘原有的语言理解能力？

研究团队在Video-MME（综合视频理解）、TempCompass（时序理解）、NextQA（视频问答）等通用基准上进行了评测。结果显示，代价是存在的但可以接受：以Qwen2.5-VL-7B为例，NextQA分数从76.6%小幅降至74.7%，损失1.9个百分点。然而与此同时，Video-MME从59.3%提升到61.6%，TempCompass从68.4%提升到70.3%，这两个涉及时序理解的基准上反而有所进步。

这一现象背后有一个合理的解释：视频理解本身需要跨帧追踪物体的持续身份，也就是说“这一帧里的这个杯子，与下一帧里的那个杯子是同一个”。GASP训练的视角不变性表征，正好也服务于这种需求。相比之下，NextQA更多考察的是动作语义和因果关系，对精确空间定位的依赖较少，这解释了为何在那里出现了小幅下滑。

在更宽泛的CV-Bench基准（同时测试2D和3D任务）上，Qwen2.5-VL-7B加上GASP后的综合得分达到79.8%，优于许多规模更大的模型，例如InternVL2.5-8B（74.1%）和LLaVA-OneVision-7B（73.2%）。

七、训练配置的精细调校

研究团队还系统地研究了两个关键训练参数对最终效果的影响。

第一个参数是LoRA秩（rank）。LoRA是一种高效微调技术，秩越高代表对模型改动的“维度”越多，可以理解为给AI学习新技能时分配的“练习纸”数量。实验表明，内部对应点匹配准确率（Avg. PCK）随着秩的增加单调提升，但下游空间推理任务的性能存在一个最优点，超过该点后反而会有轻微下滑：对于LLaVA-NeXT-Video-7B，秩512时效果最佳，对于Qwen2.5-VL-7B则是秩128时最优。这说明过高的秩可能在提升几何拟合的同时，开始损伤原有的语言能力，两者之间存在真实的容量权衡。

第二个参数是对应点识别头插入的层范围。实验比较了在模型较浅层、中间层、较深层以及所有层分别插入的效果。结论是：在全部层都插入，表现最佳且最稳定。这一结果有其内在逻辑：几何一致性是分层次的——浅层需要学习边缘和角点的低级特征对应，中间层需要理解物体部件的对应，深层需要维持语义-几何的对齐。如果只在深层施加几何监督，浅层仍然会学习视角依赖的特征，在特征传递中形成“表示瓶颈”，限制最终效果。

八、GASP与位置编码的本质区别

研究团队特别说明了GASP与另一种常见技术——旋转位置编码（RoPE）之间的根本区别，因为这两者表面上都在处理“位置信息”，容易被混淆。

RoPE的作用是告诉AI“这个标记在图像网格中的位置是(x, y)”，它是一种输入级别的坐标信号，内容无关——无论这个位置是一面空白墙还是一张复杂的人脸，RoPE给出的信号是完全相同的。实验数据已经表明，即使使用了先进的RoPE，Qwen2.5-VL和LLaVA-NeXT的对应匹配准确率依然几乎为零，说明仅有坐标信息是不够的。

GASP作用在完全不同的层面：它通过训练改变了模型内部的注意力机制中查询矩阵（Q）和键矩阵（K）的相互作用方式，使得两个视觉标记之间的相似度分数不仅反映“它们在语义上是否相似”，还反映“它们在三维空间中是否对应同一个点”。从梯度传播的角度来看，GASP训练产生的梯度会通过对应点识别头反向传播，逐步调整每个变换器层的Q和K投影矩阵，使得几何对应的标记对得分高，几何不对应的标记对（即使语义相似）得分低。

用一个类比来说：RoPE教会了AI说“我在北纬39度、东经116度”，而GASP教会了AI说“从这里和从那里看到的那栋楼，是同一栋楼”。前者是静态坐标，后者是动态的跨视角同一性认知。两者不是竞争关系，而是互补关系：RoPE提供“在哪里”的信息，GASP赋予AI“是什么、是哪个”的时空认知能力。

说到底，这项研究揭示了一个被长期忽视的根本问题：用大量空间问答题来训练AI的空间理解能力，就像让学生背诵地图数字来学习导航，终究只是表面功夫。真正的空间智能，应该源自对视觉世界几何一致性的内在感知——知道同一个物体从不同角度看起来依然是同一个，知道前景和背景的椅子尽管外观相同但处于不同深度。

GASP通过对应点学习和深度一致性训练，将这种几何感知能力直接“烙印”进AI的注意力机制中，而不是让它去背诵答案套路。更难得的是，这种内在能力的提升在推理时完全不需要额外的三维输入或辅助模块——AI使用标准的图像输入即可工作，几何感知已经成为它思考方式的一部分。

当然，目前这项研究还存在一些局限性值得关注。深度信息依赖于伪真值深度数据的质量，在一些特殊场景下可能不够准确；而且在以动作语义为主的任务上，几何训练会带来轻微的性能损失，说明这两类能力之间存在容量权衡。未来的研究方向或许是将几何先验训练与适量的任务监督结合起来，取长补短，同时在更大规模的模型上验证这套框架的可扩展性。

归根结底，这项研究给出了一个值得深思的启示：让AI更聪明，有时候不是让它背更多题，而是教它更本质的能力。对于关心AI发展的读者，不妨思考这样一个问题：在其他需要“理解”而非“记忆”的AI任务上，是否也存在类似的根本性缺陷？有兴趣深入探讨的读者，可以通过arXiv:2605.30231查阅完整论文。

Q&A

Q1：GASP框架在推理时还需要额外的三维输入吗？

A：不需要。GASP的对应点识别头模块只在训练阶段存在，训练完成后会被彻底移除。推理时GASP模型与普通视觉语言模型完全一致，只接受标准的图像或视频输入，不需要任何深度图、点云或其他三维辅助数据。几何感知能力已经被编码进模型的权重参数中。

Q2：为什么视觉语言模型的对应点匹配准确率会那么低？

A：因为大型语言模型的预训练数据主要是网络文本，缺乏三维几何信息的直接监督。模型学会了语义理解，但没有建立跨视角的几何一致性认知。即使使用了旋转位置编码提供坐标信息，也只是静态坐标，无法告诉模型两帧中的同一物体是同一个实体。这是语言模型预训练本身的先天局限。

Q3：深度一致性损失和对应关系损失分别解决什么问题？

A：对应关系损失解决的是跨视角同一性问题，训练AI识别出不同角度下同一个物体上的对应点。深度一致性损失解决的是前景-背景混淆问题：当两个外观相似的物体处于不同深度时，纯外观匹配会出错，深度损失通过惩罚深度不一致的匹配来迫使模型区分它们。两者互补，共同建立完整的三维几何理解能力。

来源：https://www.163.com/dy/article/KUHF61BR0511DTVV.html