Google DeepMind TIPSv2 实现图像分块精准文字理解

首页

热心网友

转载

2026-05-17

你是否曾遇到这样的场景：向视觉语言模型输入一张街景照片，它能准确地识别出“图中有建筑、树木、行人和车辆”，但当你进一步追问“窗户具体在哪个位置？背包是哪一个？狗绳在哪里？”时，模型却开始含糊其辞，甚至将语义相近但空间位置完全不同的物体混淆在一起。

这背后的核心问题，往往并非模型缺乏“视觉感知能力”，而是其训练目标本身存在局限性。许多视觉语言模型更擅长进行图像级别的图文匹配，即将整张图片与一段文本描述在语义空间中对齐。然而，当任务要求对图像中的每个局部区块（patch）乃至像素区域进行精细的语义标注时，模型的不足便暴露无遗。今天我们要探讨的TIPSv2这项研究，其核心贡献正在于此：它不满足于“整体图文匹配”，而是致力于赋予视觉编码器更强大的密集图文对齐能力，确保图像中的每一个局部细节都能稳定地对应到具体的文本概念上。

1. 论文旨在解决的核心挑战是什么？

传统的CLIP或SigLIP等模型能力卓越，它们能够实现图像与文本描述的跨模态对齐，例如输入“一只趴在沙发上的狗”，模型可以从图库中检索出匹配的图片。然而，这类模型普遍存在一个共性问题：其对齐能力往往偏向于全局语义理解。模型知道“整张图像在描述什么”，却未必清楚“图像中每个局部区域对应文本中的哪个词汇”。

另一方面，像DINO、iBOT、DINOv2这类基于自监督学习的视觉模型，在捕捉图像空间结构方面表现出色，因此在图像分割、深度估计等需要密集预测的视觉任务中表现优异。但它们天生并未与文本语义空间对齐。这就形成了一个经典的矛盾：擅长理解局部结构的模型，不一定懂语言；而懂语言的模型，又不一定能精准定位局部。

TIPSv2的目标，正是要融合这两方面的优势：既保留视觉模型对局部结构的敏感度，又让每个图像块（patch）能够与文本类别实现更精准的对齐。论文甚至揭示了一个反直觉的现象：在patch级别的图文对齐任务上，某些大型模型的表现反而不如通过知识蒸馏得到的小型模型。这暗示着问题的关键可能并非“模型规模不足”，而是训练目标未能有效地将局部语义信息“固化”下来。

2. 整体框架：TIPSv2 的三大核心创新

图片

TIPSv2的整体方案可以概括为三大核心改进：第一，采用改进的iBOT++方法进行patch级别的自监督学习，让模型不仅学习预测被掩码遮盖的patch，同时也学习未被遮盖的patch，从而增强局部语义表征的稳定性；第二，引入Head-only EMA策略以降低训练成本，不再维护完整的指数移动平均（EMA）教师视觉编码器，而仅对投影头（projection head）进行滑动平均更新；第三，利用多粒度描述文本提升文本监督的质量，让模型同时接触到网络替代文本、PaliGemma生成的描述以及Gemini生成的描述，从而获得更丰富的语义信号。

3. 训练架构详解：TIPSv2 是如何构建的？

图片

从Figure 3可以看出，TIPSv2仍然采用经典的图文双编码器框架：图像输入视觉编码器，文本输入文本编码器，然后通过图文对比学习拉近全局图像表示与文本表示之间的距离。与此同时，模型还通过DINO风格的全局自蒸馏学习稳定的视觉表征，并借助iBOT++在patch级别强化局部语义对齐。

更通俗地讲，TIPSv2在训练过程中同时向模型提出三个问题：整张图像和这段文本描述是否匹配？同一张图像经过裁剪、数据增强后，其全局语义是否保持一致？被遮盖和未被遮盖的局部图像块，是否都能与教师模型提供的局部语义对齐？

4. iBOT++：为何要对“未被遮盖的 patch”也计算损失？

图片

原始iBOT的逻辑类似于“完形填空”：随机遮盖图像中的部分patch，让学生模型根据上下文信息预测这些被遮盖区域的教师特征。这一设计对于学习视觉结构非常有效，但TIPSv2发现，如果损失仅计算在被遮盖的patch上，那些可见的patch虽然参与了推理过程，却没有被直接要求保持局部语义的一致性。它们可能仅仅服务于“帮助模型推测被遮盖区域”这一目标，而自身并未成为语义清晰的局部表征。

iBOT++的改进简洁而有效：不仅要求被遮盖的patch对齐教师特征，也要求所有可见的patch对齐教师特征。它保留了掩码图像建模的机制，但将监督范围扩展到了被遮盖和未被遮盖的所有token上，从而迫使学生模型在重建全局上下文的同时，也必须保证每个局部位置的语义准确性。

这个改进可以用课堂教学来比喻：原始iBOT就像老师只批改试卷中的填空题，学生只需猜出空白处的内容即可；而iBOT++则像老师不仅批改填空题，还会检查未被挖空的句子是否理解正确。这样一来，学生就无法仅依靠上下文信息投机取巧，而必须扎实地掌握每一个局部知识点。

5. 知识蒸馏带来的关键启示

TIPSv2有一个有趣的发现：在零样本图像分割这类密集图文对齐任务上，通过知识蒸馏得到的小型学生模型，其性能可能超越原始的大型教师模型。论文数据显示，经过蒸馏的TIPS ViT-L学生模型在PC59、PC60、VOC21、ADE150等多个数据集上的表现，均显著超过了其教师模型TIPS ViT-g。这一现象反过来提示研究者，蒸馏过程可能为patch级别的对齐提供了更直接、更均匀的监督信号。

进一步的消融实验表明，关键在于两方面：首先，移除掩码后，patch级别的损失将覆盖所有token；其次，视觉学生模型需要随机初始化，而非从已有的视觉编码器进行微调。这说明蒸馏之所以能提升patch-text对齐能力，很可能是因为它强制要求学生模型在所有图像块上继承更稳定的局部语义，而非仅仅在被遮盖的区域进行学习。

6. 多粒度文本描述：短描述太粗略，长描述又太简单，如何平衡？

图片

Figure 4的示例非常典型：网络替代文本可能只是关键词的堆砌，PaliGemma生成的描述会提供基本的主体信息，而Gemini生成的描述则会进一步阐述姿态、风格、场景和物体关系。对人类而言，这些细节很自然，但对模型来说，它们决定了视觉编码器能否学习到更精细的语义信息。

然而，论文也指出了一个反直觉的发现：单独使用更长、更详细的描述文本，效果并不总是更好。如果描述过于详尽，图文对比学习任务会变得过于简单，模型可能仅依靠文本中丰富的细节来区分批次内的样本，反而学不到鲁棒的表征。因此，TIPSv2在训练中随机交替使用PaliGemma和Gemini生成的描述，既保留了细节信息，也维持了适当的学习难度。

7. Head-only EMA：节省显存，同时保持训练稳定性

在自监督学习中，EMA教师模型是一种常见技术。例如DINO和iBOT会维护一个教师网络，其参数是学生网络参数的指数移动平均，用于提供稳定的学习目标，防止训练崩溃。问题在于，完整复制一份视觉编码器的成本极高，尤其是当ViT-g这类大型模型参与训练时，显存占用和计算吞吐都会受到显著影响。

TIPSv2的判断是：在纯自监督学习中，完整的EMA教师模型至关重要，因为模型需要依赖它来防止表征塌缩；但在图文预训练任务中，CLIP风格的图文对比损失本身已为编码器提供了稳定的约束，因此不一定需要对整个视觉编码器进行EMA更新。于是，TIPSv2采用了Head-only EMA策略，即让教师和学生模型共享同一个视觉编码器，仅对投影头进行EMA更新。

8. 可视化效果：TIPSv2 的 patch 特征更接近“语义地图”

图片

Figure 5对TIPS、SigLIP2和TIPSv2的patch特征进行了PCA降维可视化。你可以将这些彩色图理解为“模型眼中的局部语义地图”：如果同一物体区域颜色一致，不同物体边界清晰，则说明patch表征在空间上更连贯，也更有利于下游分割任务。

TIPSv2生成的特征图相比其他视觉语言预训练方法更加平滑，且物体边界更为清晰。这与iBOT++的设计直觉一致：当每个可见的patch也受到直接监督时，它们不再仅仅是“推理上下文的工具”，而是被训练成更稳定的局部语义单元。

9. 实际任务表现：零样本分割能力显著提升

图片

Figure 6展示了一个非常硬核的评估设置：不进行任何额外的后处理，直接使用每个图像patch的token嵌入与类别文本的嵌入向量进行最近邻匹配，从而生成分割结果。这一设置特别适合检验patch-text对齐能力，因为如果patch与文本类别未能真正对齐，生成的分割图就会显得破碎、混乱、边界模糊。

从结果来看，TIPSv2的分割图明显比TIPS和SigLIP2更接近真实标注。对应的定量结果也非常强劲：TIPSv2 L/14在PC59、PC60、VOC21、ADE150数据集上分别取得了37.1、33.9、44.4、24.7的分数，整体优于表格中的对比方法。

10. iBOT++ 的实际贡献：对比可视化一目了然

图片

Figure 9中最值得关注的并非颜色是否鲜艳，而是噪声与碎片化程度的对比：原始iBOT的分割结果更容易出现局部混乱，而iBOT++的结果明显更加干净、连贯。这说明iBOT++的作用并非“添加了一个玄学的技巧”，而是非常具体地改善了局部patch与文本类别之间的对应关系。

对于开放词汇分割、区域级图像检索、视觉定位、机器人场景理解等任务而言，这种能力至关重要。因为在真实应用场景中，用户很少仅仅询问“图里有什么”，更多时候会追问“我想要的东西具体在哪里”。

11. 结果解读：TIPSv2 并非单点突破，而是全面均衡的增强

从消融实验来看，TIPSv2的三个模块是逐步叠加贡献的：基线TIPS ViT-g在ADE150零样本分割任务上的得分为3.5，加入iBOT++后提升至17.6，再加入多粒度描述文本后达到18.1，最后引入Head-only EMA后达到19.1。同时，在图文检索和纯视觉任务上的性能也大多保持或有所提升。

从横向比较来看，TIPSv2在全局图文任务上也并非只顾分割而忽视检索。论文Table 6显示，TIPSv2 g/14在COCO图像到文本检索任务上达到75.7分，在COCO文本到图像检索任务上达到60.7分，在DOCCI数据集的两个检索方向上也明显优于TIPS。而在纯视觉任务中，TIPSv2 g/14在PASCAL分割、ADE20k分割、NYUv2深度估计等任务上也取得了领先的结果。

与DINOv3对比时，论文采用了双方最大的共同模型尺寸ViT-L，并在6个评估指标中报告TIPSv2在4个指标上获胜。但需要注意的是，TIPSv2在ImageNet零样本分类任务上并非最强，这表明它更像是一个面向通用视觉语言理解与密集对齐任务的平衡型编码器，而非单纯为图像分类榜单优化的模型。

12. 论文带来的核心启示

TIPSv2最值得铭记的，并非仅仅是“又发布了一个新的视觉语言模型”，而是它指出了一个容易被忽视的训练目标问题：如果我们只要求整张图像与文本对齐，模型可能学会的是全局语义的“捷径”；如果我们希望模型真正理解图像的局部细节，就必须在patch级别给予其足够明确、足够稳定的监督。

iBOT++的巧妙之处在于，它并未发明一个复杂的新网络，而是将一个训练细节从“仅关注被遮盖的token”调整为“关注所有token”，却直接击中了patch-text对齐的痛点。Head-only EMA则体现了工程上的克制：既利用EMA来稳定自监督目标，又不盲目复制整个编码器。多粒度描述文本则提醒我们，文本监督并非越长越好，而是需要在信息丰富度与学习难度之间找到平衡点。

如果说CLIP是让模型学会“这张图匹配哪句话”，那么TIPSv2则更进一步，试图让模型学会“这张图中的每个区域分别对应哪些词汇”。这正是下一代视觉语言模型迈向开放词汇分割、具身智能、图像编辑、医学影像分析和复杂视觉智能体时不可或缺的核心能力。因为真正有用的视觉智能，从来不只是看见世界，而是理解世界的每一部分究竟意味着什么。

来源:https://www.51cto.com/article/841955.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：TRACESAFE-BENCH框架评测Agent执行过程安全性下一篇：Perplexity Pro订阅后模型切换失效的解决方法与刷新技巧