首页 游戏 软件 资讯 排行榜 专题
首页
AI
Google DeepMind TIPSv2 实现图像分块精准文字理解

Google DeepMind TIPSv2 实现图像分块精准文字理解

热心网友
55
转载
2026-05-17

你是否曾遇到这样的场景:向视觉语言模型输入一张街景照片,它能准确地识别出“图中有建筑、树木、行人和车辆”,但当你进一步追问“窗户具体在哪个位置?背包是哪一个?狗绳在哪里?”时,模型却开始含糊其辞,甚至将语义相近但空间位置完全不同的物体混淆在一起。

这背后的核心问题,往往并非模型缺乏“视觉感知能力”,而是其训练目标本身存在局限性。许多视觉语言模型更擅长进行图像级别的图文匹配,即将整张图片与一段文本描述在语义空间中对齐。然而,当任务要求对图像中的每个局部区块(patch)乃至像素区域进行精细的语义标注时,模型的不足便暴露无遗。今天我们要探讨的TIPSv2这项研究,其核心贡献正在于此:它不满足于“整体图文匹配”,而是致力于赋予视觉编码器更强大的密集图文对齐能力,确保图像中的每一个局部细节都能稳定地对应到具体的文本概念上。

1. 论文旨在解决的核心挑战是什么?

传统的CLIP或SigLIP等模型能力卓越,它们能够实现图像与文本描述的跨模态对齐,例如输入“一只趴在沙发上的狗”,模型可以从图库中检索出匹配的图片。然而,这类模型普遍存在一个共性问题:其对齐能力往往偏向于全局语义理解。模型知道“整张图像在描述什么”,却未必清楚“图像中每个局部区域对应文本中的哪个词汇”。

另一方面,像DINO、iBOT、DINOv2这类基于自监督学习的视觉模型,在捕捉图像空间结构方面表现出色,因此在图像分割、深度估计等需要密集预测的视觉任务中表现优异。但它们天生并未与文本语义空间对齐。这就形成了一个经典的矛盾:擅长理解局部结构的模型,不一定懂语言;而懂语言的模型,又不一定能精准定位局部。

TIPSv2的目标,正是要融合这两方面的优势:既保留视觉模型对局部结构的敏感度,又让每个图像块(patch)能够与文本类别实现更精准的对齐。论文甚至揭示了一个反直觉的现象:在patch级别的图文对齐任务上,某些大型模型的表现反而不如通过知识蒸馏得到的小型模型。这暗示着问题的关键可能并非“模型规模不足”,而是训练目标未能有效地将局部语义信息“固化”下来。

2. 整体框架:TIPSv2 的三大核心创新

图片图片

TIPSv2的整体方案可以概括为三大核心改进:第一,采用改进的iBOT++方法进行patch级别的自监督学习,让模型不仅学习预测被掩码遮盖的patch,同时也学习未被遮盖的patch,从而增强局部语义表征的稳定性;第二,引入Head-only EMA策略以降低训练成本,不再维护完整的指数移动平均(EMA)教师视觉编码器,而仅对投影头(projection head)进行滑动平均更新;第三,利用多粒度描述文本提升文本监督的质量,让模型同时接触到网络替代文本、PaliGemma生成的描述以及Gemini生成的描述,从而获得更丰富的语义信号。

3. 训练架构详解:TIPSv2 是如何构建的?

图片图片

从Figure 3可以看出,TIPSv2仍然采用经典的图文双编码器框架:图像输入视觉编码器,文本输入文本编码器,然后通过图文对比学习拉近全局图像表示与文本表示之间的距离。与此同时,模型还通过DINO风格的全局自蒸馏学习稳定的视觉表征,并借助iBOT++在patch级别强化局部语义对齐。

更通俗地讲,TIPSv2在训练过程中同时向模型提出三个问题:整张图像和这段文本描述是否匹配?同一张图像经过裁剪、数据增强后,其全局语义是否保持一致?被遮盖和未被遮盖的局部图像块,是否都能与教师模型提供的局部语义对齐?

4. iBOT++:为何要对“未被遮盖的 patch”也计算损失?

图片图片

原始iBOT的逻辑类似于“完形填空”:随机遮盖图像中的部分patch,让学生模型根据上下文信息预测这些被遮盖区域的教师特征。这一设计对于学习视觉结构非常有效,但TIPSv2发现,如果损失仅计算在被遮盖的patch上,那些可见的patch虽然参与了推理过程,却没有被直接要求保持局部语义的一致性。它们可能仅仅服务于“帮助模型推测被遮盖区域”这一目标,而自身并未成为语义清晰的局部表征。

iBOT++的改进简洁而有效:不仅要求被遮盖的patch对齐教师特征,也要求所有可见的patch对齐教师特征。它保留了掩码图像建模的机制,但将监督范围扩展到了被遮盖和未被遮盖的所有token上,从而迫使学生模型在重建全局上下文的同时,也必须保证每个局部位置的语义准确性。

这个改进可以用课堂教学来比喻:原始iBOT就像老师只批改试卷中的填空题,学生只需猜出空白处的内容即可;而iBOT++则像老师不仅批改填空题,还会检查未被挖空的句子是否理解正确。这样一来,学生就无法仅依靠上下文信息投机取巧,而必须扎实地掌握每一个局部知识点。

5. 知识蒸馏带来的关键启示

TIPSv2有一个有趣的发现:在零样本图像分割这类密集图文对齐任务上,通过知识蒸馏得到的小型学生模型,其性能可能超越原始的大型教师模型。论文数据显示,经过蒸馏的TIPS ViT-L学生模型在PC59、PC60、VOC21、ADE150等多个数据集上的表现,均显著超过了其教师模型TIPS ViT-g。这一现象反过来提示研究者,蒸馏过程可能为patch级别的对齐提供了更直接、更均匀的监督信号。

进一步的消融实验表明,关键在于两方面:首先,移除掩码后,patch级别的损失将覆盖所有token;其次,视觉学生模型需要随机初始化,而非从已有的视觉编码器进行微调。这说明蒸馏之所以能提升patch-text对齐能力,很可能是因为它强制要求学生模型在所有图像块上继承更稳定的局部语义,而非仅仅在被遮盖的区域进行学习。

6. 多粒度文本描述:短描述太粗略,长描述又太简单,如何平衡?

图片图片

Figure 4的示例非常典型:网络替代文本可能只是关键词的堆砌,PaliGemma生成的描述会提供基本的主体信息,而Gemini生成的描述则会进一步阐述姿态、风格、场景和物体关系。对人类而言,这些细节很自然,但对模型来说,它们决定了视觉编码器能否学习到更精细的语义信息。

然而,论文也指出了一个反直觉的发现:单独使用更长、更详细的描述文本,效果并不总是更好。如果描述过于详尽,图文对比学习任务会变得过于简单,模型可能仅依靠文本中丰富的细节来区分批次内的样本,反而学不到鲁棒的表征。因此,TIPSv2在训练中随机交替使用PaliGemma和Gemini生成的描述,既保留了细节信息,也维持了适当的学习难度。

7. Head-only EMA:节省显存,同时保持训练稳定性

在自监督学习中,EMA教师模型是一种常见技术。例如DINO和iBOT会维护一个教师网络,其参数是学生网络参数的指数移动平均,用于提供稳定的学习目标,防止训练崩溃。问题在于,完整复制一份视觉编码器的成本极高,尤其是当ViT-g这类大型模型参与训练时,显存占用和计算吞吐都会受到显著影响。

TIPSv2的判断是:在纯自监督学习中,完整的EMA教师模型至关重要,因为模型需要依赖它来防止表征塌缩;但在图文预训练任务中,CLIP风格的图文对比损失本身已为编码器提供了稳定的约束,因此不一定需要对整个视觉编码器进行EMA更新。于是,TIPSv2采用了Head-only EMA策略,即让教师和学生模型共享同一个视觉编码器,仅对投影头进行EMA更新。

8. 可视化效果:TIPSv2 的 patch 特征更接近“语义地图”

图片图片

Figure 5对TIPS、SigLIP2和TIPSv2的patch特征进行了PCA降维可视化。你可以将这些彩色图理解为“模型眼中的局部语义地图”:如果同一物体区域颜色一致,不同物体边界清晰,则说明patch表征在空间上更连贯,也更有利于下游分割任务。

TIPSv2生成的特征图相比其他视觉语言预训练方法更加平滑,且物体边界更为清晰。这与iBOT++的设计直觉一致:当每个可见的patch也受到直接监督时,它们不再仅仅是“推理上下文的工具”,而是被训练成更稳定的局部语义单元。

9. 实际任务表现:零样本分割能力显著提升

图片图片

Figure 6展示了一个非常硬核的评估设置:不进行任何额外的后处理,直接使用每个图像patch的token嵌入与类别文本的嵌入向量进行最近邻匹配,从而生成分割结果。这一设置特别适合检验patch-text对齐能力,因为如果patch与文本类别未能真正对齐,生成的分割图就会显得破碎、混乱、边界模糊。

从结果来看,TIPSv2的分割图明显比TIPS和SigLIP2更接近真实标注。对应的定量结果也非常强劲:TIPSv2 L/14在PC59、PC60、VOC21、ADE150数据集上分别取得了37.1、33.9、44.4、24.7的分数,整体优于表格中的对比方法。

10. iBOT++ 的实际贡献:对比可视化一目了然

图片图片

Figure 9中最值得关注的并非颜色是否鲜艳,而是噪声与碎片化程度的对比:原始iBOT的分割结果更容易出现局部混乱,而iBOT++的结果明显更加干净、连贯。这说明iBOT++的作用并非“添加了一个玄学的技巧”,而是非常具体地改善了局部patch与文本类别之间的对应关系。

对于开放词汇分割、区域级图像检索、视觉定位、机器人场景理解等任务而言,这种能力至关重要。因为在真实应用场景中,用户很少仅仅询问“图里有什么”,更多时候会追问“我想要的东西具体在哪里”。

11. 结果解读:TIPSv2 并非单点突破,而是全面均衡的增强

从消融实验来看,TIPSv2的三个模块是逐步叠加贡献的:基线TIPS ViT-g在ADE150零样本分割任务上的得分为3.5,加入iBOT++后提升至17.6,再加入多粒度描述文本后达到18.1,最后引入Head-only EMA后达到19.1。同时,在图文检索和纯视觉任务上的性能也大多保持或有所提升。

从横向比较来看,TIPSv2在全局图文任务上也并非只顾分割而忽视检索。论文Table 6显示,TIPSv2 g/14在COCO图像到文本检索任务上达到75.7分,在COCO文本到图像检索任务上达到60.7分,在DOCCI数据集的两个检索方向上也明显优于TIPS。而在纯视觉任务中,TIPSv2 g/14在PASCAL分割、ADE20k分割、NYUv2深度估计等任务上也取得了领先的结果。

与DINOv3对比时,论文采用了双方最大的共同模型尺寸ViT-L,并在6个评估指标中报告TIPSv2在4个指标上获胜。但需要注意的是,TIPSv2在ImageNet零样本分类任务上并非最强,这表明它更像是一个面向通用视觉语言理解与密集对齐任务的平衡型编码器,而非单纯为图像分类榜单优化的模型。

12. 论文带来的核心启示

TIPSv2最值得铭记的,并非仅仅是“又发布了一个新的视觉语言模型”,而是它指出了一个容易被忽视的训练目标问题:如果我们只要求整张图像与文本对齐,模型可能学会的是全局语义的“捷径”;如果我们希望模型真正理解图像的局部细节,就必须在patch级别给予其足够明确、足够稳定的监督。

iBOT++的巧妙之处在于,它并未发明一个复杂的新网络,而是将一个训练细节从“仅关注被遮盖的token”调整为“关注所有token”,却直接击中了patch-text对齐的痛点。Head-only EMA则体现了工程上的克制:既利用EMA来稳定自监督目标,又不盲目复制整个编码器。多粒度描述文本则提醒我们,文本监督并非越长越好,而是需要在信息丰富度与学习难度之间找到平衡点。

如果说CLIP是让模型学会“这张图匹配哪句话”,那么TIPSv2则更进一步,试图让模型学会“这张图中的每个区域分别对应哪些词汇”。这正是下一代视觉语言模型迈向开放词汇分割、具身智能、图像编辑、医学影像分析和复杂视觉智能体时不可或缺的核心能力。因为真正有用的视觉智能,从来不只是看见世界,而是理解世界的每一部分究竟意味着什么。

来源:https://www.51cto.com/article/841955.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Google DeepMind TIPSv2 实现图像分块精准文字理解
AI
Google DeepMind TIPSv2 实现图像分块精准文字理解

你是否曾遇到这样的场景:向视觉语言模型输入一张街景照片,它能准确地识别出“图中有建筑、树木、行人和车辆”,但当你进一步追问“窗户具体在哪个位置?背包是哪一个?狗绳在哪里?”时,模型却开始含糊其辞,甚至将语义相近但空间位置完全不同的物体混淆在一起。 这背后的核心问题,往往并非模型缺乏“视觉感知能力”,

热心网友
05.17
DeepMind团队构成科学家工程师与伦理学家成员解析
AI
DeepMind团队构成科学家工程师与伦理学家成员解析

人类智慧始终是一个令人着迷的课题,正是它塑造了我们今天所见的现代世界。智能让我们得以学习、想象、协作、创造与交流。通过更深入地理解智能的各个维度,我们可以将这些认知作为灵感,去构建能够自行寻找复杂问题解决方案的新型计算机系统。 这就像帮助我们探索宇宙深空的哈勃望远镜一样,此类工具已经在拓展人类认知边

热心网友
05.17
DeepMind CEO称大模型暴力方法存疑 中国开源模型领先
AI
DeepMind CEO称大模型暴力方法存疑 中国开源模型领先

近日,谷歌DeepMind的CEO德米斯·哈萨比斯(Demis Hassabis)做客Y Combinator的旗舰访谈节目《如何构建未来》。这场对话信息量极大,涵盖了从当前AI技术瓶颈到未来AGI(通用人工智能)形态的诸多核心议题。 作为AI领域的传奇人物,哈萨比斯的人生轨迹本身就颇具启发性:从国

热心网友
05.17
谷歌DeepMind天气AI模型:提前十天精准预测全球气象变化
AI
谷歌DeepMind天气AI模型:提前十天精准预测全球气象变化

每天出门前看一眼天气预报,几乎成了现代人的仪式感。但我们都经历过那种尴尬:预报说晴空万&里,结果半路淋成落汤鸡;或者带了伞,却发现一整天都艳阳高照。预测天气这件看似平常的事,其实一直是科学界的重大挑战。不过,谷歌DeepMind团队在《科学》杂志上发表的一项突破性研究,或许正在彻底改写游戏规则。他们

热心网友
05.16
谷歌与DeepMind联手推进人工智能进化之路
AI
谷歌与DeepMind联手推进人工智能进化之路

这项由谷歌、谷歌DeepMind与威斯康星大学麦迪逊分校合作的研究,于2026年5月以预印本形式发布,论文编号为arXiv:2605 07039。 一、当AI学会“复盘”:从机械搜索到经验内化 许多复杂问题的答案,并非直接查询可得,而是需要通过反复“尝试”来探索。例如,如何设计更稳定的蛋白质结构、寻

热心网友
05.15

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Keychron Z11 Ultra 8K分体式Alice键盘5月13日上市
科技数码
Keychron Z11 Ultra 8K分体式Alice键盘5月13日上市

Keychron(渴创)即将发布全新旗舰级机械键盘Z11 Ultra 8K。官方宣布,这款备受期待的“铝坨坨”键盘将于5月13日在全平台正式上市。其核心设计亮点在于采用了创新的平面式分体结构,并基于无Fn区的紧凑型Alice人体工学配列。这种设计旨在显著提升长时间打字或编程的舒适度,通过更符合自然手

热心网友
05.17
Token与Session和Cookie的区别及在Web3中的应用解析
web3.0
Token与Session和Cookie的区别及在Web3中的应用解析

针对cookie、session和token的区别问题,提供了多个更口语化且符合搜索习惯的标题优化版本,包括直接提问式、场景式、详解清单式和简单直白式,旨在更直观地突出核心比较信息并控制标题长度。

热心网友
05.17
Arm客户两年内对AGI芯片需求突破20亿美元
科技数码
Arm客户两年内对AGI芯片需求突破20亿美元

Arm近期的发展势头持续强劲,在最新公布的2026财年第四季度财报会议中,公司披露了一项关键进展:客户对其首款自研处理器——Arm AGI CPU——在2027至2028财年期间的总需求预估已超过20亿美元。相比今年3月产品发布时的初期预期,这一数字增长超过一倍,反映出市场对Arm自研芯片的高度期待

热心网友
05.17
Cerebras AI芯片IPO获超20倍认购 拟上调发行价近30%
科技数码
Cerebras AI芯片IPO获超20倍认购 拟上调发行价近30%

资本市场对AI硬件的热情,似乎找到了一个新的焦点。路透社昨日援引知情人士消息称,AI芯片新锐Cerebras Systems即将进行的首次公开募股(IPO),获得了投资者的热烈追捧,超额认购倍数已突破20倍。根据资本信息平台Dealogic的数据,这桩IPO有望成为2026年以来全球规模最大的一笔。

热心网友
05.17
Token分类全解析:从功能型到治理型如何定义与区分
web3.0
Token分类全解析:从功能型到治理型如何定义与区分

加密货币代币主要分为实用型、证券型、支付型、治理型和资产型五大类。其分类依据核心功能与属性,如是否代表资产、提供使用权或参与治理等。区分标准需结合具体设计、经济模型及法律框架综合判断。

热心网友
05.17