首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
VLM剪枝新SOTA:无需重训练,注意力去偏置超越6大方案

VLM剪枝新SOTA:无需重训练,注意力去偏置超越6大方案

热心网友
36
转载
2026-01-30


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

新智元报道

编辑:LRST

【新智元导读】常用的attention机制存在位置偏置和padding异常,影响剪枝效果。上海大学曾丹团队提出一种无需重新训练的attention去偏方法,有效提升剪枝性能,使模型在信息受限时仍能可靠运行,为VLMs在移动端和边缘计算等场景的高效部署提供了新思路。

近年来,Vision-Language Models(视觉—语言模型)在多模态理解任务中取得了显著进展,并逐渐成为通用人工智能的重要技术路线。

然而,这类模型在实际应用中往往面临推理开销大、效率受限的问题,研究者通常依赖visual token pruning等策略降低计算成本,其中attention机制被广泛视为衡量视觉信息重要性的关键依据。

近日,上海大学曾丹团队联合南开大学研究人员,从attention可靠性的角度出发,系统揭示了Vision-Language Models中普遍存在的attention偏置问题,并提出了一种无需重新训练的attention去偏方法,在多个主流模型、剪枝策略及图像与视频基准上验证了其有效性,为多模态模型的高效、可靠部署提供了新的思路。


文章代码:https://github.com/intcomp/attention-bias

文章链接:https://arxiv.org/abs/2508.17807

研究意义

近年来,视觉—语言模型(Vision-Language Models,VLMs)在图像理解、视觉问答、多模态对话等任务中表现突出,并逐渐成为通用人工智能的重要技术基础。

然而,这类模型在实际部署时往往面临一个现实挑战:模型推理成本高,速度慢。

为提升效率,研究者通常会采用visual token pruning(视觉 token 剪枝)技术,即在不显著影响性能的前提下,丢弃不重要的视觉信息。其中,attention机制被广泛用作判断「哪些视觉 token 更重要」的核心依据。

但上海大学曾丹团队在研究中发现:attention并不总是可靠的「重要性指标」。

在多模态模型中,attention 往往受到多种结构性偏置的影响,这些偏置与真实语义无关,却会直接左右剪枝结果,从而影响模型性能。

针对这一问题,该团队系统分析了VLM中attention的行为特性,提出了一种Attention Debiasing(注意力去偏)方法,在无需重新训练模型的前提下,有效提升了多种主流剪枝方法的稳定性与可靠性。

如下图所示,提出的方法应用于目前基于attention的剪枝方法上之后,都有提升。


研究背景

在直觉上,attention机制往往被理解为「模型更关注哪里」,因此被自然地视为语义重要性的体现。

然而,曾丹团队的研究表明,在Vision-Language Models中,attention 往往并非只由内容决定,而是隐含着多种系统性偏置。

其中最典型的有两类:

第一类是位置偏置(recency bias)。研究发现,language-to-vision attention 会随着视觉 token 在序列中的位置不断增大,也就是说,模型更倾向于关注「后面的 token」。如图所示,这通常表现为模型对图像下方区域给予更高 attention,即便这些区域并不包含关键信息。


第二类是padding引发的attention sink现象。在实际输入中,为了统一尺寸,图像往往需要padding,但这些区域在语义上是「空白」的。然而,由于hidden state中出现异常激活,padding对应的token反而可能获得较高attention,从而被错误地保留下来。下图是pad区域填充不同的数值时,pad区域对应的attention score数值以及hidden states的激活值。


更值得注意的是,当attention被用于剪枝排序时,这些偏置并不会被削弱,反而会被进一步放大,最终导致剪枝结果偏离真实语义需求。

研究方法

针对上述问题,上海大学曾丹团队并没有提出新的剪枝算法,也没有对模型结构进行修改,而是从一个更基础的角度出发:既然attention本身是有偏的,是否可以先对attention进行修正?

该团队观察到,attention中的偏置并非随机噪声,而是呈现出稳定的整体趋势。因此,他们通过对attention随token位置变化的趋势进行拟合,构建了一条反映「位置偏置」的曲线,并在此基础上对原始attention进行去偏修正,显式削弱与内容无关的位置因素,使attention更接近真实的语义重要性。如下图所示。

与此同时,在剪枝阶段显式抑制padding token的影响,避免语义为空的区域干扰剪枝排序。整个过程无需重新训练模型,也不依赖特定的剪枝策略,可作为plug-and-play模块直接集成到现有方法中。


实验结果和应用前景

在实验验证中,该团队将Attention Debiasing方法集成到FastV、PyramidDrop、SparseVLM、HiMAP、TokenCarve、iLLaVA等6种主流attention-based剪枝方法中,在10个图像理解基准与3个视频理解基准上进行了系统评估,并覆盖LLaVA-7B / 13B等多种主流Vision-Language Models

实验结果表明,在几乎所有设置下,经过attention去偏修正后,剪枝模型都能获得一致且稳定的性能提升,且在剪枝更激进、token预算更紧张的情况下效果尤为明显。这说明,对attention进行去偏处理,有助于模型在「更少信息」的条件下做出更可靠的判断。



此外,通过对实验结果的可视化分析,原始attention-based剪枝方法往往保留了大量位于图像下方或padding区域的视觉token,而与问题语义密切相关的关键区域却容易被忽略。引入attention去偏修正后,模型保留的视觉区域更加集中于目标物体及关键细节位置,有效减少了无关背景的干扰。该结果直观验证了attention去偏在提升剪枝合理性和可解释性方面的作用。

从应用角度来看,该研究对多模态模型在「移动端部署、边缘计算、实时视觉理解」等场景具有重要意义,也为后续更稳健的attention设计和多模态模型优化提供了新的研究思路。


总结

该研究表明,attention并非天然等价于语义重要性,尤其在Vision-Language Models中,如果忽视attention中潜在的结构性偏置,基于attention的剪枝策略可能会被误导。

上海大学曾丹团队通过简单而有效的attention去偏方法,显著提升了多模态模型在效率与可靠性之间的平衡能力。

参考资料:

https://arxiv.org/abs/2508.17807


来源:https://www.163.com/dy/article/KKHSK2G30511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

MicroCoder突破大模型训练瓶颈:用算法数据框架提升经验
AI
MicroCoder突破大模型训练瓶颈:用算法数据框架提升经验

MicroCoder团队 投稿量子位 | 公众号 QbitAI新一代代码模型的训练动态已与旧模型截然不同,主流强化学习方法和数据集在其上几乎“失效”。微软亚洲研究院与剑桥大学、普林斯顿联合推出Mic

热心网友
03.30
上海数月造出极耐碱蛋白:从卷模型到拼数据,语料普惠计划升级2.0
科技数码
上海数月造出极耐碱蛋白:从卷模型到拼数据,语料普惠计划升级2.0

上海一家蛋白质研发平台公司,采集了马里亚纳海沟、盐湖等极端环境下依然存活的微生物,并标注温度、压强、PH值等多维指标,形成尤为珍贵的蛋白质数据集,随后借由AI大模型能力,仅数月就改造出一种耐碱性提升

热心网友
03.30
算法催更与老板发愁:AI垃圾视频正淹没YouTube
业界动态
算法催更与老板发愁:AI垃圾视频正淹没YouTube

3月30日消息,随着AI技术的普及,视频平台YouTube正面临前所未有的内容治理挑战。一方面,平台积极鼓励创作者引入AI工具以提升内容生产的效率与边界;另一方面,平台也明确表示将严厉打击低投入、批

热心网友
03.30
电价优势如何助力低成本Token出海:机遇与路径解析
科技数码
电价优势如何助力低成本Token出海:机遇与路径解析

文 | 盘古智库当前,市场上流行一种极度简化的商业叙事:将中国丰富的绿电资源视为人工智能时代的“新煤矿”。其基本逻辑可以表述为:利用西部低至 0 3 元每度的电力优势驱动大规模智算中心,通过算力芯片

热心网友
03.29
DDR5内存价格持续回落,2024年行情趋势全解析
礼仪与书信
DDR5内存价格持续回落,2024年行情趋势全解析

快科技3月29日消息,据媒体报道,近日,国内DDR5内存价格出现下跌,引发市场关注:这究竟是短期波动,还是内存紧缺趋势真正开始缓解?工信部信息通信经济专家委员会委员盘和林分析认为,内存条未来将持续降

热心网友
03.29

最新APP

恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29
暗黑之地
暗黑之地
角色扮演 03-28
你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26

热门推荐

彭博社:苹果折叠iPhone将是重大改款,全新设计揭秘
网络安全
彭博社:苹果折叠iPhone将是重大改款,全新设计揭秘

IT之家 3 月 30 日消息,彭博社记者马克 · 古尔曼昨天在最新一期《Power On》通讯中表示,他对苹果首款折叠屏手机 iPhone Fold 寄予厚望。他表示,这款手机将成为“iPhone

热心网友
03.30
Intel新款CPU上市两天即涨17%:剖析首发热销溢价值
电脑教程
Intel新款CPU上市两天即涨17%:剖析首发热销溢价值

3月29日消息,Intel全新的Arrow Lake Refresh系列处理器酷睿Ultra 200S Plus已经于3月26日正式上市,包括酷睿Ultra 5 250K Plus和酷睿Ultra

热心网友
03.30
企查查上线智能体数据平台,Token消耗显著下降
科技数码
企查查上线智能体数据平台,Token消耗显著下降

企查查正式推出智能体数据平台(agent qcc com),可通过标准MCP协议对接阿里云百炼、扣子Coze、飞书集成平台等主流Agent平台。该平台针对AI Agent企业级应用面临的模型幻觉、上

热心网友
03.30
张雪赛车WSBK夺九千万A轮融资,封神夺冠与资本新篇
科技数码
张雪赛车WSBK夺九千万A轮融资,封神夺冠与资本新篇

【张雪机车获世界顶级赛事冠军】在3月28日进行的世界超级摩托车锦标赛(WSBK)中量级赛事(葡萄牙站)中,法国车手Valentin Debise驾驶张雪机车(编号53)820RR-RS车型,以领先近

热心网友
03.30
GoPro新品搭载GP3处理器,4月正式发布
科技数码
GoPro新品搭载GP3处理器,4月正式发布

IT之家 3 月 30 日消息,GoPro 上周(3 月 25 日)宣布将在 4 月 19 日-22 日的 NAB Show 2026 展会上发布新一代相机产品,搭载下一代 GP3 影像处理器。据介

热心网友
03.30