特伦托大学联合发布视频AI新技术 算力节省高达百分之九十
近日,视频大语言模型(Video LLM)领域迎来一项重要突破。由特伦托大学、清华大学及电子科技大学组成的联合研究团队,在arXiv预印本平台上发表了一项创新成果。这项名为《通过局部与全局上下文优化实现令牌削减的高效视频大语言模型》的研究,精准切中了当前视频AI模型的核心挑战——高昂的计算成本与缓慢的推理速度。团队提出的AOT(基于最优传输的锚点)技术,如同一把精密的“手术刀”,成功将模型计算量削减了90%,同时性能损失控制在极低水平。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

当前,主流的视频AI模型在处理一段数分钟的视频时,其工作模式堪称“计算密集型”。它们需要逐一分析成千上万个“视觉令牌”——即视频被分割后形成的微小图像片段。这种逐帧、逐块的深度处理方式,虽然保证了分析的细致性,却也带来了巨大的计算开销。这就好比要求读者必须逐字逐句精读一部巨著,过程不仅耗时,有时还可能因过度关注细节而忽略了核心主旨。
现有的视频令牌压缩方法试图缓解这一问题,但思路往往较为直接。它们要么像使用粗糙的橡皮擦,直接丢弃部分视觉令牌;要么强行将外观相似的令牌进行合并。问题在于,这些方法在判断“冗余”信息时,容易误判并丢失那些看似细微实则关键的特征,如同在整理房间时,不慎将夹在书页中的重要便签一并丢弃。
一、化繁为简的“信息传送”哲学
AOT技术的核心,在于其独特的“信息传送”思维。它不再聚焦于“删除”或“合并”,而是构建了一套精巧的“信息精华传输系统”。想象你需要整理一个庞大的资料库。传统方法是直接丢弃部分资料,或将主题相近的资料简单归类。而AOT的做法,则像是在资料库中设立几个精心选址的“核心档案架”,然后借助名为“最优传输”的数学工具,将其他资料中最有价值的部分,精准地“传送”并整合到这些核心档案架上。
该方法的精妙之处,首先体现在其双重锚点选择策略上。研究团队为每一帧图像构建了两套定位机制:一套如同卫星俯瞰,从全局视角锁定画面中最具语义重要性的区域;另一套则像显微镜观察,聚焦于局部网格内的关键细节。这种“宏观把握”与“微观洞察”的结合,确保了模型既能理解整体场景,又不遗漏细微特征。
随后,“最优传输”理论扮演了关键角色。这个数学概念可以用一个生活化的比喻来理解:假设你需要将旧宅中丰富的藏品搬迁至一个空间有限的新居,你需要决定如何以最合理、最经济的方式,将这些藏品重新安置到新居的特定位置。最优传输解决的就是这个“最优分配”问题——既要确保所有重要物品都被妥善安置,又要最小化搬迁成本,同时还要让新居的布局功能最大化。在AOT框架中,“旧宅藏品”对应海量的视觉令牌,“新居位置”是选定的少数锚点,而“搬迁成本”则由令牌之间的特征相似度来定义。
二、单帧画面的智能信息聚合
在处理单帧图像时,AOT采用“锚点选择”策略。这个过程类似于在一幅复杂的马赛克画中,智能地挑选出几块最能代表整体图案的核心瓷砖。选择并非随机,而是由模型内部的注意力机制引导——正如人类视觉会自然聚焦于画面中的显著物体。
具体而言,系统首先进行“全局海选”,找出最能代表整幅图像主题的区域,即“全局锚点”。同时,它将图像划分为多个非重叠的网格,在每个网格内评选出一个“局部代表”,即“局部锚点”。这样,图像的整体语义与局部细节均得到了表征。
锚点确定后,核心的优化过程启动。系统运用最优传输算法,决策如何将其他非锚点令牌所承载的信息,“浓缩”并“分配”到这些锚点上。这个过程类似于烹饪中的“萃取精华”——投入多种原料,最终获得高度浓缩的风味基底。每个锚点会根据计算出的最优分配方案,吸收来自其他区域的互补信息,从而使自身表征变得更加丰富和全面。
信息“传输成本”的计算基于余弦相似度:两个令牌的特征越相似,“运输”成本越低,系统就越倾向于将它们的信息聚合。整个优化过程通过高效的Sinkhorn-Knopp迭代算法求解,通常仅需约100次简单的矩阵运算,耗时不足总推理时间的1%,实现了极高的计算效率。
三、跨帧时序的动态压缩策略
解决了单帧内的“空间压缩”后,更大的挑战在于跨帧的“时间维度压缩”。这好比将一部完整的电影剪辑成精华预告片,既要保留故事主线,又不能错过决定性的精彩镜头。
研究团队采取了“分段处理”的策略。他们将整个视频流在时间轴上切分为多个片段。每个片段的首帧被设定为“时间锚点”,类似于电影中的关键帧。后续帧会与这个锚点进行比对与信息融合。
其精妙之处在于自适应性。当后续帧与锚点帧高度相似时(例如静态的新闻播报场景),系统会将它们的信息大量融合到锚点中,实现高效的时间压缩。然而,一旦检测到显著的视觉变化(如场景切换、剧烈动作),系统便会识别为“关键事件发生”,从而保留这些帧作为新的信息载体,确保视频的动态叙事完整性不被破坏。
这种方法尤其擅长处理视频中普遍存在的时间冗余。例如,在一段人物访谈中,背景和人物姿态可能在数十秒内保持不变,AOT会将这类高度重复的信息压缩到少数几个锚点中。而当人物出现关键的表情变化或手势强调时,这些承载重要信息的帧会被特意保留。具体的融合过程采用一种概率分配机制,根据帧与锚点之间的相似度动态决定传输权重,从而在压缩率与信息保真度之间取得平衡。
四、全面的基准测试与性能验证
为验证AOT的实际效果,研究团队在四大主流视频理解基准上进行了严格测试,包括MVBench、EgoSchema、LongVideoBench和VideoMME。实验基于两个广泛使用的视频大模型:LLaVA-OneVision-7B和LLaVA-Video-7B。
结果令人瞩目。当仅保留10%的原始视觉令牌时,AOT在所有测试中平均保持了原始模型97.6%的性能。这意味着,处理速度理论上可提升近10倍,而准确度仅轻微下降2.4%。在计算量方面,AOT将预填充阶段的浮点运算次数(FLOPs)削减至原来的8.3%,这相当于将原本需要数小时的分析任务,缩短到几十分钟内完成。
更令人惊喜的是,在某些测试场景下,搭载AOT的模型甚至表现出了优于原始模型的性能。研究团队分析,这可能是因为过量的冗余信息本身会对模型判断造成干扰,如同在嘈杂环境中难以听清对话。AOT通过精准提取信息精华,反而帮助模型“去芜存菁”,提升了理解的清晰度与准确性。
在处理不同长度的视频时,AOT也展现了良好的可扩展性。当视频帧数从16帧激增到128帧时,传统模型常会触及内存瓶颈,而采用AOT的模型却能保持稳定的处理能力。尤其是在分析长视频内容时,AOT的优势更为明显,它能在维持关键信息流的同时,大幅削减冗余计算。
五、核心模块与技术实现细节
AOT的实现包含多个精心设计的模块。在锚点选择阶段,系统利用注意力分数评估每个视觉令牌的重要性。对于带有[CLS]令牌的模型(如CLIP),系统计算[CLS]令牌对其他所有令牌的注意力权重,并选取权重最高的作为全局锚点。对于没有[CLS]令牌的模型(如SigLip),则启用自注意力机制来评估令牌间的相互重要性。
在局部锚点选择中,图像被划分为多个非重叠窗口,每个窗口独立推举出自己的“代表令牌”。这种设计保证了空间表征的多样性,避免所有重要信息都集中在画面的某个区域。全局与局部锚点的数量通常设置为1:1,以平衡宏观语义与微观细节。
最优传输问题的求解采用了经典的Sinkhorn-Knopp迭代算法,该算法通过引入熵正则化,将复杂的线性规划问题转化为可快速求解的形式。实验中迭代100次即可收敛,且不会带来显著的计算开销。熵正则化参数λ设定为0.1,这在多次试验中被证明能取得最佳的性能平衡。
在时间维度处理上,系统支持两种分段策略:均匀采样和自适应聚类。前者适用于内容平稳的视频,后者则能根据视频内容的复杂程度动态调整片段长度——面对动作复杂的场景,生成更多短片段以保留细节;对于静态简单的场景,则使用较长片段来提升压缩效率。
六、与现有主流方法的对比分析
将AOT与现有的视频令牌压缩方法对比,其优势更为清晰。传统的空间压缩方法,如VisionZip,主要聚焦于单帧内的令牌合并。在保留20%令牌时,其性能下降约2%,尚可接受;但当保留率激进到10%时,性能会骤降8.4%。这种“性能悬崖”现象,很大程度上是因为纯空间压缩忽视了视频在时间轴上的连续性。
时间压缩方法,如DyCoke,采用固定的帧组策略,每组只保留首帧。这种方法的局限在于其僵化,无法适应视频内容的动态变化,对于动作丰富的片段会造成大量信息丢失。实验显示,DyCoke在25%保留率下性能下降约7.5%,明显高于AOT在相近压缩率下的1.9%。
混合压缩方法,如PruneVid,尝试在模型浅层进行反复剪枝以同时处理时空冗余。但重复的剪枝操作会累积误差,最终影响模型整体表现。FastVID通过密度感知剪枝有所改进,但其核心思路仍是“删除”,而非“利用”,难以回收被丢弃令牌中的有价值信息。
相比之下,AOT的核心优势在于其“信息聚合”哲学。通过最优传输理论,AOT能将待压缩令牌的精华“转移”到保留的锚点上,实现了信息的最大化利用。数据显示,在相同的10%令牌保留率下,AOT比性能最好的基线方法还要高出约1.1个百分点,在处理复杂动态视频内容时,这一优势更为突出。
七、最优传输机制的工作原理
要直观理解最优传输在AOT中的作用,可以想象一个水资源调配工程:一片区域散布着许多小水塘(非锚点令牌)和几个大型水库(锚点)。最优传输的目标,就是以最小的总运输成本,将所有小水塘的水(信息)高效地输送到大型水库中。
在AOT的框架下,运输成本由令牌间的特征相似度定义——相似度越高,成本越低,因为相关信息更容易融合。系统需要为每一对“水塘-水库”计算一个最优的输水量,确保所有信息都被妥善分配,同时每个水库的“库容”(信息承载能力)也得到合理利用。
Sinkhorn算法通过迭代优化来快速求解这个复杂的分配问题。它从一个初始分配方案出发,通过交替调整行和列的归一化因子,使方案不断逼近最优解。熵正则化项的引入,保证了解的唯一性和数值稳定性。整个过程通常在百次迭代内收敛,计算耗时仅毫秒级。
传输完成后,每个锚点会根据接收到的信息进行更新。更新过程采用加权平均,权重正是由最优传输方案决定。这意味着,每个锚点的最终表征,是其原始特征与接收来的精华信息的智能融合体。
八、实验设置与深入性能分析
为了全面验证AOT,研究团队设计了一系列严谨的实验。实验在8张NVIDIA A100 GPU(40GB显存)的环境中进行。模型配置上,LLaVA-OneVision以32帧(每帧196令牌)为输入,LLaVA-Video则以64帧(每帧169令牌)为输入,覆盖了不同的处理范式。
在10%的令牌保留预算下,锚点数量被优化设置为126(LLaVA-OneVision)和108(LLaVA-Video)。信息融合的强度系数λ_intra和λ_inter均设为1.0,实验证明这是最佳的平衡点。
消融实验的结果颇具启发性:仅使用全局锚点,模型性能为96.9%;仅使用局部锚点,性能为94.9%;而两者结合时,性能达到了97.6%。这有力地证明了双重锚点策略的必要性——全局锚点把握主旨,局部锚点捕捉细节,二者协同工作效果最佳。
在不同压缩比例下的性能曲线也很有说服力:在25%保留率下,AOT能保持99.5%的原始性能,几乎无损;20%时为99.7%;15%时为98.6%;即使在极端的10%保留率下,仍能守住97.6%的防线。这种平滑下降的曲线,表明了AOT方法具有良好的可控性和鲁棒性。
九、当前局限性与未来演进方向
当然,任何技术都有其改进空间。研究团队也指出了AOT当前存在的一些局限性。最突出的问题是时间锚点的构建仍依赖于启发式方法(如取每段第一帧),缺乏像空间锚点那样坚实的理论依据,这可能不是最优策略。
其次,时间分段的边界检测可能存在误差。无论是固定分段还是动态聚类,都可能将视觉内容差异较大的帧错误地划分到同一组,从而影响压缩质量,在复杂场景中可能导致重要的时序动态信息丢失。
另一个有趣的观察是,虽然AOT以“训练无关”的方式运行,但其整个推理流程实际上是端到端可微分的。这为未来的进化打开了大门——或许可以将最优传输策略集成到模型的训练过程中,通过梯度反向传播来共同优化模型参数与压缩策略,实现更极致的效率。
计算开销方面,尽管Sinkhorn算法已相对高效,但在处理超长视频时,它仍可能成为瓶颈。对于实时性要求极高的应用场景,可能需要进一步优化迭代次数与收敛策略。
此外,当前方法主要针对视频理解任务进行优化,其在视频生成、编辑等其他多模态任务中的泛化能力,仍有待探索。将AOT的思想拓展至3D/4D空间智能任务,也是一个充满潜力的研究方向。
十、广阔的应用前景与行业影响
AOT技术的成功,为视频AI的广泛落地应用扫清了一大障碍。在移动设备上部署复杂的视频模型一直面临算力和续航的挑战。AOT带来90%的计算削减,使得在智能手机或平板电脑上运行高质量的实时视频分析成为可能。
对云服务提供商而言,这意味着显著的运营成本降低。视频内容分析服务通常消耗大量GPU资源,AOT带来的效率提升,能让同等硬件资源处理更多用户请求,或以更低成本提供同等质量的服务。
在线教育领域将直接受益。平台需要自动分析海量教学视频以生成字幕、提取知识点或评估学习效果。AOT技术能大幅降低这类功能的技术门槛和成本,让更多教育机构能够便捷地使用AI赋能教学。
内容创作行业也可能迎来变革。视频编辑软件可以集成基于AOT的AI功能,实现视频内容的实时智能分析并提供剪辑建议,无需漫长等待,极大提升创作者的效率与体验。
在医疗影像分析这类关键领域,医生常需审阅大量内窥镜、超声等动态影像。AOT技术能让AI辅助诊断系统更快地处理这些视频,为医生提供及时、精准的参考,其潜在的临床价值巨大。
从更宏观的视角看,AOT代表了一种新的技术哲学:它不再是对信息的简单“删减”,而是通过数学优化进行智能的“再分配”。这种“信息守恒”的理念,或许能启发图像处理、自然语言处理等其他AI领域,思考如何在保持信息完整性的前提下追求极致效率。
归根结底,这项研究的价值不仅在于它解决了一个具体的技术难题,更在于它为我们展示了一种应对信息过载时代的优雅思路。如何在浩瀚的数据流中精准抓取核心价值,同时兼顾效率与效果,是横跨多个技术领域的共同挑战。特伦托大学团队的这项工作,无疑提供了一个极具启发性的范本。对于希望深究技术细节的研究者与工程师,可以通过论文编号arXiv:2603.01400v1查阅完整报告。
Q&A
Q1:AOT技术是什么?
AOT(基于最优传输的锚点)是一项由特伦托大学等机构提出的高效视频AI技术。其核心在于建立一套“锚点”系统,并利用最优传输算法,将视频中的冗余信息智能地聚合到关键位置,而非简单丢弃。实验表明,该技术能在保持97.6%原始准确度的同时,将计算量减少90%。
Q2:AOT技术相比其他视频压缩方法有何优势?
传统方法多采用“直接删除”或“粗暴合并”的思路,容易丢失重要细节。AOT的创新在于其“信息聚合”策略,它通过数学优化,将被压缩部分的精华内容“传送”到保留的锚点上,确保了信息的最大化利用。在相同的压缩率下(如保留10%令牌),其性能比最佳基线方法高出约1.1个百分点。
Q3:普通用户何时能体验到AOT技术?
目前AOT仍处于学术研究阶段,但其显著的效率提升,为在移动设备等资源受限环境中部署复杂视频AI铺平了道路。预计在未来几年,这项技术有望被集成到各类消费级应用中,如更智能的视频编辑软件、实时互动的在线教育平台以及手机端的AI影像工具中,为用户带来更流畅、高效的视频AI体验。
相关攻略
近日,视频大语言模型(Video LLM)领域迎来一项重要突破。由特伦托大学、清华大学及电子科技大学组成的联合研究团队,在arXiv预印本平台上发表了一项创新成果。这项名为《通过局部与全局上下文优化实现令牌削减的高效视频大语言模型》的研究,精准切中了当前视频AI模型的核心挑战——高昂的计算成本与缓慢
探索魔兽世界12 0 7新地图:孢子陨落团队副本、虚空传送门与致盲之花仪式场所完整攻略 这次更新带来的新区域,可以说信息量不小。咱们直接切入正题,一起来看看虚空传送门、孢子坠落以及致盲之花仪式场所的完整渲染地图究竟有何玄机。 World of Warcraft: Patch 12 0 7 开发日志
近期,特伦托大学联合清华大学和电子科技大学的研究团队发表了一项引人注目的研究成果,论文题为《Token Reduction via Local and Global Contexts Optimiz
IT之家 12 月 26 日消息,ColorOS 今日公布 OPPO Pad 5 十二月升级重点,内容传送门登陆平板,解锁大屏新玩法;影像玩法更新,出圈实况拼图;桌面卡片堆叠,三方插件也能叠。IT之
热门专题
热门推荐
在《异环》这款超自然都市开放世界RPG中,探索与收集是核心玩法之一。游戏内隐藏着许多特殊成就,“梦里什么都有”便是其中一个需要达成特定条件才能触发的趣味彩蛋。如果你正在寻找这份成就的完成方法,本攻略将为你提供详尽的步骤指引。 异环梦里什么都有成就攻略 该成就的触发位置位于卷叶榕大道区域,具体地点在维
洛克王国本周的领地试炼活动迎来更新,本次挑战的舞台是麦克达克领地。许多玩家都在寻找高效通关的方法,本文将为你带来详细的打法攻略与阵容配置思路。 洛克王国麦克达克领地试炼通关攻略详解 要成功通过麦克达克领地试炼,关键在于合理的属性克制与技能组合。下面分享一套实战有效的通关方案。 方案一:格斗系强攻阵容
Steam社区市场迎来全面革新,旨在优化海量虚拟物品的交易体验。更新包括更直观的物品展示、自动生成专属图片以及强大的动态筛选功能。所有接入市场的游戏均可受益,浏览与搜索效率显著提升,整体操作更加流畅便捷。
Perplexity支持自定义键盘快捷键,用户可在设置中为常用功能绑定组合键。浏览器快捷键可辅助清空输入框或切换结果。Windows用户可利用PowerToys命令面板全局快速启动搜索。此外,通过创建并调用Profile指令前缀,能一键加载特定AI角色与搜索约束。
设计沉浸式文字游戏需构建“角色-规则-反馈”闭环:以强约束锁定角色与环境,嵌入可验证规则(如数字阈值),确保互动有据。设计多路径反馈链,使选择触发唯一剧情,保持规则一致。注入感官细节提升临场感,并通过隐式状态追踪让游戏世界持续变化。





