特伦托大学联合发布视频AI新技术算力节省高达百分之九十_AI热点日报

近日，视频大语言模型（Video LLM）领域迎来一项重要突破。由特伦托大学、清华大学及电子科技大学组成的联合研究团队，在arXiv预印本平台上发表了一项创新成果。这项名为《通过局部与全局上下文优化实现令牌削减的高效视频大语言模型》的研究，精准切中了当前视频AI模型的核心挑战——高昂的计算成本与缓慢

近日，视频大语言模型（Video LLM）领域迎来一项重要突破。由特伦托大学、清华大学及电子科技大学组成的联合研究团队，在arXiv预印本平台上发表了一项创新成果。这项名为《通过局部与全局上下文优化实现令牌削减的高效视频大语言模型》的研究，精准切中了当前视频AI模型的核心挑战——高昂的计算成本与缓慢的推理速度。团队提出的AOT（基于最优传输的锚点）技术，如同一把精密的“手术刀”，成功将模型计算量削减了90%，同时性能损失控制在极低水平。

特伦托大学等联合发布：让视频AI节省90%算力的

当前，主流的视频AI模型在处理一段数分钟的视频时，其工作模式堪称“计算密集型”。它们需要逐一分析成千上万个“视觉令牌”——即视频被分割后形成的微小图像片段。这种逐帧、逐块的深度处理方式，虽然保证了分析的细致性，却也带来了巨大的计算开销。这就好比要求读者必须逐字逐句精读一部巨著，过程不仅耗时，有时还可能因过度关注细节而忽略了核心主旨。

现有的视频令牌压缩方法试图缓解这一问题，但思路往往较为直接。它们要么像使用粗糙的橡皮擦，直接丢弃部分视觉令牌；要么强行将外观相似的令牌进行合并。问题在于，这些方法在判断“冗余”信息时，容易误判并丢失那些看似细微实则关键的特征，如同在整理房间时，不慎将夹在书页中的重要便签一并丢弃。

一、化繁为简的“信息传送”哲学

AOT技术的核心，在于其独特的“信息传送”思维。它不再聚焦于“删除”或“合并”，而是构建了一套精巧的“信息精华传输系统”。想象你需要整理一个庞大的资料库。传统方法是直接丢弃部分资料，或将主题相近的资料简单归类。而AOT的做法，则像是在资料库中设立几个精心选址的“核心档案架”，然后借助名为“最优传输”的数学工具，将其他资料中最有价值的部分，精准地“传送”并整合到这些核心档案架上。

该方法的精妙之处，首先体现在其双重锚点选择策略上。研究团队为每一帧图像构建了两套定位机制：一套如同卫星俯瞰，从全局视角锁定画面中最具语义重要性的区域；另一套则像显微镜观察，聚焦于局部网格内的关键细节。这种“宏观把握”与“微观洞察”的结合，确保了模型既能理解整体场景，又不遗漏细微特征。

随后，“最优传输”理论扮演了关键角色。这个数学概念可以用一个生活化的比喻来理解：假设你需要将旧宅中丰富的藏品搬迁至一个空间有限的新居，你需要决定如何以最合理、最经济的方式，将这些藏品重新安置到新居的特定位置。最优传输解决的就是这个“最优分配”问题——既要确保所有重要物品都被妥善安置，又要最小化搬迁成本，同时还要让新居的布局功能最大化。在AOT框架中，“旧宅藏品”对应海量的视觉令牌，“新居位置”是选定的少数锚点，而“搬迁成本”则由令牌之间的特征相似度来定义。

二、单帧画面的智能信息聚合

在处理单帧图像时，AOT采用“锚点选择”策略。这个过程类似于在一幅复杂的马赛克画中，智能地挑选出几块最能代表整体图案的核心瓷砖。选择并非随机，而是由模型内部的注意力机制引导——正如人类视觉会自然聚焦于画面中的显著物体。

具体而言，系统首先进行“全局海选”，找出最能代表整幅图像主题的区域，即“全局锚点”。同时，它将图像划分为多个非重叠的网格，在每个网格内评选出一个“局部代表”，即“局部锚点”。这样，图像的整体语义与局部细节均得到了表征。

锚点确定后，核心的优化过程启动。系统运用最优传输算法，决策如何将其他非锚点令牌所承载的信息，“浓缩”并“分配”到这些锚点上。这个过程类似于烹饪中的“萃取精华”——投入多种原料，最终获得高度浓缩的风味基底。每个锚点会根据计算出的最优分配方案，吸收来自其他区域的互补信息，从而使自身表征变得更加丰富和全面。

信息“传输成本”的计算基于余弦相似度：两个令牌的特征越相似，“运输”成本越低，系统就越倾向于将它们的信息聚合。整个优化过程通过高效的Sinkhorn-Knopp迭代算法求解，通常仅需约100次简单的矩阵运算，耗时不足总推理时间的1%，实现了极高的计算效率。

三、跨帧时序的动态压缩策略

解决了单帧内的“空间压缩”后，更大的挑战在于跨帧的“时间维度压缩”。这好比将一部完整的电影剪辑成精华预告片，既要保留故事主线，又不能错过决定性的精彩镜头。

研究团队采取了“分段处理”的策略。他们将整个视频流在时间轴上切分为多个片段。每个片段的首帧被设定为“时间锚点”，类似于电影中的关键帧。后续帧会与这个锚点进行比对与信息融合。

其精妙之处在于自适应性。当后续帧与锚点帧高度相似时（例如静态的新闻播报场景），系统会将它们的信息大量融合到锚点中，实现高效的时间压缩。然而，一旦检测到显著的视觉变化（如场景切换、剧烈动作），系统便会识别为“关键事件发生”，从而保留这些帧作为新的信息载体，确保视频的动态叙事完整性不被破坏。

这种方法尤其擅长处理视频中普遍存在的时间冗余。例如，在一段人物访谈中，背景和人物姿态可能在数十秒内保持不变，AOT会将这类高度重复的信息压缩到少数几个锚点中。而当人物出现关键的表情变化或手势强调时，这些承载重要信息的帧会被特意保留。具体的融合过程采用一种概率分配机制，根据帧与锚点之间的相似度动态决定传输权重，从而在压缩率与信息保真度之间取得平衡。

四、全面的基准测试与性能验证

为验证AOT的实际效果，研究团队在四大主流视频理解基准上进行了严格测试，包括MVBench、EgoSchema、LongVideoBench和VideoMME。实验基于两个广泛使用的视频大模型：LLaVA-OneVision-7B和LLaVA-Video-7B。

结果令人瞩目。当仅保留10%的原始视觉令牌时，AOT在所有测试中平均保持了原始模型97.6%的性能。这意味着，处理速度理论上可提升近10倍，而准确度仅轻微下降2.4%。在计算量方面，AOT将预填充阶段的浮点运算次数（FLOPs）削减至原来的8.3%，这相当于将原本需要数小时的分析任务，缩短到几十分钟内完成。

更令人惊喜的是，在某些测试场景下，搭载AOT的模型甚至表现出了优于原始模型的性能。研究团队分析，这可能是因为过量的冗余信息本身会对模型判断造成干扰，如同在嘈杂环境中难以听清对话。AOT通过精准提取信息精华，反而帮助模型“去芜存菁”，提升了理解的清晰度与准确性。

在处理不同长度的视频时，AOT也展现了良好的可扩展性。当视频帧数从16帧激增到128帧时，传统模型常会触及内存瓶颈，而采用AOT的模型却能保持稳定的处理能力。尤其是在分析长视频内容时，AOT的优势更为明显，它能在维持关键信息流的同时，大幅削减冗余计算。

五、核心模块与技术实现细节

AOT的实现包含多个精心设计的模块。在锚点选择阶段，系统利用注意力分数评估每个视觉令牌的重要性。对于带有[CLS]令牌的模型（如CLIP），系统计算[CLS]令牌对其他所有令牌的注意力权重，并选取权重最高的作为全局锚点。对于没有[CLS]令牌的模型（如SigLip），则启用自注意力机制来评估令牌间的相互重要性。

在局部锚点选择中，图像被划分为多个非重叠窗口，每个窗口独立推举出自己的“代表令牌”。这种设计保证了空间表征的多样性，避免所有重要信息都集中在画面的某个区域。全局与局部锚点的数量通常设置为1:1，以平衡宏观语义与微观细节。

最优传输问题的求解采用了经典的Sinkhorn-Knopp迭代算法，该算法通过引入熵正则化，将复杂的线性规划问题转化为可快速求解的形式。实验中迭代100次即可收敛，且不会带来显著的计算开销。熵正则化参数λ设定为0.1，这在多次试验中被证明能取得最佳的性能平衡。

在时间维度处理上，系统支持两种分段策略：均匀采样和自适应聚类。前者适用于内容平稳的视频，后者则能根据视频内容的复杂程度动态调整片段长度——面对动作复杂的场景，生成更多短片段以保留细节；对于静态简单的场景，则使用较长片段来提升压缩效率。

六、与现有主流方法的对比分析

将AOT与现有的视频令牌压缩方法对比，其优势更为清晰。传统的空间压缩方法，如VisionZip，主要聚焦于单帧内的令牌合并。在保留20%令牌时，其性能下降约2%，尚可接受；但当保留率激进到10%时，性能会骤降8.4%。这种“性能悬崖”现象，很大程度上是因为纯空间压缩忽视了视频在时间轴上的连续性。

时间压缩方法，如DyCoke，采用固定的帧组策略，每组只保留首帧。这种方法的局限在于其僵化，无法适应视频内容的动态变化，对于动作丰富的片段会造成大量信息丢失。实验显示，DyCoke在25%保留率下性能下降约7.5%，明显高于AOT在相近压缩率下的1.9%。

混合压缩方法，如PruneVid，尝试在模型浅层进行反复剪枝以同时处理时空冗余。但重复的剪枝操作会累积误差，最终影响模型整体表现。FastVID通过密度感知剪枝有所改进，但其核心思路仍是“删除”，而非“利用”，难以回收被丢弃令牌中的有价值信息。

相比之下，AOT的核心优势在于其“信息聚合”哲学。通过最优传输理论，AOT能将待压缩令牌的精华“转移”到保留的锚点上，实现了信息的最大化利用。数据显示，在相同的10%令牌保留率下，AOT比性能最好的基线方法还要高出约1.1个百分点，在处理复杂动态视频内容时，这一优势更为突出。

七、最优传输机制的工作原理

要直观理解最优传输在AOT中的作用，可以想象一个水资源调配工程：一片区域散布着许多小水塘（非锚点令牌）和几个大型水库（锚点）。最优传输的目标，就是以最小的总运输成本，将所有小水塘的水（信息）高效地输送到大型水库中。

在AOT的框架下，运输成本由令牌间的特征相似度定义——相似度越高，成本越低，因为相关信息更容易融合。系统需要为每一对“水塘-水库”计算一个最优的输水量，确保所有信息都被妥善分配，同时每个水库的“库容”（信息承载能力）也得到合理利用。

Sinkhorn算法通过迭代优化来快速求解这个复杂的分配问题。它从一个初始分配方案出发，通过交替调整行和列的归一化因子，使方案不断逼近最优解。熵正则化项的引入，保证了解的唯一性和数值稳定性。整个过程通常在百次迭代内收敛，计算耗时仅毫秒级。

传输完成后，每个锚点会根据接收到的信息进行更新。更新过程采用加权平均，权重正是由最优传输方案决定。这意味着，每个锚点的最终表征，是其原始特征与接收来的精华信息的智能融合体。

八、实验设置与深入性能分析

为了全面验证AOT，研究团队设计了一系列严谨的实验。实验在8张NVIDIA A100 GPU（40GB显存）的环境中进行。模型配置上，LLaVA-OneVision以32帧（每帧196令牌）为输入，LLaVA-Video则以64帧（每帧169令牌）为输入，覆盖了不同的处理范式。

在10%的令牌保留预算下，锚点数量被优化设置为126（LLaVA-OneVision）和108（LLaVA-Video）。信息融合的强度系数λ_intra和λ_inter均设为1.0，实验证明这是最佳的平衡点。

消融实验的结果颇具启发性：仅使用全局锚点，模型性能为96.9%；仅使用局部锚点，性能为94.9%；而两者结合时，性能达到了97.6%。这有力地证明了双重锚点策略的必要性——全局锚点把握主旨，局部锚点捕捉细节，二者协同工作效果最佳。

在不同压缩比例下的性能曲线也很有说服力：在25%保留率下，AOT能保持99.5%的原始性能，几乎无损；20%时为99.7%；15%时为98.6%；即使在极端的10%保留率下，仍能守住97.6%的防线。这种平滑下降的曲线，表明了AOT方法具有良好的可控性和鲁棒性。

九、当前局限性与未来演进方向

当然，任何技术都有其改进空间。研究团队也指出了AOT当前存在的一些局限性。最突出的问题是时间锚点的构建仍依赖于启发式方法（如取每段第一帧），缺乏像空间锚点那样坚实的理论依据，这可能不是最优策略。

其次，时间分段的边界检测可能存在误差。无论是固定分段还是动态聚类，都可能将视觉内容差异较大的帧错误地划分到同一组，从而影响压缩质量，在复杂场景中可能导致重要的时序动态信息丢失。

另一个有趣的观察是，虽然AOT以“训练无关”的方式运行，但其整个推理流程实际上是端到端可微分的。这为未来的进化打开了大门——或许可以将最优传输策略集成到模型的训练过程中，通过梯度反向传播来共同优化模型参数与压缩策略，实现更极致的效率。

计算开销方面，尽管Sinkhorn算法已相对高效，但在处理超长视频时，它仍可能成为瓶颈。对于实时性要求极高的应用场景，可能需要进一步优化迭代次数与收敛策略。

此外，当前方法主要针对视频理解任务进行优化，其在视频生成、编辑等其他多模态任务中的泛化能力，仍有待探索。将AOT的思想拓展至3D/4D空间智能任务，也是一个充满潜力的研究方向。

十、广阔的应用前景与行业影响

AOT技术的成功，为视频AI的广泛落地应用扫清了一大障碍。在移动设备上部署复杂的视频模型一直面临算力和续航的挑战。AOT带来90%的计算削减，使得在智能手机或平板电脑上运行高质量的实时视频分析成为可能。

对云服务提供商而言，这意味着显著的运营成本降低。视频内容分析服务通常消耗大量GPU资源，AOT带来的效率提升，能让同等硬件资源处理更多用户请求，或以更低成本提供同等质量的服务。

在线教育领域将直接受益。平台需要自动分析海量教学视频以生成字幕、提取知识点或评估学习效果。AOT技术能大幅降低这类功能的技术门槛和成本，让更多教育机构能够便捷地使用AI赋能教学。

内容创作行业也可能迎来变革。视频编辑软件可以集成基于AOT的AI功能，实现视频内容的实时智能分析并提供剪辑建议，无需漫长等待，极大提升创作者的效率与体验。

在医疗影像分析这类关键领域，医生常需审阅大量内窥镜、超声等动态影像。AOT技术能让AI辅助诊断系统更快地处理这些视频，为医生提供及时、精准的参考，其潜在的临床价值巨大。

从更宏观的视角看，AOT代表了一种新的技术哲学：它不再是对信息的简单“删减”，而是通过数学优化进行智能的“再分配”。这种“信息守恒”的理念，或许能启发图像处理、自然语言处理等其他AI领域，思考如何在保持信息完整性的前提下追求极致效率。

归根结底，这项研究的价值不仅在于它解决了一个具体的技术难题，更在于它为我们展示了一种应对信息过载时代的优雅思路。如何在浩瀚的数据流中精准抓取核心价值，同时兼顾效率与效果，是横跨多个技术领域的共同挑战。特伦托大学团队的这项工作，无疑提供了一个极具启发性的范本。对于希望深究技术细节的研究者与工程师，可以通过论文编号arXiv:2603.01400v1查阅完整报告。

Q&A

Q1：AOT技术是什么？

AOT（基于最优传输的锚点）是一项由特伦托大学等机构提出的高效视频AI技术。其核心在于建立一套“锚点”系统，并利用最优传输算法，将视频中的冗余信息智能地聚合到关键位置，而非简单丢弃。实验表明，该技术能在保持97.6%原始准确度的同时，将计算量减少90%。

Q2：AOT技术相比其他视频压缩方法有何优势？

传统方法多采用“直接删除”或“粗暴合并”的思路，容易丢失重要细节。AOT的创新在于其“信息聚合”策略，它通过数学优化，将被压缩部分的精华内容“传送”到保留的锚点上，确保了信息的最大化利用。在相同的压缩率下（如保留10%令牌），其性能比最佳基线方法高出约1.1个百分点。

Q3：普通用户何时能体验到AOT技术？

目前AOT仍处于学术研究阶段，但其显著的效率提升，为在移动设备等资源受限环境中部署复杂视频AI铺平了道路。预计在未来几年，这项技术有望被集成到各类消费级应用中，如更智能的视频编辑软件、实时互动的在线教育平台以及手机端的AI影像工具中，为用户带来更流畅、高效的视频AI体验。