DeepMind新突破AI视频理解提速35% 长视频分析更高效

时间：2026-05-26 07:12

谷歌DeepMind与首尔国立大学提出LiteFrame模型，以解决AI处理长视频时的计算效率瓶颈。该模型采用轻量级视觉编码器与压缩令牌蒸馏技术，从源头高效压缩视频信息，直接输出精华特征。实验显示，处理更多视频帧时延迟降低超30%，准确率保持微幅提升，为长视频理解提供了高效方案。

近日，谷歌DeepMind与首尔国立大学联合发布了一项突破性研究，提出了一种名为LiteFrame的全新视频理解框架，旨在解决AI处理长视频内容时面临的核心效率瓶颈。该研究论文已以预印本形式公开（arXiv:2605.17260），为如何让AI高效理解长达数小时的视频内容提供了创新性解决方案。

当前，让AI分析一部两小时的电影，其计算挑战堪比要求人类在一秒内读完一本巨著。主流视频AI模型在处理长序列时，普遍会遭遇“计算墙”的制约。这项研究的核心价值，在于它巧妙地绕过了这堵墙，通过源头优化而非事后补救，重新定义了视频理解的效率边界。

一、长视频AI的“计算墙”瓶颈

要理解这一瓶颈，需先了解现有视频AI的通用工作流程。通常分为两步：首先，由“视觉编码器”（AI的“眼睛”）逐帧扫描视频，将图像转换为数字特征（视觉令牌）；其次，将这些海量特征输入大型语言模型（AI的“大脑”）进行理解与推理。

问题根源在于视频帧数的爆炸性增长。帧数越多，生成的视觉令牌数量越庞大，研究团队称之为“计算量的爆炸”。更棘手的是，语言模型处理序列的复杂度通常是平方级的，导致现有系统（如研究中作为基准的InternVL3-8B）在实际中最多只能流畅处理约64帧，超出后性能会急剧下降甚至崩溃。

二、“事后削减”方法的局限与瓶颈转移

面对此瓶颈，传统思路是“事后削减”：先让视觉编码器完整处理所有帧，生成大量令牌，再通过算法压缩或筛选，减少输入语言模型的信息量。

这种方法虽减轻了语言模型的负担，但谷歌DeepMind团队揭示了一个关键问题：瓶颈并未消失，而是转移了。无论事后如何压缩，视觉编码器逐帧处理的“苦力活”耗时并未减少。当试图增加处理帧数以提升效果时，视觉编码器的耗时呈线性增长，成为新的性能瓶颈。实验表明，在高压缩率下，视觉编码时间最终主导了整体延迟，形成了“头疼医脚，脚又疼”的局面。

三、核心前提验证：更多帧数带来更好效果

在寻求新方案前，研究团队首先系统验证了一个根本性问题：增加输入帧数是否真能提升AI的视频理解能力？

答案是肯定的。在Video-MME、MLVU和LongVideoBench等多个权威长视频评测基准上，模型的理解准确率随输入帧数增加呈现明显的对数增长趋势。这意味着，在固定计算预算内，若能处理更多帧，性能必然提升。这为LiteFrame的设计哲学提供了坚实依据：追求在单位时间内处理更多帧，而非单纯压缩已有信息。

四、高效信息压缩的关键：加权平均池化

在推出完整方案前，团队探索了最优的信息压缩方法，即“加权平均池化”。其原理是：将视频在时空维度分块，并根据每个块内信息的重要性（由图像全局特征决定）进行差异化保留，重要区域保留更多细节。

对比实验证明，在16倍压缩率下，加权平均池化的平均准确率（62.0%）显著优于随机抽帧、均匀采样及其他复杂算法。更重要的是，研究验证了一个关键假设：用信息压缩换取帧数增加是高效的——处理更多帧的压缩信息，其效果优于处理较少帧的原始信息。然而，该方法仍是“事后处理”，无法解决视觉编码器自身的效率问题。

五、LiteFrame架构：重塑“视觉编码器”

LiteFrame的核心创新在于从根本上重塑了视觉编码器。其设计理念是：直接训练一个轻量级、高效率的编码器，使其能原生输出高度压缩的精华特征，而非先产生冗余信息再压缩。

具体而言，LiteFrame是一个参数量仅约8700万的全新视觉编码器，不到基准模型（InternViT-300M）的三分之一。其架构专为视频压缩优化，主要包含两大创新：

1. 深度可分离一维时间卷积：此模块高效捕捉帧间时序关联。它能智能合并相邻帧中的重复信息（如静态背景），极大减少冗余计算。其延迟极低（实验仅175毫秒），远优于传统的注意力机制。

2. 渐进式压缩：在编码器网络中间层（如第4、8层）插入步进卷积，逐步降低特征图分辨率，从而在后期处理中自然减少数据量，最终将每帧图像高效压缩至仅16个视觉令牌。

六、模型训练秘诀：压缩令牌蒸馏

如何让轻量级的LiteFrame输出高质量的精简特征？研究团队提出了“压缩令牌蒸馏”训练法。

传统知识蒸馏要求学生模型模仿教师模型的完整输出，但这里存在输出维度不匹配的矛盾（教师输出256令牌，学生仅输出16令牌）。CTD的巧妙之处在于，它将加权平均池化这一压缩过程内化为训练目标。具体步骤为：先用大型教师模型处理视频得到丰富特征，再用加权平均池化将其压缩为16个精华令牌；随后，直接让LiteFrame学习预测这16个精华令牌。

通过这种方式，LiteFrame在训练中直接掌握了“判断信息重要性”的能力，并将其固化于网络参数中。推理时，它便能直接输出高质量压缩特征，无需任何额外计算开销。实验表明，CTD策略显著优于让学生模型先压缩再尝试还原的“重构令牌蒸馏”方法。

七、系统适配：语言模型微调

训练好LiteFrame后，还需让下游的语言模型适应其新的输出格式（16令牌 vs. 原始的256令牌）。为此，团队进行了“语言模型适配”。

他们使用视频-文本配对数据，采用高效的LoRA技术对语言模型进行轻量级微调，仅调整极少量参数，使其适应新的、更精简的视觉输入以及更长的视频序列。这个过程非常高效，在8块H100 GPU上仅需数小时。有趣的是，小幅度的适配（低秩设置）效果最佳，表明模型只需轻微调整即可良好兼容。

八、性能表现：效率与准确率的双重突破

整合所有组件后，LiteFrame在效率与性能上实现了显著提升：

与基准模型（处理16帧）相比，LiteFrame在处理8倍帧数（128帧）时，端到端延迟降低32.5%，且平均准确率仍有提升。处理256帧（16倍处理量）时，延迟降低34.6%，准确率保持微幅领先。更极端的案例是，LiteFrame处理64帧的速度，比基准模型处理8帧还要快28%，且准确率显著更高。

延迟分析揭示了本质优势：在处理64帧时，LiteFrame的视觉编码耗时仅54.8毫秒，而采用“事后压缩”的FastVID方法则需161.7毫秒，差距近3倍。与另一种方案AutoGaze相比，在256帧条件下，LiteFrame的总延迟（532.3毫秒）不到前者（超过6秒）的十分之一，准确率反而更高。

此外，LiteFrame在短视频理解任务上也能显著降低延迟，并在高分辨率视频理解上展现了优秀的零样本泛化能力。

九、消融实验：验证每个组件的贡献

通过系统的消融研究，团队量化了每个技术组件的贡献：

仅进行传统蒸馏而不压缩令牌，效果会下降。加入压缩架构但使用低效的注意力机制，效果接近基准。换用高效的深度可分离时间卷积，延迟降低，准确率提升。最关键的是引入以加权平均池化为目标的CTD训练，移除它会导致准确率暴跌。最后，加上语言模型适配，达到最佳性能。最终，LiteFrame以更低的延迟和更多的处理帧数，全面超越了原始基准。

十、研究意义、局限与未来方向

该研究也指出了当前工作的几点局限：例如，训练数据可纳入更多超长视频以进一步提升能力；在纯静态图像任务上的性能有待评估；训练更小规模编码器时存在稳定性挑战等。

这项研究最重要的贡献在于思维范式的转变：与其在信息生成后费力压缩，不如从源头训练一个能高效产出精华信息的系统。这种“内化压缩”的理念，为视频AI乃至其他模态的效率优化开辟了新道路。

在实际应用层面，这意味着未来的AI视频分析系统将能以更低的成本和更快的速度处理更长的内容，对安防监控、内容审核、在线教育、视频摘要等长视频分析场景具有直接的推动意义。

Q&A

Q1：LiteFrame是什么，它和普通视频AI有什么不同？

A：LiteFrame是一个专为高效长视频理解而设计的轻量级视觉编码器。它与普通视频AI的根本区别在于处理逻辑：普通AI采用“先完整扫描，后压缩信息”的两段式流程；而LiteFrame采用“源头压缩”，在编码初期就直接生成高度精炼的特征，从而同时大幅提升了视觉编码和后续语言理解的整体效率。

Q2：压缩令牌蒸馏（CTD）是怎么训练LiteFrame的？

A：CTD是一种目标导向的蒸馏方法。它首先利用强大的教师模型处理视频，得到丰富的中间特征表示；然后，使用智能的加权平均池化方法，将这些特征压缩成一个精华版本；最后，直接让轻量化的学生模型（LiteFrame）学习预测这个精华版本。这使得学生模型内化了提取关键信息的能力，推理时无需额外计算。

Q3：LiteFrame比普通的事后削减方法快多少，准确率有没有损失？

A：实验数据表明，LiteFrame在速度和准确率上实现了双赢。例如，在处理256帧视频时，LiteFrame比先进的“事后削减”方法快约33%，比原始基准模型快约35%。关键在于，它在速度大幅提升的同时，处理了更多的视频帧数，并且准确率没有损失，在多数任务上还有微幅提升，真正突破了效率与性能的权衡。

来源：https://www.163.com/dy/article/KTQAI5350511DTVV.html

DeepMind

上一篇AI时代教师会被取代吗？技术之下教育灵魂如何守护 下一篇美光警告存储芯片短缺将持续至2026年后

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。