游乐游手机版
首页/科技数码/文章详情

DeepMind新突破AI视频理解提速35% 长视频分析更高效

时间:2026-05-26 07:12
谷歌DeepMind与首尔国立大学提出LiteFrame模型,以解决AI处理长视频时的计算效率瓶颈。该模型采用轻量级视觉编码器与压缩令牌蒸馏技术,从源头高效压缩视频信息,直接输出精华特征。实验显示,处理更多视频帧时延迟降低超30%,准确率保持微幅提升,为长视频理解提供了高效方案。


近日,谷歌DeepMind与首尔国立大学联合发布了一项突破性研究,提出了一种名为LiteFrame的全新视频理解框架,旨在解决AI处理长视频内容时面临的核心效率瓶颈。该研究论文已以预印本形式公开(arXiv:2605.17260),为如何让AI高效理解长达数小时的视频内容提供了创新性解决方案。

当前,让AI分析一部两小时的电影,其计算挑战堪比要求人类在一秒内读完一本巨著。主流视频AI模型在处理长序列时,普遍会遭遇“计算墙”的制约。这项研究的核心价值,在于它巧妙地绕过了这堵墙,通过源头优化而非事后补救,重新定义了视频理解的效率边界。

一、长视频AI的“计算墙”瓶颈

要理解这一瓶颈,需先了解现有视频AI的通用工作流程。通常分为两步:首先,由“视觉编码器”(AI的“眼睛”)逐帧扫描视频,将图像转换为数字特征(视觉令牌);其次,将这些海量特征输入大型语言模型(AI的“大脑”)进行理解与推理。

问题根源在于视频帧数的爆炸性增长。帧数越多,生成的视觉令牌数量越庞大,研究团队称之为“计算量的爆炸”。更棘手的是,语言模型处理序列的复杂度通常是平方级的,导致现有系统(如研究中作为基准的InternVL3-8B)在实际中最多只能流畅处理约64帧,超出后性能会急剧下降甚至崩溃。

二、“事后削减”方法的局限与瓶颈转移

面对此瓶颈,传统思路是“事后削减”:先让视觉编码器完整处理所有帧,生成大量令牌,再通过算法压缩或筛选,减少输入语言模型的信息量。

这种方法虽减轻了语言模型的负担,但谷歌DeepMind团队揭示了一个关键问题:瓶颈并未消失,而是转移了。无论事后如何压缩,视觉编码器逐帧处理的“苦力活”耗时并未减少。当试图增加处理帧数以提升效果时,视觉编码器的耗时呈线性增长,成为新的性能瓶颈。实验表明,在高压缩率下,视觉编码时间最终主导了整体延迟,形成了“头疼医脚,脚又疼”的局面。

三、核心前提验证:更多帧数带来更好效果

在寻求新方案前,研究团队首先系统验证了一个根本性问题:增加输入帧数是否真能提升AI的视频理解能力?

答案是肯定的。在Video-MME、MLVU和LongVideoBench等多个权威长视频评测基准上,模型的理解准确率随输入帧数增加呈现明显的对数增长趋势。这意味着,在固定计算预算内,若能处理更多帧,性能必然提升。这为LiteFrame的设计哲学提供了坚实依据:追求在单位时间内处理更多帧,而非单纯压缩已有信息。

四、高效信息压缩的关键:加权平均池化

在推出完整方案前,团队探索了最优的信息压缩方法,即“加权平均池化”。其原理是:将视频在时空维度分块,并根据每个块内信息的重要性(由图像全局特征决定)进行差异化保留,重要区域保留更多细节。

对比实验证明,在16倍压缩率下,加权平均池化的平均准确率(62.0%)显著优于随机抽帧、均匀采样及其他复杂算法。更重要的是,研究验证了一个关键假设:用信息压缩换取帧数增加是高效的——处理更多帧的压缩信息,其效果优于处理较少帧的原始信息。然而,该方法仍是“事后处理”,无法解决视觉编码器自身的效率问题。

五、LiteFrame架构:重塑“视觉编码器”

LiteFrame的核心创新在于从根本上重塑了视觉编码器。其设计理念是:直接训练一个轻量级、高效率的编码器,使其能原生输出高度压缩的精华特征,而非先产生冗余信息再压缩。

具体而言,LiteFrame是一个参数量仅约8700万的全新视觉编码器,不到基准模型(InternViT-300M)的三分之一。其架构专为视频压缩优化,主要包含两大创新:

1. 深度可分离一维时间卷积:此模块高效捕捉帧间时序关联。它能智能合并相邻帧中的重复信息(如静态背景),极大减少冗余计算。其延迟极低(实验仅175毫秒),远优于传统的注意力机制。

2. 渐进式压缩:在编码器网络中间层(如第4、8层)插入步进卷积,逐步降低特征图分辨率,从而在后期处理中自然减少数据量,最终将每帧图像高效压缩至仅16个视觉令牌。

六、模型训练秘诀:压缩令牌蒸馏

如何让轻量级的LiteFrame输出高质量的精简特征?研究团队提出了“压缩令牌蒸馏”训练法。

传统知识蒸馏要求学生模型模仿教师模型的完整输出,但这里存在输出维度不匹配的矛盾(教师输出256令牌,学生仅输出16令牌)。CTD的巧妙之处在于,它将加权平均池化这一压缩过程内化为训练目标。具体步骤为:先用大型教师模型处理视频得到丰富特征,再用加权平均池化将其压缩为16个精华令牌;随后,直接让LiteFrame学习预测这16个精华令牌。

通过这种方式,LiteFrame在训练中直接掌握了“判断信息重要性”的能力,并将其固化于网络参数中。推理时,它便能直接输出高质量压缩特征,无需任何额外计算开销。实验表明,CTD策略显著优于让学生模型先压缩再尝试还原的“重构令牌蒸馏”方法。

七、系统适配:语言模型微调

训练好LiteFrame后,还需让下游的语言模型适应其新的输出格式(16令牌 vs. 原始的256令牌)。为此,团队进行了“语言模型适配”。

他们使用视频-文本配对数据,采用高效的LoRA技术对语言模型进行轻量级微调,仅调整极少量参数,使其适应新的、更精简的视觉输入以及更长的视频序列。这个过程非常高效,在8块H100 GPU上仅需数小时。有趣的是,小幅度的适配(低秩设置)效果最佳,表明模型只需轻微调整即可良好兼容。

八、性能表现:效率与准确率的双重突破

整合所有组件后,LiteFrame在效率与性能上实现了显著提升:

与基准模型(处理16帧)相比,LiteFrame在处理8倍帧数(128帧)时,端到端延迟降低32.5%,且平均准确率仍有提升。处理256帧(16倍处理量)时,延迟降低34.6%,准确率保持微幅领先。更极端的案例是,LiteFrame处理64帧的速度,比基准模型处理8帧还要快28%,且准确率显著更高。

延迟分析揭示了本质优势:在处理64帧时,LiteFrame的视觉编码耗时仅54.8毫秒,而采用“事后压缩”的FastVID方法则需161.7毫秒,差距近3倍。与另一种方案AutoGaze相比,在256帧条件下,LiteFrame的总延迟(532.3毫秒)不到前者(超过6秒)的十分之一,准确率反而更高。

此外,LiteFrame在短视频理解任务上也能显著降低延迟,并在高分辨率视频理解上展现了优秀的零样本泛化能力。

九、消融实验:验证每个组件的贡献

通过系统的消融研究,团队量化了每个技术组件的贡献:

仅进行传统蒸馏而不压缩令牌,效果会下降。加入压缩架构但使用低效的注意力机制,效果接近基准。换用高效的深度可分离时间卷积,延迟降低,准确率提升。最关键的是引入以加权平均池化为目标的CTD训练,移除它会导致准确率暴跌。最后,加上语言模型适配,达到最佳性能。最终,LiteFrame以更低的延迟和更多的处理帧数,全面超越了原始基准。

十、研究意义、局限与未来方向

该研究也指出了当前工作的几点局限:例如,训练数据可纳入更多超长视频以进一步提升能力;在纯静态图像任务上的性能有待评估;训练更小规模编码器时存在稳定性挑战等。

这项研究最重要的贡献在于思维范式的转变:与其在信息生成后费力压缩,不如从源头训练一个能高效产出精华信息的系统。这种“内化压缩”的理念,为视频AI乃至其他模态的效率优化开辟了新道路。

在实际应用层面,这意味着未来的AI视频分析系统将能以更低的成本和更快的速度处理更长的内容,对安防监控、内容审核、在线教育、视频摘要等长视频分析场景具有直接的推动意义。

Q&A

Q1:LiteFrame是什么,它和普通视频AI有什么不同?

A:LiteFrame是一个专为高效长视频理解而设计的轻量级视觉编码器。它与普通视频AI的根本区别在于处理逻辑:普通AI采用“先完整扫描,后压缩信息”的两段式流程;而LiteFrame采用“源头压缩”,在编码初期就直接生成高度精炼的特征,从而同时大幅提升了视觉编码和后续语言理解的整体效率。

Q2:压缩令牌蒸馏(CTD)是怎么训练LiteFrame的?

A:CTD是一种目标导向的蒸馏方法。它首先利用强大的教师模型处理视频,得到丰富的中间特征表示;然后,使用智能的加权平均池化方法,将这些特征压缩成一个精华版本;最后,直接让轻量化的学生模型(LiteFrame)学习预测这个精华版本。这使得学生模型内化了提取关键信息的能力,推理时无需额外计算。

Q3:LiteFrame比普通的事后削减方法快多少,准确率有没有损失?

A:实验数据表明,LiteFrame在速度和准确率上实现了双赢。例如,在处理256帧视频时,LiteFrame比先进的“事后削减”方法快约33%,比原始基准模型快约35%。关键在于,它在速度大幅提升的同时,处理了更多的视频帧数,并且准确率没有损失,在多数任务上还有微幅提升,真正突破了效率与性能的权衡。

来源:https://www.163.com/dy/article/KTQAI5350511DTVV.html
上一篇AI时代教师会被取代吗?技术之下教育灵魂如何守护 下一篇美光警告存储芯片短缺将持续至2026年后
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。