DeepMind新突破AI视频理解提速35% 长视频分析更高效

近日,谷歌DeepMind与首尔国立大学联合发布了一项突破性研究,提出了一种名为LiteFrame的全新视频理解框架,旨在解决AI处理长视频内容时面临的核心效率瓶颈。该研究论文已以预印本形式公开(arXiv:2605.17260),为如何让AI高效理解长达数小时的视频内容提供了创新性解决方案。
当前,让AI分析一部两小时的电影,其计算挑战堪比要求人类在一秒内读完一本巨著。主流视频AI模型在处理长序列时,普遍会遭遇“计算墙”的制约。这项研究的核心价值,在于它巧妙地绕过了这堵墙,通过源头优化而非事后补救,重新定义了视频理解的效率边界。
一、长视频AI的“计算墙”瓶颈
要理解这一瓶颈,需先了解现有视频AI的通用工作流程。通常分为两步:首先,由“视觉编码器”(AI的“眼睛”)逐帧扫描视频,将图像转换为数字特征(视觉令牌);其次,将这些海量特征输入大型语言模型(AI的“大脑”)进行理解与推理。
问题根源在于视频帧数的爆炸性增长。帧数越多,生成的视觉令牌数量越庞大,研究团队称之为“计算量的爆炸”。更棘手的是,语言模型处理序列的复杂度通常是平方级的,导致现有系统(如研究中作为基准的InternVL3-8B)在实际中最多只能流畅处理约64帧,超出后性能会急剧下降甚至崩溃。
二、“事后削减”方法的局限与瓶颈转移
面对此瓶颈,传统思路是“事后削减”:先让视觉编码器完整处理所有帧,生成大量令牌,再通过算法压缩或筛选,减少输入语言模型的信息量。
这种方法虽减轻了语言模型的负担,但谷歌DeepMind团队揭示了一个关键问题:瓶颈并未消失,而是转移了。无论事后如何压缩,视觉编码器逐帧处理的“苦力活”耗时并未减少。当试图增加处理帧数以提升效果时,视觉编码器的耗时呈线性增长,成为新的性能瓶颈。实验表明,在高压缩率下,视觉编码时间最终主导了整体延迟,形成了“头疼医脚,脚又疼”的局面。
三、核心前提验证:更多帧数带来更好效果
在寻求新方案前,研究团队首先系统验证了一个根本性问题:增加输入帧数是否真能提升AI的视频理解能力?
答案是肯定的。在Video-MME、MLVU和LongVideoBench等多个权威长视频评测基准上,模型的理解准确率随输入帧数增加呈现明显的对数增长趋势。这意味着,在固定计算预算内,若能处理更多帧,性能必然提升。这为LiteFrame的设计哲学提供了坚实依据:追求在单位时间内处理更多帧,而非单纯压缩已有信息。
四、高效信息压缩的关键:加权平均池化
在推出完整方案前,团队探索了最优的信息压缩方法,即“加权平均池化”。其原理是:将视频在时空维度分块,并根据每个块内信息的重要性(由图像全局特征决定)进行差异化保留,重要区域保留更多细节。
对比实验证明,在16倍压缩率下,加权平均池化的平均准确率(62.0%)显著优于随机抽帧、均匀采样及其他复杂算法。更重要的是,研究验证了一个关键假设:用信息压缩换取帧数增加是高效的——处理更多帧的压缩信息,其效果优于处理较少帧的原始信息。然而,该方法仍是“事后处理”,无法解决视觉编码器自身的效率问题。
五、LiteFrame架构:重塑“视觉编码器”
LiteFrame的核心创新在于从根本上重塑了视觉编码器。其设计理念是:直接训练一个轻量级、高效率的编码器,使其能原生输出高度压缩的精华特征,而非先产生冗余信息再压缩。
具体而言,LiteFrame是一个参数量仅约8700万的全新视觉编码器,不到基准模型(InternViT-300M)的三分之一。其架构专为视频压缩优化,主要包含两大创新:
1. 深度可分离一维时间卷积:此模块高效捕捉帧间时序关联。它能智能合并相邻帧中的重复信息(如静态背景),极大减少冗余计算。其延迟极低(实验仅175毫秒),远优于传统的注意力机制。
2. 渐进式压缩:在编码器网络中间层(如第4、8层)插入步进卷积,逐步降低特征图分辨率,从而在后期处理中自然减少数据量,最终将每帧图像高效压缩至仅16个视觉令牌。
六、模型训练秘诀:压缩令牌蒸馏
如何让轻量级的LiteFrame输出高质量的精简特征?研究团队提出了“压缩令牌蒸馏”训练法。
传统知识蒸馏要求学生模型模仿教师模型的完整输出,但这里存在输出维度不匹配的矛盾(教师输出256令牌,学生仅输出16令牌)。CTD的巧妙之处在于,它将加权平均池化这一压缩过程内化为训练目标。具体步骤为:先用大型教师模型处理视频得到丰富特征,再用加权平均池化将其压缩为16个精华令牌;随后,直接让LiteFrame学习预测这16个精华令牌。
通过这种方式,LiteFrame在训练中直接掌握了“判断信息重要性”的能力,并将其固化于网络参数中。推理时,它便能直接输出高质量压缩特征,无需任何额外计算开销。实验表明,CTD策略显著优于让学生模型先压缩再尝试还原的“重构令牌蒸馏”方法。
七、系统适配:语言模型微调
训练好LiteFrame后,还需让下游的语言模型适应其新的输出格式(16令牌 vs. 原始的256令牌)。为此,团队进行了“语言模型适配”。
他们使用视频-文本配对数据,采用高效的LoRA技术对语言模型进行轻量级微调,仅调整极少量参数,使其适应新的、更精简的视觉输入以及更长的视频序列。这个过程非常高效,在8块H100 GPU上仅需数小时。有趣的是,小幅度的适配(低秩设置)效果最佳,表明模型只需轻微调整即可良好兼容。
八、性能表现:效率与准确率的双重突破
整合所有组件后,LiteFrame在效率与性能上实现了显著提升:
与基准模型(处理16帧)相比,LiteFrame在处理8倍帧数(128帧)时,端到端延迟降低32.5%,且平均准确率仍有提升。处理256帧(16倍处理量)时,延迟降低34.6%,准确率保持微幅领先。更极端的案例是,LiteFrame处理64帧的速度,比基准模型处理8帧还要快28%,且准确率显著更高。
延迟分析揭示了本质优势:在处理64帧时,LiteFrame的视觉编码耗时仅54.8毫秒,而采用“事后压缩”的FastVID方法则需161.7毫秒,差距近3倍。与另一种方案AutoGaze相比,在256帧条件下,LiteFrame的总延迟(532.3毫秒)不到前者(超过6秒)的十分之一,准确率反而更高。
此外,LiteFrame在短视频理解任务上也能显著降低延迟,并在高分辨率视频理解上展现了优秀的零样本泛化能力。
九、消融实验:验证每个组件的贡献
通过系统的消融研究,团队量化了每个技术组件的贡献:
仅进行传统蒸馏而不压缩令牌,效果会下降。加入压缩架构但使用低效的注意力机制,效果接近基准。换用高效的深度可分离时间卷积,延迟降低,准确率提升。最关键的是引入以加权平均池化为目标的CTD训练,移除它会导致准确率暴跌。最后,加上语言模型适配,达到最佳性能。最终,LiteFrame以更低的延迟和更多的处理帧数,全面超越了原始基准。
十、研究意义、局限与未来方向
该研究也指出了当前工作的几点局限:例如,训练数据可纳入更多超长视频以进一步提升能力;在纯静态图像任务上的性能有待评估;训练更小规模编码器时存在稳定性挑战等。
这项研究最重要的贡献在于思维范式的转变:与其在信息生成后费力压缩,不如从源头训练一个能高效产出精华信息的系统。这种“内化压缩”的理念,为视频AI乃至其他模态的效率优化开辟了新道路。
在实际应用层面,这意味着未来的AI视频分析系统将能以更低的成本和更快的速度处理更长的内容,对安防监控、内容审核、在线教育、视频摘要等长视频分析场景具有直接的推动意义。
Q&A
Q1:LiteFrame是什么,它和普通视频AI有什么不同?
A:LiteFrame是一个专为高效长视频理解而设计的轻量级视觉编码器。它与普通视频AI的根本区别在于处理逻辑:普通AI采用“先完整扫描,后压缩信息”的两段式流程;而LiteFrame采用“源头压缩”,在编码初期就直接生成高度精炼的特征,从而同时大幅提升了视觉编码和后续语言理解的整体效率。
Q2:压缩令牌蒸馏(CTD)是怎么训练LiteFrame的?
A:CTD是一种目标导向的蒸馏方法。它首先利用强大的教师模型处理视频,得到丰富的中间特征表示;然后,使用智能的加权平均池化方法,将这些特征压缩成一个精华版本;最后,直接让轻量化的学生模型(LiteFrame)学习预测这个精华版本。这使得学生模型内化了提取关键信息的能力,推理时无需额外计算。
Q3:LiteFrame比普通的事后削减方法快多少,准确率有没有损失?
A:实验数据表明,LiteFrame在速度和准确率上实现了双赢。例如,在处理256帧视频时,LiteFrame比先进的“事后削减”方法快约33%,比原始基准模型快约35%。关键在于,它在速度大幅提升的同时,处理了更多的视频帧数,并且准确率没有损失,在多数任务上还有微幅提升,真正突破了效率与性能的权衡。
相关攻略
AI编程领域核心工程师RonakMalde近期离开DeepMind,并放弃了后续并购激励金。他先后参与Codeium、Windsurf项目,训练了SWE-1模型,后随团队进入DeepMind推进AgenticCoding研究。作为入选“Exceptional100”榜单的一线工程师,他总结心得强调需聚焦正确研究方向、前瞻判断并高效执行。其离职引发行业对其下一
谷歌DeepMind与首尔国立大学提出LiteFrame模型,以解决AI处理长视频时的计算效率瓶颈。该模型采用轻量级视觉编码器与压缩令牌蒸馏技术,从源头高效压缩视频信息,直接输出精华特征。实验显示,处理更多视频帧时延迟降低超30%,准确率保持微幅提升,为长视频理解提供了高效方案。
AI编程领域核心工程师RonakMalde离开DeepMind,甚至放弃了后续并购激励。他先后参与Codeium插件、WindsurfIDE及SWE-1模型开发,后随团队加入DeepMind从事AgenticCoding研究。其职业轨迹精准踩中AI编程发展主线,并入选行业影响力榜单。离职后,他分享了关于研究方向、团队效率及行业人才流动的思考,预示将在AI重塑
谷歌DeepMind首席执行官在GoogleI O大会上表示,人类可能正站在“奇点”的山麓,即通用人工智能到来的起点。他认为AI将成为创造力的倍增器,开启科学进步的新时代。谷歌推出了专注于科研的“GeminiforScience”工具,旨在革新药物发现。他预测到2030年实现AGI的概率为50%。
业内对AI“缩放定律”有效性存在争议。谷歌DeepMind负责人哈萨比斯强调,扩大规模仍是实现通用人工智能的核心路径,需将其推向极致,同时承认仍需关键突破。这与质疑单纯依赖算力数据的观点形成对比。
热门专题
热门推荐
对于数字货币投资者来说,一个全面、及时、准确的行情网站,无疑是做出明智决策的基石。面对市场上琳琅满目的数据工具,如何选择最适合自己的那一款?本文将为您系统梳理当前最受认可的十大数字货币行情网站,助您快速锁定得力的数据分析伙伴。 十大数字货币行情网站推荐 1 币安 (Binance) 官网直达: 提
使用可灵AI实现水彩晕染需启用“湿画法动态晕染”模式,设置纸基、湿润度等参数模拟物理特性。通过时间轴编辑器设置关键帧,精准控制晕染节奏与形态。叠加湿纸基底与液态牵引双滤镜层,可增强真实水性反应。还可利用图生视频功能,上传手绘水痕过程图作为种子帧并辅以精确指令,驱动AI生。
选择电商短视频AI工具时,若侧重商品细节展示与质感还原,可灵AI在主体稳定性和细节渲染上表现更优;若注重运营效率、真人口播适配及多平台发布,即梦AI在分镜生成、唇形同步和平台兼容性方面更具优势。两者分别适合以“货”为核心和以“人”与场景为核心的制作需求。
Qoder内置性能监控面板需手动开启,可在IDE状态栏实时查看CPU与内存占用。同时可通过日志控制台查看详细资源统计,或结合系统工具交叉验证数据准确性。此外,支持将性能数据导出至外部监控平台,便于长期追踪与分析。
使用Kimi联网查找GitHub热门仓库时,需采用精准的社交搜索指令。可通过限定平台与时间的自然语言指令直接获取数据,或指定GitHub趋势页面URL进行精确抓取。还可结合社区热度信号发现潜力项目,或调用深度研究智能体进行多步溯源分析,以获取结构化报告。





