腾讯混元开源DisCa:少步视频生成模型推理加速方案,最高提速11.8倍
2026年4月,AI视频生成技术迎来重要进展。腾讯混元团队正式开源了面向少步蒸馏视频生成模型的专用加速方案——DisCa。该方案的核心创新在于引入了一套“可学习”的特征缓存机制,有效规避了传统缓存方法在少步模型上误差放大的瓶颈。其结果是,在完全保持生成视频质量不降低的前提下,实现了推理效率的显著飞跃,最高加速比达到11.8倍。这项关键技术已被计算机视觉顶级会议CVPR 2026收录。更重要的是,团队现已开源全部代码与模型权重,开发者可立即集成与测试。
当前,AI视频生成是AIGC领域需求最迫切、但面临挑战也最突出的方向。用户期待其广泛应用,然而生成速度缓慢与推理成本高昂两大难题,严重制约了其规模化落地。原生扩散模型通常需要数十甚至上百步迭代才能生成一段合格视频,导致单条1080P短视频的生成成本居高不下。即便通过知识蒸馏技术得到步数更少的“少步模型”,其推理开销对于需要批量生产的实际应用场景而言,依然负担沉重。
那么,能否利用缓存技术进行加速?传统缓存方案在步数较多的模型上效果尚可,但直接应用于已蒸馏的少步模型时,缓存误差会急剧累积并放大,最终导致生成画面出现严重瑕疵、质量大幅下降。这一矛盾如同锁住了少步模型的性能潜力,而行业此前一直缺乏有效的解锁方案。
DisCa的核心突破:实现缓存特征的智能预测
DisCa是学术界与工业界首次针对蒸馏后的少步视频生成模型,系统性提出的可学习缓存加速解决方案。其设计思路明确:既然模型推理步数已减少,那么能否进一步降低每一步计算本身的成本?
针对传统缓存误差过大的核心痛点,DisCa创新性地引入了一个轻量级神经网络预测器。该预测器通过对抗学习方式进行训练,其目标是学习根据历史缓存特征,精准预测未来特征的演化路径。这如同一位资深导航员,不仅能记忆路线,更能准确预判前方路况,从而从源头上大幅抑制了缓存引入的误差。正是这一关键设计,使得DisCa在确保画质无损的同时,将视频生成推理速度提升至最高11.8倍。
全面开源与便捷适配:加速技术落地进程
腾讯混元团队此次不仅贡献了顶会级别的研究成果,更秉持了彻底开源的理念。这意味着所有开发者均可直接获取并使用DisCa的完整代码与预训练模型权重。该技术的另一大优势在于其极低的集成门槛——它无需对现有少步视频生成模型进行任何重新训练,仅需以插件或模块化的方式加载加速组件即可生效。这对于算力资源有限的中小团队及开发者而言,提供了一个显著降低视频生成推理成本的实用工具。
纵观生成式AI领域,基础模型架构的创新持续涌现。例如,MIT何恺明团队提出的MeanFlow方案,为图像生成探索了新的范式。而像DisCa这类专注于推理阶段效率优化的技术,恰恰能够与这些新型生成框架协同工作,进一步降低AI视频生成的整体应用成本。行业共识在于,正是这些在关键性能瓶颈上持续取得突破的“增效”型技术,正在逐步扫清AI视频生成迈向大规模商业化应用的道路障碍。
