清华系DeepSeek视频加速技术突破：单卡200倍提速_AI热点日报

新智元报道编辑：Aeneas【新智元导读】视频生成领域的「DeepSeek时刻」来了！清华开源TurboDiffusion，将AI视频生成从「分钟级」硬生生拉进「秒级」实时时代，单卡200倍加速让普

新智元报道

编辑：Aeneas

【新智元导读】视频生成领域的「DeepSeek时刻」来了！清华开源TurboDiffusion，将AI视频生成从「分钟级」硬生生拉进「秒级」实时时代，单卡200倍加速让普通显卡也能跑出大片！

就在刚刚，AI圈的DeepSeek Moment又来了！

清华大学TSAIL实验室携手生数科技，重磅发布并开源了视频生成加速框架TurboDiffusion。

这个框架一出，立刻在全球AI社区引发热议。OpenAI、Meta、vLLM等多个机构和开源社区的研究者、工程师纷纷点赞、转发。

为何TurboDiffusion会引起这么大的反响？

用一句话总结：在几乎不影响生成质量的前提下，它让视频生成的速度直接飙升了100–200倍！

这一刻起，AI视频正式从「分钟级」生成，进入「实时生成」时代！

左右滑动查看

TurboDiffusion是什么？为啥这么强？

随着AI大模型的发展，视频生成正成为继图像、文本之后最重要的AI内容创作方向之一。

然而，现实中我们却时常会发现，尽管模型性能很强，但生成却很慢！

即使是顶配GPU，如H100，在不加速的情况下生成一个短视频，仍需数分钟，这严重影响了落地应用的体验。更何况大多数创作者只有RTX 5090或4090这种消费级显卡。

因此，能否在不牺牲质量的前提下，大幅加速生成过程，成为AI视频能否走入日常创作流程的关键。

这时TurboDiffusion的诞生，就非常生逢其时了。

Github:https://github.com/thu-ml/TurboDiffusion

技术报告:https://jt-zhang.github.io/files/TurboDiffusion_Technical_Report.pdf

近日，清华大学联合生数科技，开源了视频生成加速框架TurboDiffusion。

它是一个专为Diffusion模型加速而生的工具，尤其擅长处理视频生成场景。

它的出现，就像一台涡轮引擎，在一张RTX 5090显卡上，就能实现100-200倍的速度提升。

无论是从图生成视频（I2V），还是从文本生成视频（T2V），它都能高效应对。

甚至在高分辨率、长时长视频生成中，也依然能保持惊人的加速表现。

实测：多大模型，都能跑得飞快

TurboDiffusion的惊艳表现，不只是理论数据。在多个视频生成模型上的实测加速效果，都让人惊掉下巴。

下图显示了TurboDiffusion的强大生成效果。

以1.3B大小的模型生成5秒的视频生成为例，使用标准的最新实现生成这段5秒的视频需要184秒的时间。

TurboDiffusion生成的视频内容在视觉上无明显差异，但却只需1.9秒。

这就意味着在同等条件下，TurboDiffusion框架仅用1.9秒就完成了生成，速度提升约97倍。

这段猫咪自拍的图生视频，使用的是14B大小的图生视频模型，生成5秒的720P分辨率的视频，虽然画面质量较好，但使用最新标准实现的话耗时极其严重（4549s，超过1小时），难以满足任何实时或互动类场景。

而TurboDiffusion的加速结果，在视频中做到了水下自拍、戴墨镜猫咪冲浪等元素都完整保留，而生成时间仅为38秒。也就是14B大小的图生视频模型生成5秒的720P视频，TurboDiffusion可以在单张RTX 5090几乎无损端到端加速119倍。

加速后视频画质变化极小，然而速度提升却高达约120倍（4549s → 38s）！

这表明，即使在超大模型+高分辨率+图生视频场景中，TurboDiffusion依然可以带来数量级的推理加速效果。

对于14B大小的文生视频模型生成5秒的720P分辨率视频，TurboDiffusion可以在单张RTX 5090上几乎无损端到端加速200倍。

更惊人的是，在Vidu模型上使用TurboDiffusion中包含的技术，也可以在不损失视频生成质量的前提下获得极高的推理加速效果。

比如，在Vidu模型上生成8秒、1080P的高清视频，原本需要900秒，使用TurboDiffusion后，只需8秒，真正实现「所见即所得」！

视频 1（未加速）

用时：450秒

视频 2（加速后）

用时：4秒

视频 3（未加速）

用时：900秒

视频 4（加速后）

用时：8秒

揭秘四大核心黑科技

TurboDiffusion之所以能跑得这么快，靠的是以下四大黑科技加持：

1.SageAttention：低比特量化注意力加速

传统Transformer注意力层在高分辨率视频场景中，计算开销巨大。TurboDiffusion采用清华自主研发的SageAttention技术，进行了低比特量化注意力加速，充分压榨了显卡性能，极致提速。

GitHub链接：https://github.com/thu-ml/SageAttention

2.Sparse-LinearAttention（SLA）：稀疏注意力加速

在稀疏计算方面，TurboDiffusion引入了SLA（Sparse-Linear Attention）。

由于稀疏计算与低比特Tensor Core加速是正交的，SLA可以构建在SageAttention之上，显著减少了全连接矩阵乘法的冗余计算，在推理过程中进一步获得数倍的额外加速。

GitHub链接：https://github.com/thu-ml/SLA

3.rCM步数蒸馏加速：更少步生成

来自NVIDIA开源实验室的rCM，是一种先进的步数蒸馏方法。它通过训练，让少量的采样步骤也能恢复与原模型一致的质量。

这种方法能进行步数蒸馏加速，减少推理过程中的「扩散步数」，降低延迟而不损失画质。

比如，原始Diffusion需要50–100步，rCM可压缩到4-8步。

GitHub链接：https://github.com/NVlabs/rcm

4.W8A8 INT8量化：线性层加速

TurboDiffusion在线性层采用了W8A8的INT8量化策略，这样，就将模型权重和激活映射到8位整数空间，并在128×128的块粒度上进行分块量化，兼顾了速度与精度，而且还显著降低了推理功耗与内存占用。

这4项核心技术均由清华大学TSAIL团队联合生数科技自主研发，对AI多模态大模型的技术突破与产业落地具有里程碑式的价值与深远影响力。其中，SageAttention更是全球首个实现注意力计算量化加速的技术方案，已被工业界大规模部署应用。

例如，SageAttention已成功集成至NVIDIA推理引擎Tensor RT，同时完成在华为昇腾、摩尔线程S6000等主流GPU平台的部署与落地。此外，腾讯混元、字节豆包、阿里Tora、生数Vidu、智谱清影、百度飞桨、昆仑万维、Google Veo3、商汤、vLLM等国内外头部科技企业及团队，均已在核心产品中应用该技术，凭借其卓越性能创造了可观的经济效益。

如何上手？

TurboDiffusion使用起来非常方便，高效推理代码图生视频、文生视频的模型参数（Checkpoints）都已开源。

因为使用简便，哪怕你不是炼丹大佬，也能一键生成视频：

1. 安装TurboDiffusion仓库中的Python包

地址：https://github.com/thu-ml/TurboDiffusion

2. 下载对应模型的Checkpoints（支持图生视频/文生视频），如TurboWan2.1-T2V-14B-720P。

3. 调用仓库中提供的推理脚本，直接生成视频

--save_path ./outputs/demo.mp4

总之，代码与模型全部开源，开箱即用！

DeepSeek Moment，真来了

如今，AI视频生成正站在大爆发的门槛上，谁能掌握速度，就能引领未来。

TurboDiffusion的推出，不仅是一项工程突破，更是一道划时代的分水岭。

从分钟级等待到秒级实时生成，从高门槛专业领域到人人可用的内容创作工具，AI视频正驶入快车道，而TurboDiffusion，正是那台加速引擎。

别再等待未来，未来已来。立即体验TurboDiffusion，让你的视频生成「飞」起来吧！

项目地址：https://github.com/thu-ml/TurboDiffusion

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

清华系DeepSeek视频加速技术突破：单卡200倍提速

相关热点

延伸阅读