清华系DeepSeek视频加速技术突破:单卡200倍提速

新智元报道
编辑:Aeneas
【新智元导读】视频生成领域的「DeepSeek时刻」来了!清华开源TurboDiffusion,将AI视频生成从「分钟级」硬生生拉进「秒级」实时时代,单卡200倍加速让普通显卡也能跑出大片!
就在刚刚,AI圈的DeepSeek Moment又来了!
清华大学TSAIL实验室携手生数科技,重磅发布并开源了视频生成加速框架TurboDiffusion。
这个框架一出,立刻在全球AI社区引发热议。OpenAI、Meta、vLLM等多个机构和开源社区的研究者、工程师纷纷点赞、转发。
为何TurboDiffusion会引起这么大的反响?
用一句话总结:在几乎不影响生成质量的前提下,它让视频生成的速度直接飙升了100–200倍!
这一刻起,AI视频正式从「分钟级」生成,进入「实时生成」时代!



左右滑动查看
TurboDiffusion是什么?为啥这么强?
随着AI大模型的发展,视频生成正成为继图像、文本之后最重要的AI内容创作方向之一。
然而,现实中我们却时常会发现,尽管模型性能很强,但生成却很慢!
即使是顶配GPU,如H100,在不加速的情况下生成一个短视频,仍需数分钟,这严重影响了落地应用的体验。更何况大多数创作者只有RTX 5090或4090这种消费级显卡。
因此,能否在不牺牲质量的前提下,大幅加速生成过程,成为AI视频能否走入日常创作流程的关键。
这时TurboDiffusion的诞生,就非常生逢其时了。

Github:https://github.com/thu-ml/TurboDiffusion
技术报告:https://jt-zhang.github.io/files/TurboDiffusion_Technical_Report.pdf
近日,清华大学联合生数科技,开源了视频生成加速框架TurboDiffusion。
它是一个专为Diffusion模型加速而生的工具,尤其擅长处理视频生成场景。
它的出现,就像一台涡轮引擎,在一张RTX 5090显卡上,就能实现100-200倍的速度提升。
无论是从图生成视频(I2V),还是从文本生成视频(T2V),它都能高效应对。
甚至在高分辨率、长时长视频生成中,也依然能保持惊人的加速表现。

实测:多大模型,都能跑得飞快
TurboDiffusion的惊艳表现,不只是理论数据。在多个视频生成模型上的实测加速效果,都让人惊掉下巴。
下图显示了TurboDiffusion的强大生成效果。
以1.3B大小的模型生成5秒的视频生成为例,使用标准的最新实现生成这段5秒的视频需要184秒的时间。
TurboDiffusion生成的视频内容在视觉上无明显差异,但却只需1.9秒。
这就意味着在同等条件下,TurboDiffusion框架仅用1.9秒就完成了生成,速度提升约97倍。


这段猫咪自拍的图生视频,使用的是14B大小的图生视频模型,生成5秒的720P分辨率的视频,虽然画面质量较好,但使用最新标准实现的话耗时极其严重(4549s,超过1小时),难以满足任何实时或互动类场景。
而TurboDiffusion的加速结果,在视频中做到了水下自拍、戴墨镜猫咪冲浪等元素都完整保留,而生成时间仅为38秒。也就是14B大小的图生视频模型生成5秒的720P视频,TurboDiffusion可以在单张RTX 5090几乎无损端到端加速119倍。
加速后视频画质变化极小,然而速度提升却高达约120倍(4549s → 38s)!
这表明,即使在超大模型+高分辨率+图生视频场景中,TurboDiffusion依然可以带来数量级的推理加速效果。


对于14B大小的文生视频模型生成5秒的720P分辨率视频,TurboDiffusion可以在单张RTX 5090上几乎无损端到端加速200倍。

更惊人的是,在Vidu模型上使用TurboDiffusion中包含的技术,也可以在不损失视频生成质量的前提下获得极高的推理加速效果。
比如,在Vidu模型上生成8秒、1080P的高清视频,原本需要900秒,使用TurboDiffusion后,只需8秒,真正实现「所见即所得」!
视频 1(未加速)
用时:450秒
视频 2(加速后)
用时:4秒
视频 3(未加速)
用时:900秒
视频 4(加速后)
用时:8秒
揭秘四大核心黑科技
TurboDiffusion之所以能跑得这么快,靠的是以下四大黑科技加持:
1.SageAttention:低比特量化注意力加速
传统Transformer注意力层在高分辨率视频场景中,计算开销巨大。TurboDiffusion采用清华自主研发的SageAttention技术,进行了低比特量化注意力加速,充分压榨了显卡性能,极致提速。
GitHub链接:https://github.com/thu-ml/SageAttention
2.Sparse-LinearAttention(SLA):稀疏注意力加速
在稀疏计算方面,TurboDiffusion引入了SLA(Sparse-Linear Attention)。
由于稀疏计算与低比特Tensor Core加速是正交的,SLA可以构建在SageAttention之上,显著减少了全连接矩阵乘法的冗余计算,在推理过程中进一步获得数倍的额外加速。
GitHub链接:https://github.com/thu-ml/SLA
3.rCM步数蒸馏加速:更少步生成
来自NVIDIA开源实验室的rCM,是一种先进的步数蒸馏方法。它通过训练,让少量的采样步骤也能恢复与原模型一致的质量。
这种方法能进行步数蒸馏加速,减少推理过程中的「扩散步数」,降低延迟而不损失画质。
比如,原始Diffusion需要50–100步,rCM可压缩到4-8步。
GitHub链接:https://github.com/NVlabs/rcm
4.W8A8 INT8量化:线性层加速
TurboDiffusion在线性层采用了W8A8的INT8量化策略,这样,就将模型权重和激活映射到8位整数空间,并在128×128的块粒度上进行分块量化,兼顾了速度与精度,而且还显著降低了推理功耗与内存占用。
这4项核心技术均由清华大学TSAIL团队联合生数科技自主研发,对AI多模态大模型的技术突破与产业落地具有里程碑式的价值与深远影响力。其中,SageAttention更是全球首个实现注意力计算量化加速的技术方案,已被工业界大规模部署应用。
例如,SageAttention已成功集成至NVIDIA推理引擎Tensor RT,同时完成在华为昇腾、摩尔线程S6000等主流GPU平台的部署与落地。此外,腾讯混元、字节豆包、阿里Tora、生数Vidu、智谱清影、百度飞桨、昆仑万维、Google Veo3、商汤、vLLM等国内外头部科技企业及团队,均已在核心产品中应用该技术,凭借其卓越性能创造了可观的经济效益。
如何上手?
TurboDiffusion使用起来非常方便,高效推理代码图生视频、文生视频的模型参数(Checkpoints)都已开源。

因为使用简便,哪怕你不是炼丹大佬,也能一键生成视频:
1. 安装TurboDiffusion仓库中的Python包
地址:https://github.com/thu-ml/TurboDiffusion
2. 下载对应模型的Checkpoints(支持图生视频/文生视频),如TurboWan2.1-T2V-14B-720P。
3. 调用仓库中提供的推理脚本,直接生成视频
--save_path ./outputs/demo.mp4
总之,代码与模型全部开源,开箱即用!
DeepSeek Moment,真来了
如今,AI视频生成正站在大爆发的门槛上,谁能掌握速度,就能引领未来。
TurboDiffusion的推出,不仅是一项工程突破,更是一道划时代的分水岭。
从分钟级等待到秒级实时生成,从高门槛专业领域到人人可用的内容创作工具,AI视频正驶入快车道,而TurboDiffusion,正是那台加速引擎。
别再等待未来,未来已来。立即体验TurboDiffusion,让你的视频生成「飞」起来吧!
项目地址:https://github.com/thu-ml/TurboDiffusion
秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标,锁定新智元极速推送!
相关攻略
近日,联想与中国一汽集团深化战略合作的消息,再次将“AI+智能制造”推向了行业焦点。此次合作超越了传统的设备采购,直指汽车产业智能化转型的核心命题——如何构建一个坚实、高效且绿色的智能算力底座,以应对汽车仿真计算、智能座舱开发等前沿场景带来的海量数据处理需求。 中国一汽企业生态战略营销部企业板块负责
EpicGames前高管ArjanBrussee宣布开发符合欧洲法规的游戏引擎“ImmenseEngine”,旨在挑战现有技术。该引擎不仅面向游戏,还计划拓展至国防、物流等工业领域,着眼于应对全球竞争,目前项目处于早期阶段但已引发行业关注。
从《魔兽世界》到游戏编程:一段意外的专业旅程 校园里的时光总是过得飞快,昨天送走了大四的学长学姐,忽然意识到,我们这届也站到了选择的路口。专业分流时,面前摆着两个方向:数据库与游戏编程。前者主攻JA VA,后者则深耕VC。因为大二那年整整沉迷了一年的《魔兽世界》,对数据库实在提不起劲,便顺理成章地选
4月1日,OPPO正式推出全新K15 Pro系列智能手机,该机以潮酷设计、主动散热、旗舰性能与长续航为核心亮点,面向电竞玩家、潮流用户与户外爱好者打造全场景体验。据了解,本次发布的K15 Pro系列
刚刚人在火山引擎武汉站的活动上,看到的几个消息还是想跟大家拿出来分享分享。1️⃣豆包大模型日均Token使用量已突破120万亿❗️这个Tokens的使用量应该是国内第一的level了,但最需要关注的
热门专题
热门推荐
陆瑾是《异人之下》手游中操作门槛较高的角色,主打中近距离压制。其核心在于普攻攒炁,并衔接常技【太冲震恚】与【曲泉交忿】进行输出。关键技能【五雷符】可攻可守,成功防御反击可重置冷却。连招依赖“反手”逻辑与精准预判,形成攻防循环。投技【双龙探爪】与【戾走急脉】则需把握时机,分别用于破防与针。
投资策略需要明确目标与风险偏好,合理分配资金。通过研究项目基本面、关注市场周期与情绪,建立多元化组合。执行中需设定清晰的买卖规则,利用工具辅助决策,并保持长期视角与纪律性,避免情绪化操作。定期复盘与调整是策略持续有效的关键。
巴伦是《异人之下》手游中的近战压制型角色,核心玩法在于追击与倒地连招。其技能“破势突击”衔接流畅,“极速连斩”可追击倒地目标,“飞身十字固”抓取伤害高,“逆势突围”用于防守反击。角色操作上限高,需练习掌握连招循环,但对战远程角色时较为吃力。
谷歌宣布Gemini3 5Pro模型下月发布,已在内部广泛使用且进步显著。具体技术细节、性能参数及开放计划尚未公布,更多信息将于下月揭晓。
谷歌在2026年I O大会上推出月费100美元的新AI订阅计划,旨在填补其现有20美元与250美元两档服务之间的市场空白。该计划面向需要更多资源的高级用户和小型团队,提供比基础版更强的性能,同时避免企业级的高昂成本,以竞争中高端市场。





