北大联合小红书提出Uni-Instruct:ImageNet单步生图迈进FID 1.0时代
来自北京大学、小红书 hi-lab 等机构的华人研究者们共同提出了一项名为 Uni-Instruct 的单步生成大一统理论框架,目前该成果已被 NeurIPS 2025 接收。这一框架不仅在理论上统一了十余种现有的单步扩散模型蒸馏方法,还在多项生成任务中取得了当前最优(SoTA)的性能表现。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
近年来,单步扩散模型因其卓越的生成能力和高效的推理速度,在图像生成、文本到视频转换、图像编辑等领域的表现尤为亮眼。目前主流的训练方法是通过知识蒸馏,最小化学生模型与教师扩散模型之间的分布差异。然而,现有方法主要沿着两条平行的技术路线发展:
基于 KL 散度最小化的方法(如 Diff-Instruct[1]、DMD[2] 等):收敛速度快,但可能存在模式崩溃风险,进而影响生成质量。基于分数散度最小化的方法(如 SIM[3]、SiD[4] 等):生成效果更稳定,但训练收敛速度相对较慢。
这两条技术路线在理论上似乎相互割裂。那么,我们能否在一个统一的框架下将它们整合起来?如果可以,这个统一的理论框架能否带来更强大的模型性能?
来自北京大学与小红书 hi-lab 等机构的研究团队提出的 Uni-Instruct 框架,成功打破了单步生成模型领域的技术壁垒。该框架不仅从理论层面统一了超过十种现有的单步扩散蒸馏方法,更在多项基准测试中刷新了性能纪录。

论文标题:Uni-Instruct: One-step Diffusion Model through Unified Diffusion Divergence Instruction
论文地址:https://arxiv.org/abs/2505.20755v4
代码库:https://github.com/a-little-hoof/Uni_Instruct
研究单位:北京大学未来技术学院、国家生物医学成像中心、北京大学前沿交叉学科研究院、小红书 hi-lab
论文作者:Yifei Wang, Weimin Bai, Colin Zhang, Debing Zhang, Weijian Luo, He Sun
特别值得注意的是,通过基于展开的 Jeffrey-KL 散度(Expanded Jeffrey-KL divergence)进行 Uni-Instruct 蒸馏得到的单步图像生成模型,在 ImageNet-64 数据集上取得了历史最低的 1.02 单步生成 FID 指标,这一成绩甚至超越了需要 1000 步采样的标准扩散模型(详见论文图2右表)。
核心贡献:Uni-Instruct 理论框架
研究团队提出了名为 Uni-Instruct 的统一理论框架,其核心创新在于引入了 f-散度扩散展开定理(diffusion expansion theory of the f-divergence family)。

简单来说,该定理推广了 De Bruijin 等式,将静态的数据空间教师模型与单步生成模型之间的 f-散度展开为沿着扩散过程的动态散度积分。
虽然原始的展开形式难以直接优化,但团队通过引入新的梯度等价定理,推导出了一个等价的且可计算的目标函数。

最令人惊喜的是,最终得到的目标函数梯度恰好是 Diff-Instruct(DI)梯度和 Score Implicit Matching(SIM)梯度的加权组合!

通过选择不同的 f-散度函数(如 KL 散度、卡方散度等),Uni-Instruct 能够复现出包括 Diff-Instruct[1]、DMD[2]、f-distill[5]、SIM[3]、SiD[4] 在内的十余种现有方法的损失函数。这不仅为理解现有工作提供了全新的高层视角,也标志着单步扩散模型理论体系走向统一。


图注 1:Uni-Instruct 单步生成模型在不同基准数据集上的生成效果。左:CIFAR10(无条件生成);中:CIFAR10(有条件生成);右:ImageNet 64x64(有条件生成)。可以清晰看到,生成样本的质量和多样性都达到了出色水准。

图注 2:Uni-Instruct 单步生成模型在不同基准数据集上的评测效果。左:CIFAR10(无条件生成);右:ImageNet 64x64(有条件生成)。可见该模型在两个榜单上都展现出显著的性能和效率优势。
实验结果
Uni-Instruct 在多个主流基准测试中打破了性能纪录:
CIFAR10 数据集:
a. 无条件生成 FID 达到 1.46。
b. 条件生成 FID 达到 1.38。
ImageNet 64x64 数据集:
a. 条件生成 FID 取得 1.02 的突破性成绩,明显优于需要 79 步采样的教师模型(1.02 vs 2.35)!
这些结果全面超越了 Diff-Instruct、Score Implicit Matching、f-distill、SiDA、DMD、Consistency Model 等此前所有单步生成模型,甚至大幅超越了需要 1000 步采样的标准扩散模型。
更广泛的应用:文本到 3D 生成
Uni-Instruct 的影响力不仅限于 2D 图像领域。研究团队成功将其应用于文本到 3D 生成任务,作为一种知识迁移方法,用以指导 NeRF 模型的优化过程。
实验结果表明,与 SDS 和 VSD 等现有方法相比,Uni-Instruct 能够在生成 3D 内容的质量和多样性方面取得更优异的表现。

图注 3:左图为 ProlificDreamer 生成结果,右图为 Uni-Instruct 生成效果
总结与展望
Uni-Instruct 提供了一个坚实的理论基础,成功地将十余种看似不同的扩散模型蒸馏方法囊括在一个统一的框架之下。这种理论统一不仅带来了对高效扩散模型的深刻理解,其卓越的实证性能也为高效生成模型的未来研究开辟了新的方向。这项工作是高效生成模型领域的一次重要理论突破,我们期待它能激发更多关于扩散模型知识迁移和高效生成的前沿探索!
本工作由北京大学计算科学成像实验室本科生王翼飞与博士生柏为民合作完成。本文通讯作者罗维健在北京大学数学学院取得博士学位,现于小红书 hi-lab 担任多模态大模型研究员。末位作者为北京大学未来技术学院孙赫助理教授。
相关攻略
Cardano (ADA) 2026年价格预测:AI深度解析与增长路径 在瞬息万变的加密市场,人工智能分析正成为洞察未来趋势的关键工具。近期,由Grok AI模型发布的Cardano(ADA)2026年价格预测引发了广泛关注,其大胆展望ADA或有望触及两位数美元价格。这不仅彰显了AI数据分析的潜力,
京东“全民养虾计划”:开启AI助手体验新纪元 科技领域近期迎来一场别开生面的创新活动:京东正式推出“全民养虾计划”。表面看,它与美食相关,实际上是一场针对AI智能体技术普及的宏大实验。该计划通过“购买AI硬件、赠送专业安装服务与趣味小龙虾”的组合策略,为当前热门的开源AI智能体——OpenClaw,
以太坊资本外溢:TRON为何成为15 2亿美元稳定币新枢纽? 区块链世界的地壳运动从未停止,资本的流向便是其中最敏锐的震感。近期,一场规模惊人的资本迁徙正在上演:大量资金正从以太坊网络流出,涌入TRON生态。这不仅是简单的资产转移,更是一次深刻的行业风向标,揭示了用户对交易成本、网络效率与应用场景的
自研第一个SKILL:手把手教你开发openclaw自定义技能 当你成功构建好openclaw之后,如何让它真正“智能”起来?关键在于为其开发SKILL——这些技能是openclaw的“内功心法”,决定了它能帮你做什么、做多好。 本文将带你亲自动手,从零开始开发你的第一个openclaw自定义技能,
国产 TOP5 手机厂商被曝联手豆包 打造全新 AI 手机 手机行业再迎重磅 AI 合作!今日,知名数码爆料博主 @数码闲聊站 抛出了“豆包 AI 手机”的议题,并透露其已从内部渠道确认:一家位列国产前五的头部手机厂商,已与字节跳动旗下 AI 产品“豆包”达成深度合作协议。这标志着,AI 手机助理的
热门专题
热门推荐
《全面战争:中世纪3》:经典延续,如何平衡怀旧与创新? 近期,《全面战争:中世纪3》的项目负责人帕维尔·沃伊斯坦然指出,要打造一款真正优秀的续作,绝不能仅仅依赖对前作模式的简单复刻。这一观点引人深思——尽管《中世纪2:全面战争》至今仍在策略游戏爱好者心中占据着经典地位,但开发团队此次显然决心跳出“照
雷鸟X3 Pro斩获AWE艾普兰创新大奖,开启全民AR生活新篇章 在上海新国际博览中心隆重揭幕的2026年中国家电及消费电子博览会(AWE)上,前沿AI科技与未来生活愿景激情碰撞。全球消费级AR领导品牌雷鸟创新,以其里程碑式的表现,定义了行业发展的新方向。 通过“顶尖硬件科技+顶级文化IP”的双轨战
借力AWE2026“一展双区”,MOVA双区协同、震撼登场 备受瞩目的科技盛会——2026年中国家电及消费电子博览会(AWE),于3月12日至15日在上海盛大举办。本届AWE展会首次创新采用“一展双区”的展览模式,主会场位于上海新国际博览中心,分会场则设于上海东方枢纽国际商务合作区,两大展区高效联动
冰结师技能全解析 踏入2026年,《地下城与勇士》中的冰结师职业,其技能体系已构建得更为成熟与强大。无论是在副本中高效清理海量怪物,还是在决斗场与高手玩家周旋,这个职业都能凭借其独特的冰霜艺术掌控战局。刷图时,酷寒的范围法术可瞬间清屏;而在PVP竞技中,一套将冻结控制与瞬间爆发完美衔接的连招,往往让
iPhone 18 Pro系列模具不变,屏幕形态将与iPhone 17 Pro保持一致 备受期待的屏下Face ID组件小型化设计与灵动岛区域缩窄方案,预计将被推迟至后续迭代机型中正式应用。 近期,关于iPhone 18 Pro系列的技术传闻持续引发行业关注,尤其在显示与解锁设计领域传言甚多。多方消





