何恺明新作:大二本生用扩散模型颠覆图像生成,简化多步采样
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
何恺明,再次出手精简架构。
新方法Pixel Mean Flow(pMF),突破传统扩散模型/流模型限制。
两大传统组件多步采样和潜空间都被砍了,现在只需一步,直接在像素空间生成图像。

在ImageNet 256×256分辨率上,pMF达到了2.22 FID;512×512分辨率上则是2.48 FID。这是目前单步、无潜空间扩散模型在该基准上取得的最佳成绩之一。

砍掉扩散模型的两大件
现代扩散模型生成图像,一直离不开多步采样和潜空间编码。
多步采样意味着生成一张图需要跑几十甚至上百次神经网络,潜空间则需要先把图像压缩到一个低维空间再进行操作。两者的共同目的是把一个极度复杂的生成问题拆解成若干个相对简单的子问题。
近年来,研究社区分别在这两个方向上取得了进展:
一致性模型(Consistency Models)和何恺明团队2025年提出的MeanFlow在少步、单步采样上持续突破。

何恺明团队2026年1月提出的JiT(Just image Transformers)则证明了在原始像素空间做扩散模型的可行性。

但把这两条路合到一起,难度陡增。
少步模型要求单个网络能够处理不同起点和终点的轨迹;像素空间模型则需要在没有预训练tokenizer的情况下完成压缩和抽象。
两边的挑战叠加在一起,对架构设计提出了更高的要求。
pMF的核心设计
pMF的思路可以概括为:网络直接输出像素级别的去噪图像,但训练时用速度场来计算损失。
具体来说,pMF定义了一个新的场x,它是从平均速度场u通过简单变换得到的。
x场的关键特性是看起来像干净的图像。

论文通过追踪ODE轨迹进行可视化发现,平均速度场u对应的是噪声图像,而变换后的x场则对应近乎干净或略微模糊的图像。

这背后的假设是流形假设(manifold hypothesis):自然图像实际上位于一个低维流形上,让网络直接预测这个低维流形上的量,比预测高维噪声空间中的量要容易得多。

团队用一个2D玩具模型验证了这一点。
当把2D数据投影到512维观察空间时,传统的u-prediction直接崩溃,而x-prediction仍然能够正常工作。

在真实的ImageNet实验中也是如此:256×256分辨率下,patch维度达到768(16×16×3),u-prediction的FID直接飙到164.89,而 x-prediction则保持在个位数。

pMF还有一个独特优势:
因为网络直接输出像素图像,可以自然地使用感知损失(perceptual loss)。
这本是潜空间方法在训练VAE时才能用的技巧,pMF把它带到了生成器本身的训练中。实
实验显示,加入感知损失后,FID从9.56直接降到3.53,提升了约6个点。

实验结果与对比
在ImageNet 256×256上,pMF-H/16模型以2.22 FID的成绩,超越了此前唯一的同类方法EPG(8.82 FID)。与GAN方法相比,pMF达到了相近的FID,但计算量大幅下降——StyleGAN-XL每次前向传播需要1574 Gflops,是pMF-H/16的5.8倍。

在512×512分辨率上,pMF采用了32×32的大patch尺寸,保持与256×256相近的计算开销,达到了2.48 FID。

另外,潜空间方法还有一笔经常被忽略的开销:VAE解码器。
标准SD-VAE解码器在256分辨率下需要310 Gflops,512分辨率下需要1230 Gflops,这个开销已经超过了pMF整个生成器的计算量。
论文还进行了大量消融实验:
优化器方面,Muon比Adam收敛更快且效果更好;

时间采样方面,MeanFlow的全平面采样策略不可或缺,只在r=t或r=0单线上采样都会导致失败;
预条件器(pre-conditioner)方面,传统的EDM和sCM风格设计在这个高维场景下不如直接的 x-prediction有效。

团队介绍
一个图像生成模型,本质上就是从噪声到像素的映射。
多步采样和潜空间编码都是历史上为了降低难度而引入的折中方案,但随着模型能力的提升和训练技巧的进步,这些“拐杖”正在变得不那么必要。
团队在结尾写道:希望这项工作能够鼓励未来对直接、端到端生成建模的探索。从实验结果来看,单步无潜空间生成已经从“是否可行”进入到“如何做得更好”的阶段了。

共同一作Yiyang Lu(陆伊炀)、Susie Lu、Qiao Sun(孙启傲)、Hanhong Zhao(赵瀚宏)为MIT本科生。
其中孙启傲是IMO金牌得主,赵瀚宏是国际物理奥林匹克竞赛IPhO金牌得主,陆伊炀是全国中学生物理竞赛CPhO金牌得主。
论文地址:
https://arxiv.org/abs/2601.22158
相关攻略
中国航天员科研训练中心招募卧床实验志愿者,需卧床最长60天以模拟失重环境,研究生理变化。参与者需符合健康及心理标准,实验过程伴随不适但受严密监控。数据对航天医学与老年病学有重要价值,志愿者可获得补助及交通报销。
“我能再说几句吗?” 在复旦大学相辉堂举行的“浦江科学大师讲坛”互动环节结束后,2024年诺贝尔物理学奖得主安妮·吕利耶教授主动提出了这个请求。她分享了一个温暖的观察:“我曾受邀在各种场合做过演讲,很多时候提问的都是男性,但这次几乎都是女性在提问题,请大家坚持下去。”作为第五位获得诺贝尔物理学奖的女
你还在一个人做科研吗? 科研路上最磨人的,往往不是问题本身,而是那种彻头彻尾的“孤军奋战”感。一个想法,从文献调研到实验设计,再到落笔成文,每一步都只能靠自己摸索着前行。 方向偏了,没人及时提醒;遇到歧义,找不到人讨论;结果不对,就只能陷入反复试错的循环。市面上不少所谓的“自动化科研”工具,其实只是
Claw AI Lab团队量子位 | 公众号 QbitAI你还在一个人做科研吗?科研最难的,从来不是问题本身,而是一个想法从文献到实验再到写作,只能靠自己一点点往前推。一个人方向偏了没人提醒,遇到歧
上海交大义理林团队,以AI赋能激光器,用于芯片测量切割,致力于实现高端制造的自主可控;上海交大李金金团队,将深耕设备一辈子的老师傅们口传心授的实操经验,炼成工业时序控制大模型;上海交大谢伟迪团队研发
热门专题
热门推荐
以太坊网络交易活跃度是衡量其生态健康与市场流动性的关键指标。本文分析了影响ETH成交活跃度的核心因素,包括网络性能、Gas费用及用户行为。通过梳理当前主流交易平台的特点,展望了至2026年可能影响排名的技术趋势与市场格局,为参与者提供长期观察视角与决策参考。
欧易OKX是全球知名数字资产交易平台,提供现货、合约等多种交易模式及理财服务。用户可通过官方网站或官方应用商店下载正版App,确保访问安全。注册需完成手机或邮箱验证及身份认证。平台功能包括多元交易、专业行情工具、多重安全验证及跨平台数据同步,保障用户资产安全与操作便捷。
选择可靠平台是加密货币投资的关键。币安交易量领先,OKX衍生品突出,Gate io资产丰富。火币在亚洲市场稳定,Coinbase以合规安全著称。Bybit专注衍生品,Bitget提供复制交易功能。KuCoin资产种类多,Kraken安全体系完善,MEXC支持资产超2000种。各平台特色不同,需根据自身需求综合选择。
本文从BTC现货深度这一核心指标出发,探讨其对衡量交易平台综合实力的重要性。通过分析深度数据的构成与意义,并结合市场流动性、用户信任与平台生态等维度,对2026年主流数字资产交易所的潜在格局进行展望。深度不仅是交易体验的保障,更是平台技术、风控与长期运营能力的集中体现,是投资者选择平台时不可忽视的关键参考。
火币HTX全球站提供官方网址入口及安卓与iOS客户端安装指引。安卓用户需从官网下载安装包,并在系统设置中允许安装。iOS用户可直接通过AppStore下载安装。应用安装后需注册账户并完成邮箱验证,之后即可登录进行数字货币交易。





