pMF开启像素级生成:何恺明团队新作如何实现无潜单步成像

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
机器之心编辑部
何恺明团队新论文,再次诠释“大道至简”。
这项研究直指当前以 DiT 为代表的主流扩散模型与流匹配模型存在的通病,并提出了一种用于单步、无潜空间的图像生成新框架。

论文标题:One-step Latent-free Image Generation with Pixel Mean Flows
在生成式 AI 领域,追求更高效、更直接的生成范式一直是学界的核心目标。
当前,以 DiT 为代表的主流扩散模型与流匹配模型主要依赖两大支柱来降低生成难度,一是通过多步采样将复杂的分布转换分解为微小的步进,二是在预训练 VAE(变分自编码器)的潜在空间中运行以降低计算维度。
尽管这些设计在图像质量上取得了巨大成功,但从深度学习“端到端”的精神来看,这种对多步迭代和预置编码器的依赖,无疑增加了系统的复杂性和推理开销。
面对这些挑战,何恺明团队提出了用于单步、无潜空间图像生成的 Pixel MeanFlow(pMF)框架。该框架继承了改进均值流(Improved MeanFlow, MF)的思路,通过在瞬时速度(即 v)空间内定义损失函数,来学习平均速度场(即 u)。
与此同时,受“仅图像变换器”(JiT)的启发,pMF 直接对类似于去噪图像的物理量(即 x-prediction 值)进行参数化,并预期该物理量位于低维流形上。
为了兼容这两种设计,团队引入了一种转换机制,将 v、u 和 x 三个场联系起来。实验证明,这种设计更符合流形假设,并且产生了一个更易于学习的目标(见下图 1)。

概括来说,pMF 训练了一个能将噪声输入直接映射为图像像素的网络。它具备“所见即所得”的特性,而这在多步采样或基于潜在空间的方法中是不存在的。这一特性使得感知损失能够自然地集成到 pMF 中,从而进一步提升生成质量。
实验结果显示,pMF 在单步、无潜空间生成方面表现强劲,在 ImageNet 数据集上,256x256 分辨率下的 FID 达到 2.22,512x512 分辨率下达到 2.48。团队进一步证明,选择合适的预测目标至关重要:在像素空间直接预测速度场会导致性能崩溃。
相关攻略
IT之家 3 月 28 日消息,博主 @数码闲聊站 今天在微博发文称:一个超前瞻,下一代超大杯 " 可能 " 会有 LOFIC 长焦, " 可能 " 会出现双 LOFIC 影像, " 可能 " 会有 3
快科技3月28日消息,据博主定焦数码爆料,华为将在下月发布的全新Pura X机型将改名,目前还不确定全新命名方式,但不会在延续之前的命名叫做Pura X2了。这款新机将成为全球首款横向大尺寸扩折叠手
目前,OPPO已经正式宣布K15 Pro 系列新机将于4月1日发布。与此同时,新机发布前的预热剧透也已经正式开始。今天,OPPO最新公布了K15 Pro 系列的外观设计,并带来了赛博光翼,起源灰,光
IT之家 3 月 27 日消息,OPPO K15 Pro 系列手机已官宣将于 4 月 1 日发布。IT之家注意到,OPPO K15 Pro 手机已现身 OPPO 正式,公布了部分配色、设计、版本等信
手机长焦最大的痛点是什么?不是拍不远,而是拍不清、拍不亮、拍不全。比如拍远处,画面抖了;拍夜景,暗部死黑;拍逆光,高光一片白,这些问题,过去靠算法硬撑,现在小米18 Ultra打算用硬件来解决。虽然
热门专题
热门推荐
在明日方舟终末地中,小陈剧情的开启需要满足一定条件并完成特定任务。首先,要确保玩家已经达到一定的游戏进度。这包括推进主线剧情到一定阶段,解锁了相应的区域和功能。随着主线剧情的推进,
前言《逐玉》大结局落幕那晚,我盯着屏幕良久,胸口像压了块浸水的棉絮,沉闷得喘不过气。从首播时满怀热望地守在更新页面,到中期边看边叹气、反复暂停找逻辑漏洞,再到最后几集干脆调成倍速、只为“完成任务”式
3月28日消息 据新华社报道,俄罗斯政府日前宣布了一项重要的能源指令。俄副总理亚历山大·诺瓦克已指示能源部起草行政命令,计划从4月1日起全面禁止汽油出口。此举的核心目的是在中东战事引发全球能源市场动
蓝海搜书最新可用网址是https: www lanhaizw com ,平台具备极简无广告界面、全球CDN加速、三类自适应阅读模式、四重语义检索、27个细分分类、跨设备同步及离线
在网络信息爆炸的时代,一款好用的浏览器能为我们带来便捷与丰富的体验。悟空浏览器网页版正式版入口,成为众多用户探索网络精彩的关键通道。悟空浏览器以其简洁界面和强大功能吸引着广大用户。





