pMF开启像素级生成:何恺明团队新作如何实现无潜单步成像

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
机器之心编辑部
何恺明团队新论文,再次诠释“大道至简”。
这项研究直指当前以 DiT 为代表的主流扩散模型与流匹配模型存在的通病,并提出了一种用于单步、无潜空间的图像生成新框架。

论文标题:One-step Latent-free Image Generation with Pixel Mean Flows
在生成式 AI 领域,追求更高效、更直接的生成范式一直是学界的核心目标。
当前,以 DiT 为代表的主流扩散模型与流匹配模型主要依赖两大支柱来降低生成难度,一是通过多步采样将复杂的分布转换分解为微小的步进,二是在预训练 VAE(变分自编码器)的潜在空间中运行以降低计算维度。
尽管这些设计在图像质量上取得了巨大成功,但从深度学习“端到端”的精神来看,这种对多步迭代和预置编码器的依赖,无疑增加了系统的复杂性和推理开销。
面对这些挑战,何恺明团队提出了用于单步、无潜空间图像生成的 Pixel MeanFlow(pMF)框架。该框架继承了改进均值流(Improved MeanFlow, MF)的思路,通过在瞬时速度(即 v)空间内定义损失函数,来学习平均速度场(即 u)。
与此同时,受“仅图像变换器”(JiT)的启发,pMF 直接对类似于去噪图像的物理量(即 x-prediction 值)进行参数化,并预期该物理量位于低维流形上。
为了兼容这两种设计,团队引入了一种转换机制,将 v、u 和 x 三个场联系起来。实验证明,这种设计更符合流形假设,并且产生了一个更易于学习的目标(见下图 1)。

概括来说,pMF 训练了一个能将噪声输入直接映射为图像像素的网络。它具备“所见即所得”的特性,而这在多步采样或基于潜在空间的方法中是不存在的。这一特性使得感知损失能够自然地集成到 pMF 中,从而进一步提升生成质量。
实验结果显示,pMF 在单步、无潜空间生成方面表现强劲,在 ImageNet 数据集上,256x256 分辨率下的 FID 达到 2.22,512x512 分辨率下达到 2.48。团队进一步证明,选择合适的预测目标至关重要:在像素空间直接预测速度场会导致性能崩溃。
相关攻略
泰坦军团 G27T6T 显示器上架:三星 QD-OLED 2K 360Hz 面板,国补价 3298 5 元 最近,显示器市场又迎来一款值得关注的新品。泰坦军团的 G27T6T 显示器已在京东正式开售,核心卖点很明确:搭载了一块 26 5 英寸的三星 QD-OLED 面板,分辨率达到 2K,刷新率更是
构建自主可控的专利体系,掌握国际竞争主动权 作者 | 徐长卿 编辑丨高远山 来源 | 野马财经 你是否遇到过这样的烦恼:手机或手表屏幕不小心磕碰了一下,起初只是一个小点,随后黑斑却像墨水滴入清水般逐渐扩散开来,最终导致整块屏幕失灵?这个困扰用户多年的问题,其根源深植于OLED制造中一道名为精细金属掩
一加新品前瞻:天玑9500新机与影像旗舰在路上 最近数码圈又热闹起来了。综合各方消息来看,一加在接下来的几个月里,准备了好几款新品要和大家见面。 这不,知名爆料博主@数码闲聊站 又带来了一份新机情报。据称,这款新设备将搭载一块6 78英寸的1 5K分辨率屏幕,关键是刷新率直接拉到了165Hz,并且采
快科技4月6日消息,据博主 "智慧皮卡丘 "爆料,小米18系列将全系标配2亿像素长焦,影像能力大幅升级。尤其对于标准版来说,这还是第一次用上潜望长焦,补齐了远摄能力的最大短板,现在真正让小屏机也成为水桶
快科技4月7日消息,据博主爆料,尽管第一代产品的市场表现不尽如人意,苹果依然计划让iPhone Air系列正常迭代。无论目前的销量状况如何,苹果都将按部就班地推出第二代产品iPhone Air 2。
热门专题
热门推荐
2026年4月9日,阿里云旗下的AI开发平台“百炼”正式发布了名为“记忆库”的全新功能。这项功能的核心价值,在于为AI Agent赋予跨会话的长期记忆能力,旨在彻底解决多轮对话中信息丢失与遗忘的行业核心痛点。目前,该功能正处于限时免费公测阶段。官方性能数据显示,其在关键指标上表现突出:记忆检索性能大
今天外汇市场的表现,可以说是在平静中透着一丝韧性。北京时间下午四点半,在岸软妹币对美元汇率官方收盘价定格在6 7946。 这个数字背后有两个值得玩味的对比:一是比起前一个交易日的官方收盘价,小幅上扬了8个基点;二是相较于昨晚夜盘的收盘价,则回升了17个基点。虽然波动幅度不大,但这种日内低开后的企稳回
《遥遥西土》北境区域共有十个墓碑等待收集。首个墓碑位于地图北部悬崖下方,玩家需跳至崖底才能发现,其旁另有一座墓碑作为参照。具体位置与探索方法可参考相关视频攻略。
归环好彩骰”是游戏的核心机制,通过投掷骰子组合牌型获得奖励。它将叙事、战斗与成长深度整合,玩家的选择与骰点结果直接影响剧情走向和战斗效果。机制简单易上手,无时间压力,提供即时强反馈。游戏结合“万相卡”与角色流派,支持多样策略,平衡随机性,提升了内容探索深度与复用价值。
《植物大战僵尸》抽卡重置版已上线,核心玩法融合塔防与抽卡。游戏包含七阶卡池系统,顶级卡牌稀缺。新增超百种原创植物,僵尸行为更复杂,关卡设计多样。随机植物模式增加变数,roguelike元素提升重复可玩性。版本持续更新,社区活跃。





