pMF开启像素级生成：何恺明团队新作如何实现无潜单步成像

首页

热心网友

转载

2026-02-04

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

机器之心编辑部

何恺明团队新论文，再次诠释“大道至简”。

这项研究直指当前以 DiT 为代表的主流扩散模型与流匹配模型存在的通病，并提出了一种用于单步、无潜空间的图像生成新框架。

论文标题：One-step Latent-free Image Generation with Pixel Mean Flows

在生成式 AI 领域，追求更高效、更直接的生成范式一直是学界的核心目标。

当前，以 DiT 为代表的主流扩散模型与流匹配模型主要依赖两大支柱来降低生成难度，一是通过多步采样将复杂的分布转换分解为微小的步进，二是在预训练 VAE（变分自编码器）的潜在空间中运行以降低计算维度。

尽管这些设计在图像质量上取得了巨大成功，但从深度学习“端到端”的精神来看，这种对多步迭代和预置编码器的依赖，无疑增加了系统的复杂性和推理开销。

面对这些挑战，何恺明团队提出了用于单步、无潜空间图像生成的 Pixel MeanFlow（pMF）框架。该框架继承了改进均值流（Improved MeanFlow， MF）的思路，通过在瞬时速度（即 v）空间内定义损失函数，来学习平均速度场（即 u）。

与此同时，受“仅图像变换器”（JiT）的启发，pMF 直接对类似于去噪图像的物理量（即 x-prediction 值）进行参数化，并预期该物理量位于低维流形上。

为了兼容这两种设计，团队引入了一种转换机制，将 v、u 和 x 三个场联系起来。实验证明，这种设计更符合流形假设，并且产生了一个更易于学习的目标（见下图 1）。

概括来说，pMF 训练了一个能将噪声输入直接映射为图像像素的网络。它具备“所见即所得”的特性，而这在多步采样或基于潜在空间的方法中是不存在的。这一特性使得感知损失能够自然地集成到 pMF 中，从而进一步提升生成质量。

实验结果显示，pMF 在单步、无潜空间生成方面表现强劲，在 ImageNet 数据集上，256x256 分辨率下的 FID 达到 2.22，512x512 分辨率下达到 2.48。团队进一步证明，选择合适的预测目标至关重要：在像素空间直接预测速度场会导致性能崩溃。

来源:https://www.163.com/dy/article/KKTU02BN0511AQHO.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：奥迪重现A2之名，打造突破续航边界纯电掀背车下一篇：马斯克母亲分享邂逅特斯拉旧照，意外展示深蓝跑车

相关攻略

业界动态

泰坦军团26.5英寸G27T6T显示器开售，国补价3298.5元

泰坦军团 G27T6T 显示器上架：三星 QD-OLED 2K 360Hz 面板，国补价 3298 5 元最近，显示器市场又迎来一款值得关注的新品。泰坦军团的 G27T6T 显示器已在京东正式开售，核心卖点很明确：搭载了一块 26 5 英寸的三星 QD-OLED 面板，分辨率达到 2K，刷新率更是

热心网友

04.22

科技数码

维信诺智能像素技术量产出货，中国屏幕告别“金属网”束缚？

构建自主可控的专利体系，掌握国际竞争主动权作者 | 徐长卿编辑丨高远山来源 | 野马财经你是否遇到过这样的烦恼：手机或手表屏幕不小心磕碰了一下，起初只是一个小点，随后黑斑却像墨水滴入清水般逐渐扩散开来，最终导致整块屏幕失灵？这个困扰用户多年的问题，其根源深植于OLED制造中一道名为精细金属掩

热心网友

04.21

业界动态

一加 Ace 6 至尊版再曝，搭载天玑9500旗舰芯

一加新品前瞻：天玑9500新机与影像旗舰在路上最近数码圈又热闹起来了。综合各方消息来看，一加在接下来的几个月里，准备了好几款新品要和大家见面。这不，知名爆料博主@数码闲聊站又带来了一份新机情报。据称，这款新设备将搭载一块6 78英寸的1 5K分辨率屏幕，关键是刷新率直接拉到了165Hz，并且采

热心网友

04.14

科技数码

史诗升级！小米18全系标配2亿像素长焦

快科技4月6日消息，据博主 "智慧皮卡丘 "爆料，小米18系列将全系标配2亿像素长焦，影像能力大幅升级。尤其对于标准版来说，这还是第一次用上潜望长焦，补齐了远摄能力的最大短板，现在真正让小屏机也成为水桶

热心网友

04.07

网络安全

iPhone Air销量惨败苹果不死心：Air 2已在路上

快科技4月7日消息，据博主爆料，尽管第一代产品的市场表现不尽如人意，苹果依然计划让iPhone Air系列正常迭代。无论目前的销量状况如何，苹果都将按部就班地推出第二代产品iPhone Air 2。

热心网友

04.07

热门推荐

业界动态

阿里云百炼记忆库解决AI多轮对话遗忘难题

2026年4月9日，阿里云旗下的AI开发平台“百炼”正式发布了名为“记忆库”的全新功能。这项功能的核心价值，在于为AI Agent赋予跨会话的长期记忆能力，旨在彻底解决多轮对话中信息丢失与遗忘的行业核心痛点。目前，该功能正处于限时免费公测阶段。官方性能数据显示，其在关键指标上表现突出：记忆检索性能大

热心网友

05.12