首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
OpenAI参与,重卷ImageNet:终于把FID做成训练

OpenAI参与,重卷ImageNet:终于把FID做成训练

热心网友
57
转载
2026-05-06

统治AI图像生成近10年的黄金标准,第一次被拉下场当了教练

这里说的是FID(Frechet Inception Distance)。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

自2017年诞生以来,这个指标一直是评估生成模型质量的“金科玉律”,但有个尴尬的现实:它始终无法直接用于日常训练。原因很简单,计算FID需要数万张图片的统计分布,而GPU单次训练能处理的批次(batch)通常只有几百到几千张。强行把数万样本塞进反向传播,显存恐怕会立刻“罢工”。

如今,这个窘境被打破了。

来自南加州大学(USC)、卡内基梅隆大学(CMU)、香港中文大学(CUHK)和OpenAI的全华人研究团队,提出了一个名为FD-loss的方法。其核心思想堪称“四两拨千斤”:将“用于统计的样本池”和“用于计算梯度的批次”彻底解耦。

具体来说,他们利用一个由数万张图像特征组成的大容量缓存队列,或者采用指数移动平均(EMA)机制,来稳定地估算真实与生成数据的整体分布。而梯度回传,则仅针对当前训练的小批量数据进行。这样一来,长期被束之高阁的FID,终于能作为训练损失函数,直接指导模型的优化过程了。

实验结果令人眼前一亮:

  • 一个现成的单步生成器,经过微调后,在ImageNet 256×256数据集上FID直接刷到0.72,而且推理成本没有丝毫增加。
  • 一个原本需要50步采样的多步扩散模型,被他们“重新利用”为单步生成器,无需复杂的教师蒸馏或对抗训练,效果依然能打。
  • 最碘伏认知的发现或许是:FID数值最优的模型,视觉观感未必最好。那些基于DINOv2、MAE、SigLIP等现代视觉表征训练的模型,虽然FID分数可能不如基于老牌Inception架构优化的版本,但生成图像的物体结构完整性和细节还原度却明显更胜一筹。

这引出了一个更深层的问题:行业长期扎堆优化的FID分数,或许早已触及性能瓶颈,甚至可能将研究引入歧途。

为此,团队提出了一个更鲁棒的新评估标准:对6种不同表征空间计算归一化弗雷歇特距离(FD)并取平均,得到综合指标FDrk。按照这个新标准,真实验证集的基准值为1.0,而当前顶尖生成模型的数值仍高达1.89。

这足以说明,在ImageNet级别的图像生成任务上,技术远未成熟。

解耦统计量与梯度计算

FID的核心逻辑是衡量生成图像分布与真实图像分布的接近程度。数值越小,代表越逼真。传统上,它只是个“事后裁判”,无法参与训练。

新研究的破局点,就在于“解耦”二字。

研究团队用一个大窗口(队列或EMA)来稳定估算全局的均值与协方差,确保FD计算准确无误;同时,梯度计算只作用于当前的小批量数据,完美避开了显存爆炸的难题。

他们设计了两种工程实现方案:

第一种是队列法(Queue)。维护一个超大特征队列(例如5万条),每次新批次生成,就入队最新特征,同时踢出最旧的特征。计算FD时,使用整个队列的统计量;反向传播时,只对当前批次的特征计算梯度。历史特征不参与梯度更新,从而在保证统计稳健性的同时,不增加额外训练开销。

第二种是指数移动平均法(EMA)。这种方法更巧妙,它根本不存储具体特征,而是通过平滑更新的方式,实时维护生成样本特征的一阶矩和二阶矩估计。每一步都用当前批次的统计量去更新这个全局估计。同样,梯度也只作用于当前批次。这种方法显存占用极低,统计结果更平滑,还能轻松适配多表征空间的联合优化,在实验中表现更优,也成为论文默认的方案。

为了验证解耦机制的有效性,研究者在最小的pMF-B/16模型上做了两组消融实验。

第一组对比队列长度。不用队列时,FID反而从3.31劣化到3.84。当队列长度增加到5万时,FID骤降至0.89;但盲目堆到50万后,由于历史特征过于陈旧,性能指标FDr6直接崩回17.67。

第二组对比EMA衰减率。当β=0.999时,FID达到最佳的0.81,优于队列法,也显著好于衰减过快(β=0.9,FID 0.98)或过慢(β=0.9999,FID 0.98)的情况。因此,后续所有实验均默认采用EMA方案。

三个“反常识”的实验发现

FD-loss本质上是一个轻量级的后训练分布对齐目标。它的工作流程非常简洁:从一个预训练好的生成器出发,只用FD-loss进行微调。真实图像的统计量(均值和协方差)只需在离线阶段计算一次并保存,之后模型再也“见不到”真图,只对着自己生成的样本进行自我修正和分布对齐。

这意味着它无需改动原有模型架构,无需从头训练,也无需依赖教师蒸馏或对抗学习,就像一个即插即用的“质量增强插件”。无论是像素空间还是隐空间模型,单步还是多步架构,都能无缝接入。

正是基于这个轻量框架,研究团队系统性地探索了当FID真正成为损失函数后,会发生什么。结果带来了三个重要的反常识发现。

发现一:FD-loss让单步生成模型首次实现画质与速度的双重突破。研究者选取了一个已训练好的单步生成器pMF-H,仅用FD-loss微调100轮。结果在ImageNet 256×256上,FID从2.29大幅降至0.77,同时依然保持1步生成。这一成绩甚至超越了以往多步扩散模型的最佳水平,打破了“高质量必须多步采样”的固有认知。换句话说,推理成本一分没加,画质却实现了跃升。同样的操作在隐空间模型iMF-XL上也奏效,FID从1.82压到了0.76。更重要的是,这种提升并非“刷分”,定性对比显示,微调后的图像细节(如鹦鹉羽毛、雪豹斑点)明显更加清晰锐利。

发现二:FD-loss能将成熟的多步扩散模型直接改造为高性能单步生成器。研究者将原本设计为50步采样的多步模型JiT-L,强行切换到单步模式(输入纯噪声,只推理一次)。结果可想而知,FID崩坏至291.59,图像糊成一片。然而,他们仅用FD-loss对这个“残疾”的单步模式进行微调,不引入任何蒸馏或对抗训练。50轮后,FID从291骤降至0.77,生成质量与原多步模型相当甚至更优,推理速度却提升了数十倍。

发现三:FID最低的,未必是人眼最喜欢的。这是最具行业反思价值的发现。当研究者在不同视觉表征空间(如Inception-v3, DINOv2, MAE等)中应用FD-loss时,出现了诡异的分歧:基于老牌Inception特征优化的模型能获得最低的FID分数,但其生成图像在物体结构、细节纹理和整体感知质量上,却弱于使用DINOv2、MAE等现代视觉表征训练的模型。后者FID数值可能更高,但人眼主观评价却更好。这直接警示我们,过度追求FID这一单一指标,可能会让模型优化偏离人类视觉感知的真实方向。

团队提出新标准

那么,如果FID已不可全信,我们该如何更全面地评估生成模型的进步?

研究团队提出了一个跨6种表征空间的归一化平均指标:FDrk。该指标通过对Inception-v3、ConvNeXtv2、DINOv2、MAE、SigLIP2、CLIP这6种不同且互补的视觉表征空间分别计算归一化FD比值,然后取平均值得到FDr6。这相当于组建了一个“评审团”,综合多维度意见,评估结果自然更鲁棒。

按照这一新标准,真实验证集的基准值为1.0,而当前最强的生成模型FDr6仍高达1.89,直观地揭示了ImageNet级别图像生成任务仍有巨大提升空间。此外,在人类盲选偏好实验中,即便最优的pMF-H模型,得票率也仅为37.4%,真实图片仍以62.6%的胜率占据绝对优势。

值得一提的是,FD-loss的实用门槛极低。它作为一个轻量级后训练插件,无需修改主干网络结构,不引入复杂架构改动,也避免了从头训练的巨额开销。无论是像素空间还是隐空间模型,单步还是多步生成器,条件生成还是文生图任务,它都能即插即用,通过队列或EMA机制稳定收敛。

这种简洁而通用的设计,极大地降低了实现高质量、极速生成模型的工程门槛,让各类现有架构都能快速获得显著的感知质量提升。低成本、高回报,这正是FD-loss对工业界产生巨大吸引力的关键所在。

团队介绍

这项工作的作者团队是一支全华人力量。

一作Jiawei Yang,南加州大学(USC)计算机系博士生,师从Yue Wang教授,研究方向聚焦于以视觉为中心的多模态模型的统一生成与理解。他硕士毕业于加州大学洛杉矶分校(UCLA),曾获NVIDIA研究生奖学金。

Zhengyang Geng,本科毕业于四川大学计算金融专业,现为卡内基梅隆大学(CMU)计算机科学博士生,导师为Zico Kolter。他长期专注于单步生成、动态系统与模型高效化,是MeanFlow、pMF等系列工作的核心作者。其个人主页显示“与Kaiming He有紧密合作”,两人已连续合作发表多篇单步生成领域的核心论文。

Xuan Ju,香港中文大学(CUHK)博士生,师从徐强教授,主攻图像与视频生成、高效多模态模型。她在ICCV、SIGGRAPH等顶级会议上发表过多篇成果。

Yonglong Tian,博士毕业于麻省理工学院(MIT)计算机科学专业,现为OpenAI研究员。他是监督对比学习(SupContrast)等表征学习标志性工作的作者,曾任职于Google DeepMind。

通讯作者Yue Wang,南加州大学(USC)助理教授,同时兼任英伟达研究科学家。他本科毕业于浙江大学,硕士毕业于加州大学圣地亚哥分校(UCSD),博士毕业于麻省理工学院(MIT),研究横跨3D视觉、生成模型与机器人。

论文已发布于arXiv:https://arxiv.org/abs/2604.28190

来源:https://www.qbitai.com/2026/05/412882.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

马斯克诉OpenAI庭审手记:庭审第一周的现场、证词和幕后
科技数码
马斯克诉OpenAI庭审手记:庭审第一周的现场、证词和幕后

上周,奥特曼和马斯克,这两个 AI 领域最有权势的人在加州奥克兰的法庭上正面交锋。 (来源:麻省理工科技评论) 一场酝酿已久的对决,终于在法庭上演。马斯克正式起诉OpenAI,核心指控直指近十年前的那笔投资:他投入的数百万美元,初衷是捐给一家非营利机构,而这家公司后来的发展路径,在他看来,彻底背弃了

热心网友
05.06
OpenAI CEO奥尔特曼向马斯克示好 称其“可以来”参加GPT-5.5庆功宴
科技数码
OpenAI CEO奥尔特曼向马斯克示好 称其“可以来”参加GPT-5.5庆功宴

OpenAI CEO奥尔特曼向马斯克示好 称其“可以来”参加GPT-5 5庆功宴 5月3日,《商业内幕》的一则报道,让科技圈的目光再次聚焦于两位巨头之间微妙的互动。报道称,在一场法庭对峙之后,OpenAI的首席执行官萨姆·奥尔特曼向埃隆·马斯克释放了一个颇为意外的友好信号。 事情源于OpenAI即将

热心网友
05.06
OpenAI参与,重卷ImageNet:终于把FID做成训练
业界动态
OpenAI参与,重卷ImageNet:终于把FID做成训练

统治AI图像生成近10年的黄金标准,第一次被拉下场当了教练 这里说的是FID(Frechet Inception Distance)。 自2017年诞生以来,这个指标一直是评估生成模型质量的“金科玉律”,但有个尴尬的现实:它始终无法直接用于日常训练。原因很简单,计算FID需要数万张图片的统计分布,而

热心网友
05.06
OpenAI手机将搭载定制天玑芯片 上市进程提速
业界动态
OpenAI手机将搭载定制天玑芯片 上市进程提速

OpenAI手机量产节奏或将提前,分析师披露早期规格 关于OpenAI正在秘密打造一款AI智能体手机的消息,在科技圈已经流传了一段时间。知名分析师郭明錤此前曾预测,这款备受瞩目的设备原定于2028年量产。不过,最新的风向似乎变了——根据他近期的报告,这款产品的落地时间表很可能会大幅提前。 那么,具体

热心网友
05.06
高管出走潮持续蔓延,OpenAI销售主管悄然离职
科技数码
高管出走潮持续蔓延,OpenAI销售主管悄然离职

OpenAI高管流失再添一例 全球估值最高的人工智能公司,其高管团队再次出现震动。一位重量级的销售负责人,刚刚宣布了离职的消息。 根据CNBC的报道,OpenAI的销售主管James Dyett已于本周一确认离职,他的下一站是风险投资机构Thrive Capital,将担任驻场运营合伙人。Dyett

热心网友
05.06

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

商业帝国大亨好玩吗 商业帝国大亨玩法简介
游戏攻略
商业帝国大亨好玩吗 商业帝国大亨玩法简介

商业帝国大亨:一款点击就能征服宇宙的财富游戏? 近期,手游圈的目光似乎被一款名为《商业帝国大亨》的新作吸引了。不少玩家都在询问:这款游戏到底好不好玩?值不值得投入时间?今天,我们就来深入剖析一下它的玩法核心与特色,看看它能否满足你对“商业帝国”的想象。 1 核心玩法评析:从点击屏幕到宇宙财团 如果

热心网友
05.06
异环一咖舍店铺装修方案推荐 店铺经营怎么装修
游戏攻略
异环一咖舍店铺装修方案推荐 店铺经营怎么装修

异环一咖舍店铺装修方案分享:店铺经营怎么装修 在《异环》的世界里,经营自己的店铺无疑是件充满乐趣的事。看着人气攀升、收入增长,那份成就感不言而喻。不过,很多新手玩家容易踏入一个误区:一上来就冲着最华丽的摆件去,结果投入巨大,收益提升却未必理想。今天,我们就来聊聊如何用最精明的策略,搞定你的“一咖舍”

热心网友
05.06
鸣潮3.3版本声骸管理方案推荐 3.3版本声骸管理有没有方案码
游戏攻略
鸣潮3.3版本声骸管理方案推荐 3.3版本声骸管理有没有方案码

鸣潮3 3版本声骸管理方案推荐 随着鸣潮3 3版本的到来,一次全面的声骸系统更新在所难免。特别是针对那些拥有特殊机制的角色,如何高效管理你的声骸库存,成了不少指挥官当前的头等大事。好消息是,新版本支持通过方案码一键导入配置,这无疑大大提升了效率。那么,当前版本有哪些值得关注的方案,又该如何灵活运用呢

热心网友
05.06
梦幻西游175神木怎么配装备
游戏攻略
梦幻西游175神木怎么配装备

梦幻西游神木林175级装备搭配推荐 先来看头盔的选择。这是一件130级的罗汉金钟男头,套装点化成了蜃气妖,并且打上了13锻月亮石。对于神木林这样的法系门派来说,蜃气妖套能直接提升灵力,是核心选择之一。而罗汉金钟这个特技,在高端任务和PK中的重要性不言而喻,关键时刻一个罗汉,往往能扭转战局。用高锻数的

热心网友
05.06
梦幻西游175级魔王怎么搭配装备
游戏攻略
梦幻西游175级魔王怎么搭配装备

梦幻西游魔王寨175装备搭配推荐 先来看头盔的选择。一件160级附带光辉之甲特技、且激活了长眉灵猴套装效果的头盔,无疑是法系门派的上乘之选。更难得的是,它还额外附加了4 58%的法术暴击伤害属性。为了最大化生存能力,这颗头盔被打上了16锻月亮石,将防御堆砌到了一个相当可观的程度。对于追求极致输出的魔

热心网友
05.06