先说一个可能会让很多人惊讶的发现:在AI图像生成领域,大家最常用来衡量技术水平的“成绩单”,或许正在将整个研究方向引入歧途。
这项由澳大利亚国立大学与Canva研究院联合进行的研究,揭示了一个相当棘手的难题。研究论文以预印本形式发表于2026年6月23日,编号arXiv:2606.24888,感兴趣的读者可以通过这个编号在arXiv平台找到全文。

这次合作有着非常清晰的互补关系:澳大利亚国立大学负责学术研究的核心部分,Canva研究院则提供了工业级别的工程支持。学术与产业的结合,让这项研究既有扎实的理论根基,又能直面真实应用场景中的实际问题。
一个促使整个AI图像生成领域都需要认真反思的问题
在人工智能图像生成这个领域,ImageNet-FID分数几乎成了每个人的“硬通货”。几乎所有发表新方法的论文,都在最显眼的位置展示这个分数——分数越低,意味着生成的图像质量越好。研究者们为了把这个数字压得更低,前赴后继地推出新技术、新架构、新的训练方法。
但问题随之而来。澳大利亚国立大学与Canva研究院的团队发现:在ImageNet这个“考场”上拿高分的方法,一旦换到另一个更接近真实使用场景的“考场”,成绩可能会一落千丈。更糟糕的是,两个“考场”的成绩之间几乎找不到什么关联——甚至呈现出负相关的趋势。
打个比方:某个学生在数学竞赛里拿了第一名,所有人都觉得他是天才。结果一考实际应用题,他的表现反而不如那些竞赛排名靠后的同学。如果所有人的注意力都被竞赛成绩吸引,这个真相永远不会被发现。
研究团队正是基于这个洞察,设计了一套全新的评测体系,并为此开发了名为NANOGEN的统一训练框架。
一、ImageNet到底是什么,它为何会出现问题
要理解这项研究,得先搞清楚“ImageNet生成”到底是怎么回事。
ImageNet是一个包含大量带标签图片的数据集,从猫、狗、汽车到椅子,有一千多个类别,每个类别都有大量图片。“ImageNet图像生成”的任务,就是给AI一个指令,比如“生成一只金毛猎犬”,AI根据这个类别标签生成一张图,然后用FID这个指标来衡量生成的图片和真实图片有多接近。
这个测试有一个明显的局限:它只是在固定、有限的数据集上反复测试AI,就好比同一套题目考了又考。久而久之,AI的训练和设计会越来越“对口”这套题目,但它在真实应用中的表现到底怎么样?没人知道。
研究团队关注的另一种评测任务叫“文本生成图像”,简称T2I。这个任务更贴近真实使用场景——用户输入一段文字描述,比如“一只橙色猫咪坐在窗台上看窗外的雪景”,AI根据这段文字生成一张图片。要完成这个任务,AI必须真正理解语言、理解场景,而不只是记住某个类别的外观特征。
过去,大家都觉得做文本生成图像的实验太贵、太麻烦,需要完全不同的数据集、评测工具,甚至要重新写代码。研究团队的第一个目标,就是彻底打破这个固有观念。
二、NANOGEN:让两种考试使用同一套教材
研究团队开发的NANOGEN框架,核心思路很简单:让ImageNet生成和文本生成图像这两个任务,能在同一套系统下运行。使用同样的模型骨架、同样的优化器、同样的训练循环,只需要改动极少量的配置,就能从一个任务切换到另一个任务。
具体来说,两个任务之间的切换只需要改变两件事:一是数据来源——ImageNet用的是带类别标签的图片,文本生成图像用的是带文字描述的图片;二是条件信号——ImageNet用的是类别编码,文本生成图像用的是文字编码器。除此之外,模型架构、损失函数、优化方法、评测流程,全都保持一致。研究团队把这个切换过程量化为“大约12行配置文件的改动”,强调的就是这种极低的工程摩擦。
NANOGEN在模型架构上做了三个有意思的设计。第一个是使用了一种叫“解耦扩散变换器”的架构,把整个模型分成编码器和解码器两部分。编码器负责读取带噪声的图片加上条件信号,提取出语义理解;解码器则是一个又宽又浅的小网络,负责根据语义理解来预测扩散目标。这种分法的好处是,可以在不大幅增加计算量的前提下,增加模型的“理解宽度”。
第二个设计是在编码器里去掉了AdaLN这种调制模块,只在解码器里保留。背后的直觉是:让解码器的调制信号来自编码器的语义输出,而不是直接来自时间步编码,这样信息流更加顺畅自然。
第三个设计是“上下文内条件”机制。无论是类别标签还是文字描述,都以“词条”的形式直接拼接在图片的视觉词条前面送入编码器,不需要任何任务特定的特殊处理。这样一来,增加或切换条件类型,只需要替换那些词条就行,其余结构完全不动。对于ImageNet任务,用4个时间步词条加8个类别词条;对于文本生成图像任务,用4个时间步词条加256个文字词条。整个模型约有6.15亿参数。
训练配置上,研究团队使用了AdamW优化器,学习率从零线性热身到2×10⁻⁴,再线性衰减到2×10⁻⁵,配合梯度裁剪和指数移动平均。扩散时间步的采样遵循一种叫“logit正态分布”的方式,目的在于让训练更关注那些“恰好处于中间噪声水平”的样本,因为这些样本对最终图像质量影响最大。模型默认使用v预测目标,采样时用Euler采样器跑50步。
为了验证NANOGEN的可靠性,研究团队用它复现了六种已有的方法,包括RAE、两种E2EVAE、PixNerd、JiT和PixelGen。复现结果和原论文报告的数字非常接近,有时候甚至略有超越。这一步至关重要——只有证明这个框架能准确还原已有方法,接下来的跨任务比较才有说服力。
三、揭开帘子:ImageNet成绩与文本生图成绩的“分离”
研究团队在NANOGEN框架下,一共训练了21个潜空间扩散模型,涵盖了RAE和VAE两大类潜空间方法,每个方法都在ImageNet和文本生成图像两个任务上分别评测。
结果令人震惊。
以GenEval指标为例。这个指标衡量的是AI生成的图片和文字描述之间的对应程度——比如你说“红色的球放在蓝色的盒子旁边”,AI生成的图片里是否真的有一个红球和一个蓝盒子、位置关系是否正确。研究团队发现,ImageNet的FID分数(越低越好)和GenEval分数(越高越好)之间的皮尔逊相关系数是-0.555。另一个文本图像评测指标DPG-Bench的相关系数是-0.580,GenAIBench的相关系数是-0.377。
皮尔逊相关系数在-1到1之间,0代表完全无关,1代表完全正相关,-1代表完全负相关。这里观测到的数值在-0.4到-0.6左右,意味着不仅两个方向的成绩没有相关性,甚至呈现出轻微的负相关——也就是说,ImageNet分数越好的方法,文本生图的表现有时候反而还稍差一些。
来一个具体例子感受一下:用SpatialPE-L这个视觉编码器训练的RAE方法,在ImageNet上的FID表现相当不错,但它在三个文本生图指标上的表现却在所有方法中垫底。反过来,在文本生图上表现突出的方法,在ImageNet上的排名却未必靠前。
这个发现的实际意义很清楚:如果你的目标是让AI在真实世界里更好地理解文字并生成图片,那么只盯着ImageNet-FID来优化,很可能是在浪费资源,甚至是在走弯路。
四、DIFFUSIONBENCH:把两张成绩单合并成一张
面对这个发现,研究团队的解决方案是推出DIFFUSIONBENCH——一个把ImageNet生成和文本生成图像两个任务都包含在内的综合评测基准。
研究团队在DIFFUSIONBENCH框架下,对大量方法进行了系统性评测,留下了迄今为止这个领域最完整的横向比较数据。
在ImageNet评测端,每个方法都报告了FID、IS、FDr(用五种不同的视觉编码器各算一遍的弗雷歇距离改进版)和MIND(另一种更鲁棒的图像分布距离指标)。这些指标从不同角度衡量生成图片的质量,比单一FID更全面。
在文本生成图像评测端,使用了GenEval、DPG-Bench和GenAIBench三个指标。GenEval重点测试AI是否能正确理解并生成包含特定属性、数量、位置关系的图片;DPG-Bench聚焦于更复杂的组合场景理解;GenAIBench综合考量图片在多个维度上与文字描述的吻合程度。
从ImageNet评测的结果来看,在所有方法中,使用FLUX.2-VAE的方法获得了最低的FID分数1.37,其次是使用REPA-E端到端优化的VAE家族,FID大约在1.5到1.6之间。RAE家族整体FID略高,DINOv3-B的FID是1.74,DINOv2-B是1.96。传统VAE方法如SD-VAE和SD3.5-VAE的FID更高,但研究团队指出,这主要是因为结构化程度更高的潜空间(比如RAE和REPA-E)在80个训练周期的有限预算下收敛更快,不代表传统VAE本质上更差——如果训练时间更长,差距会缩小。
值得一提的是,FLUX.2-VAE的架构细节没有完全公开,但研究团队注意到它的架构里有一个批归一化层,和REPA-E的设计如出一辙,可能共享了类似的端到端VAE与扩散模型联合调优的机制。
像素空间方法(直接在像素上训练扩散模型,不经过潜空间压缩)在80个训练周期下的FID普遍高于潜空间方法,说明在有限计算预算下,潜空间压缩带来的收敛加速优势相当明显。
此外,研究团队还测试了MeanFlow——一种只需一步或两步就能完成生成的方法。MeanFlow在一步推断下FID为6.60,两步为5.40,虽然效率很高,但在质量上仍然落后于多步方法。在文本生图任务上,MeanFlow的GenEval只有0.287(一步)和0.341(两步),远低于其他方法,说明这类极速生成方法在需要精细理解文字的任务上,还有很长的路要走。
五、文本生图评测的详细发现
在文本生成图像任务上,研究团队的评测揭示了几条重要规律。
从整体方法类别来看,进阶潜空间方法(包括RAE、FLUX.2-VAE和REPA-E家族)的表现整体上优于传统潜空间方法,传统潜空间方法又优于像素空间方法,像素空间方法则优于MeanFlow极速方法。这个宏观排序和ImageNet上的排序是吻合的,说明在方法类别这个粗粒度层面,ImageNet的信号还是有参考价值的。
但是,在同一个方法类别内部,不同具体方法之间的ImageNet排名与文本生图排名就几乎没有关联了。正是这种“大局相关、局部混乱”的格局,揭示了为什么在前沿方法的精细比较中,只靠ImageNet来判断优劣会产生误导。
端到端VAE调优是一个在两个任务上都带来改善的技术。具体来说,对FLUX.1-VAE和Qwen-Image-VAE进行端到端调优之后,既提升了ImageNet FID,也提升了文本生图指标。这意味着提升潜空间的质量,是一个具有跨任务泛化价值的技术方向。
不同的文本生图指标之间,有时候也会产生分歧。以E2E-Qwen-Image-VAE为例,在GenEval和DPG-Bench上它是最强的几个方法之一,但在GenAIBench上它却落入了第二梯队。这说明不同的文本生图指标在衡量的侧重点上有所不同,单靠任何一个指标都不足以全面评估方法的能力。
研究团队还特别注意到一个奇特现象:把训练步数从10万步延长到20万步,根据三个量化指标来看,性能提升很小甚至持平。但从肉眼看生成的图片,20万步的结果明显更好。这个矛盾说明,现有的文本生图评测指标可能还不够灵敏,无法准确反映视觉质量的真实提升。研究团队由此呼吁学界开发更好的文本生图评测工具。
六、训练成本:文本生图并不比ImageNet贵多少
针对“文本生图训练成本太高”这个普遍认知,研究团队在32块H200 GPU上详细记录了每个方法训练10万步所需的实际时钟时间。
结果显示,绝大多数潜空间方法的ImageNet训练时间在8到12小时之间,文本生图训练时间在10到13小时之间——两者非常接近。RAE方法比VAE方法稍快,因为RAE使用的是基于变换器的视觉编码器,而VAE主要依赖计算密集的卷积U-Net结构。
像素空间方法在ImageNet上反而非常便宜,因为它们不需要计算潜空间编码,但这也意味着在有限计算预算下,它们的生成质量更难追上潜空间方法。
MeanFlow是一个特例——它在文本生图任务上的训练时间高达15.6小时,比其他方法慢了约50%。原因是MeanFlow的训练目标需要用PyTorch的自动微分机制来计算雅可比向量积,这个操作的计算开销相当大。
研究团队同时指出,所有实验都可以在8块H200 GPU上完成,并非必须32块,这进一步降低了复现的门槛。
七、与公开大模型的对比:差距真实存在但不令人绝望
研究团队在文本生图表格里也列出了几个公开的大型商业/开源模型的成绩作为参考,包括SD3.5-Large(80亿参数)、FLUX-1(120亿参数)、FLUX-2(320亿参数)、Qwen-Image(200亿参数)和Z-Image-Turbo(60亿参数)。
相比之下,NANOGEN训练的所有模型都是6亿参数左右,训练数据和计算预算也远小于那些大模型。毫不意外,在绝对成绩上,NANOGEN的方法大多低于那些庞然大物。以GenEval为例,FLUX-2是0.854,Qwen-Image是0.848,而NANOGEN里最好的E2E-Qwen-Image-VAE是0.691,差距明显。
但这个比较的意义并不在于追求绝对分数,而是在相同的小型实验规模下,横向比较不同方法的相对优劣,验证哪些技术方向是跨任务有效的。研究团队特别指出,RAEv2(一个公开了代码的竞品框架)用SigLIP2-B编码器和8.75亿参数模型预训练150万步后,GenEval只有0.624,而NANOGEN用E2E-Qwen-Image-VAE只训练10万步就达到了0.691,这说明NANOGEN的配方本身也相当有竞争力。
研究团队也坦承,如果在BLIP-3o-60K这个精调数据集上做监督微调,GenEval可以轻松提升到0.90以上。但他们刻意没有这样做,因为这类微调很可能是在“针对评测指标作弊”——模型在GenEval上的数字好看了,但实际的通用生成能力未必真的提高。他们呼吁学界开发更难被针对性微调欺骗的文本生图评测机制。
研究的局限与未来方向
研究团队对这项工作的局限性相当坦诚。当前观察到的ImageNet与文本生图之间的弱相关性,是在约6亿参数、10万训练步的特定规模下得到的,在更大或更小的规模下,这种相关性的强度可能有所不同。此外,所有方法都是在相同的预算下比较的,更长时间的训练可能会改变方法之间的相对排名。
在未来方向上,研究团队提出了三个设想。DIFFUSIONBENCH可以进一步扩展到视频生成、3D生成、世界模型等其他生成式AI模态,实现更广泛的跨任务评测。文本生图的评测指标亟需改进,需要开发更难被“刷分”的评测工具。研究团队也将DIFFUSIONBENCH定位为一个社区维护的活跃排行榜,随着领域发展定期刷新,而不是一个静态的固定标准。
说到底,这项研究做的事情,就像是发现“驾照考试的科目二只考停车,但实际开车还要跑高速”——科目二通过固然重要,但它不能作为判断司机驾驶能力的唯一标准。研究团队不是在否定ImageNet-FID的价值,他们明确表示它仍然是一个有用的、成本低廉的研究工具;他们想说的是,它不应该是唯一的评判标准。一个方法如果在ImageNet上提升了,在文本生图上也提升了,那才是值得称道的真实进步。如果只改善了其中一个,则应被明确标注为“任务特定的改进”,而非整个领域的通用进步。
对于任何使用AI图像生成工具的人来说,这项研究的意义在于:评测体系的设计,直接决定了研究者努力的方向。当评测体系不够全面时,即便每篇论文都在“进步”,实际上对我们日常使用的生成图像的质量,可能贡献甚微。
---
Q&A
Q1:ImageNet-FID分数低的扩散模型,为什么文本生图表现不一定好?
A:ImageNet-FID测试的是“给定类别标签生成图片”的能力,用的是固定数据集和固定评测工具,模型优化方向可能会过度适应这个特定任务。而文本生图要求模型真正理解自然语言描述、处理组合关系和细节,这是完全不同的能力。研究团队发现两者的皮尔逊相关系数只有约-0.4到-0.6,说明在前沿方法之间,一个方法的ImageNet分数好坏,完全无法预测它在文本生图任务上的表现。
Q2:NANOGEN框架和其他训练扩散模型的框架有什么不同?
A:NANOGEN最大的特点是用同一套代码、同一个模型骨架,只改动约12行配置就能在ImageNet生成和文本生图两个任务之间切换,而其他框架通常需要为两个任务维护完全不同的代码库。这种统一性保证了跨任务比较的公平性,也大幅降低了研究者同时评测两个任务的工程成本。
Q3:DIFFUSIONBENCH基准包含哪些评测指标?
A:DIFFUSIONBENCH包含两个维度的评测。ImageNet端使用FID、IS、FDr(用五种视觉编码器分别计算的弗雷歇距离)和MIND四类指标。文本生图端使用GenEval、DPG-Bench和GenAIBench三个指标。两个维度合并在一起,构成比单独使用ImageNet-FID更全面的综合评测标准。
