流行AI图像评测标准系精致误导澳国立与Canva研究揭露_AI热点日报

澳大利亚国立大学与Canva研究院研究发现，AI图像生成领域主流评测标准ImageNet-FID可能误导研究方向，其成绩与文本生成图像任务表现呈弱负相关。团队开发NANOGEN框架与DIFFUSIONBENCH基准，呼吁综合评估模型能力。

先说一个可能会让很多人惊讶的发现：在AI图像生成领域，大家最常用来衡量技术水平的“成绩单”，或许正在将整个研究方向引入歧途。

这项由澳大利亚国立大学与Canva研究院联合进行的研究，揭示了一个相当棘手的难题。研究论文以预印本形式发表于2026年6月23日，编号arXiv:2606.24888，感兴趣的读者可以通过这个编号在arXiv平台找到全文。

澳大利亚国立大学与Canva研究院联手揭露：AI图像生成领域最流行的评测标准，可能是一场

这次合作有着非常清晰的互补关系：澳大利亚国立大学负责学术研究的核心部分，Canva研究院则提供了工业级别的工程支持。学术与产业的结合，让这项研究既有扎实的理论根基，又能直面真实应用场景中的实际问题。

一个促使整个AI图像生成领域都需要认真反思的问题

在人工智能图像生成这个领域，ImageNet-FID分数几乎成了每个人的“硬通货”。几乎所有发表新方法的论文，都在最显眼的位置展示这个分数——分数越低，意味着生成的图像质量越好。研究者们为了把这个数字压得更低，前赴后继地推出新技术、新架构、新的训练方法。

但问题随之而来。澳大利亚国立大学与Canva研究院的团队发现：在ImageNet这个“考场”上拿高分的方法，一旦换到另一个更接近真实使用场景的“考场”，成绩可能会一落千丈。更糟糕的是，两个“考场”的成绩之间几乎找不到什么关联——甚至呈现出负相关的趋势。

打个比方：某个学生在数学竞赛里拿了第一名，所有人都觉得他是天才。结果一考实际应用题，他的表现反而不如那些竞赛排名靠后的同学。如果所有人的注意力都被竞赛成绩吸引，这个真相永远不会被发现。

研究团队正是基于这个洞察，设计了一套全新的评测体系，并为此开发了名为NANOGEN的统一训练框架。

一、ImageNet到底是什么，它为何会出现问题

要理解这项研究，得先搞清楚“ImageNet生成”到底是怎么回事。

ImageNet是一个包含大量带标签图片的数据集，从猫、狗、汽车到椅子，有一千多个类别，每个类别都有大量图片。“ImageNet图像生成”的任务，就是给AI一个指令，比如“生成一只金毛猎犬”，AI根据这个类别标签生成一张图，然后用FID这个指标来衡量生成的图片和真实图片有多接近。

这个测试有一个明显的局限：它只是在固定、有限的数据集上反复测试AI，就好比同一套题目考了又考。久而久之，AI的训练和设计会越来越“对口”这套题目，但它在真实应用中的表现到底怎么样？没人知道。

研究团队关注的另一种评测任务叫“文本生成图像”，简称T2I。这个任务更贴近真实使用场景——用户输入一段文字描述，比如“一只橙色猫咪坐在窗台上看窗外的雪景”，AI根据这段文字生成一张图片。要完成这个任务，AI必须真正理解语言、理解场景，而不只是记住某个类别的外观特征。

过去，大家都觉得做文本生成图像的实验太贵、太麻烦，需要完全不同的数据集、评测工具，甚至要重新写代码。研究团队的第一个目标，就是彻底打破这个固有观念。

二、NANOGEN：让两种考试使用同一套教材

研究团队开发的NANOGEN框架，核心思路很简单：让ImageNet生成和文本生成图像这两个任务，能在同一套系统下运行。使用同样的模型骨架、同样的优化器、同样的训练循环，只需要改动极少量的配置，就能从一个任务切换到另一个任务。

具体来说，两个任务之间的切换只需要改变两件事：一是数据来源——ImageNet用的是带类别标签的图片，文本生成图像用的是带文字描述的图片；二是条件信号——ImageNet用的是类别编码，文本生成图像用的是文字编码器。除此之外，模型架构、损失函数、优化方法、评测流程，全都保持一致。研究团队把这个切换过程量化为“大约12行配置文件的改动”，强调的就是这种极低的工程摩擦。

NANOGEN在模型架构上做了三个有意思的设计。第一个是使用了一种叫“解耦扩散变换器”的架构，把整个模型分成编码器和解码器两部分。编码器负责读取带噪声的图片加上条件信号，提取出语义理解；解码器则是一个又宽又浅的小网络，负责根据语义理解来预测扩散目标。这种分法的好处是，可以在不大幅增加计算量的前提下，增加模型的“理解宽度”。

第二个设计是在编码器里去掉了AdaLN这种调制模块，只在解码器里保留。背后的直觉是：让解码器的调制信号来自编码器的语义输出，而不是直接来自时间步编码，这样信息流更加顺畅自然。

第三个设计是“上下文内条件”机制。无论是类别标签还是文字描述，都以“词条”的形式直接拼接在图片的视觉词条前面送入编码器，不需要任何任务特定的特殊处理。这样一来，增加或切换条件类型，只需要替换那些词条就行，其余结构完全不动。对于ImageNet任务，用4个时间步词条加8个类别词条；对于文本生成图像任务，用4个时间步词条加256个文字词条。整个模型约有6.15亿参数。

训练配置上，研究团队使用了AdamW优化器，学习率从零线性热身到2×10⁻⁴，再线性衰减到2×10⁻⁵，配合梯度裁剪和指数移动平均。扩散时间步的采样遵循一种叫“logit正态分布”的方式，目的在于让训练更关注那些“恰好处于中间噪声水平”的样本，因为这些样本对最终图像质量影响最大。模型默认使用v预测目标，采样时用Euler采样器跑50步。

为了验证NANOGEN的可靠性，研究团队用它复现了六种已有的方法，包括RAE、两种E2EVAE、PixNerd、JiT和PixelGen。复现结果和原论文报告的数字非常接近，有时候甚至略有超越。这一步至关重要——只有证明这个框架能准确还原已有方法，接下来的跨任务比较才有说服力。

三、揭开帘子：ImageNet成绩与文本生图成绩的“分离”

研究团队在NANOGEN框架下，一共训练了21个潜空间扩散模型，涵盖了RAE和VAE两大类潜空间方法，每个方法都在ImageNet和文本生成图像两个任务上分别评测。

结果令人震惊。

以GenEval指标为例。这个指标衡量的是AI生成的图片和文字描述之间的对应程度——比如你说“红色的球放在蓝色的盒子旁边”，AI生成的图片里是否真的有一个红球和一个蓝盒子、位置关系是否正确。研究团队发现，ImageNet的FID分数（越低越好）和GenEval分数（越高越好）之间的皮尔逊相关系数是-0.555。另一个文本图像评测指标DPG-Bench的相关系数是-0.580，GenAIBench的相关系数是-0.377。

皮尔逊相关系数在-1到1之间，0代表完全无关，1代表完全正相关，-1代表完全负相关。这里观测到的数值在-0.4到-0.6左右，意味着不仅两个方向的成绩没有相关性，甚至呈现出轻微的负相关——也就是说，ImageNet分数越好的方法，文本生图的表现有时候反而还稍差一些。

来一个具体例子感受一下：用SpatialPE-L这个视觉编码器训练的RAE方法，在ImageNet上的FID表现相当不错，但它在三个文本生图指标上的表现却在所有方法中垫底。反过来，在文本生图上表现突出的方法，在ImageNet上的排名却未必靠前。

这个发现的实际意义很清楚：如果你的目标是让AI在真实世界里更好地理解文字并生成图片，那么只盯着ImageNet-FID来优化，很可能是在浪费资源，甚至是在走弯路。

四、DIFFUSIONBENCH：把两张成绩单合并成一张

面对这个发现，研究团队的解决方案是推出DIFFUSIONBENCH——一个把ImageNet生成和文本生成图像两个任务都包含在内的综合评测基准。

研究团队在DIFFUSIONBENCH框架下，对大量方法进行了系统性评测，留下了迄今为止这个领域最完整的横向比较数据。

在ImageNet评测端，每个方法都报告了FID、IS、FDr（用五种不同的视觉编码器各算一遍的弗雷歇距离改进版）和MIND（另一种更鲁棒的图像分布距离指标）。这些指标从不同角度衡量生成图片的质量，比单一FID更全面。

在文本生成图像评测端，使用了GenEval、DPG-Bench和GenAIBench三个指标。GenEval重点测试AI是否能正确理解并生成包含特定属性、数量、位置关系的图片；DPG-Bench聚焦于更复杂的组合场景理解；GenAIBench综合考量图片在多个维度上与文字描述的吻合程度。

从ImageNet评测的结果来看，在所有方法中，使用FLUX.2-VAE的方法获得了最低的FID分数1.37，其次是使用REPA-E端到端优化的VAE家族，FID大约在1.5到1.6之间。RAE家族整体FID略高，DINOv3-B的FID是1.74，DINOv2-B是1.96。传统VAE方法如SD-VAE和SD3.5-VAE的FID更高，但研究团队指出，这主要是因为结构化程度更高的潜空间（比如RAE和REPA-E）在80个训练周期的有限预算下收敛更快，不代表传统VAE本质上更差——如果训练时间更长，差距会缩小。

值得一提的是，FLUX.2-VAE的架构细节没有完全公开，但研究团队注意到它的架构里有一个批归一化层，和REPA-E的设计如出一辙，可能共享了类似的端到端VAE与扩散模型联合调优的机制。

像素空间方法（直接在像素上训练扩散模型，不经过潜空间压缩）在80个训练周期下的FID普遍高于潜空间方法，说明在有限计算预算下，潜空间压缩带来的收敛加速优势相当明显。

此外，研究团队还测试了MeanFlow——一种只需一步或两步就能完成生成的方法。MeanFlow在一步推断下FID为6.60，两步为5.40，虽然效率很高，但在质量上仍然落后于多步方法。在文本生图任务上，MeanFlow的GenEval只有0.287（一步）和0.341（两步），远低于其他方法，说明这类极速生成方法在需要精细理解文字的任务上，还有很长的路要走。

五、文本生图评测的详细发现

在文本生成图像任务上，研究团队的评测揭示了几条重要规律。

从整体方法类别来看，进阶潜空间方法（包括RAE、FLUX.2-VAE和REPA-E家族）的表现整体上优于传统潜空间方法，传统潜空间方法又优于像素空间方法，像素空间方法则优于MeanFlow极速方法。这个宏观排序和ImageNet上的排序是吻合的，说明在方法类别这个粗粒度层面，ImageNet的信号还是有参考价值的。

但是，在同一个方法类别内部，不同具体方法之间的ImageNet排名与文本生图排名就几乎没有关联了。正是这种“大局相关、局部混乱”的格局，揭示了为什么在前沿方法的精细比较中，只靠ImageNet来判断优劣会产生误导。

端到端VAE调优是一个在两个任务上都带来改善的技术。具体来说，对FLUX.1-VAE和Qwen-Image-VAE进行端到端调优之后，既提升了ImageNet FID，也提升了文本生图指标。这意味着提升潜空间的质量，是一个具有跨任务泛化价值的技术方向。

不同的文本生图指标之间，有时候也会产生分歧。以E2E-Qwen-Image-VAE为例，在GenEval和DPG-Bench上它是最强的几个方法之一，但在GenAIBench上它却落入了第二梯队。这说明不同的文本生图指标在衡量的侧重点上有所不同，单靠任何一个指标都不足以全面评估方法的能力。

研究团队还特别注意到一个奇特现象：把训练步数从10万步延长到20万步，根据三个量化指标来看，性能提升很小甚至持平。但从肉眼看生成的图片，20万步的结果明显更好。这个矛盾说明，现有的文本生图评测指标可能还不够灵敏，无法准确反映视觉质量的真实提升。研究团队由此呼吁学界开发更好的文本生图评测工具。

六、训练成本：文本生图并不比ImageNet贵多少

针对“文本生图训练成本太高”这个普遍认知，研究团队在32块H200 GPU上详细记录了每个方法训练10万步所需的实际时钟时间。

结果显示，绝大多数潜空间方法的ImageNet训练时间在8到12小时之间，文本生图训练时间在10到13小时之间——两者非常接近。RAE方法比VAE方法稍快，因为RAE使用的是基于变换器的视觉编码器，而VAE主要依赖计算密集的卷积U-Net结构。

像素空间方法在ImageNet上反而非常便宜，因为它们不需要计算潜空间编码，但这也意味着在有限计算预算下，它们的生成质量更难追上潜空间方法。

MeanFlow是一个特例——它在文本生图任务上的训练时间高达15.6小时，比其他方法慢了约50%。原因是MeanFlow的训练目标需要用PyTorch的自动微分机制来计算雅可比向量积，这个操作的计算开销相当大。

研究团队同时指出，所有实验都可以在8块H200 GPU上完成，并非必须32块，这进一步降低了复现的门槛。

七、与公开大模型的对比：差距真实存在但不令人绝望

研究团队在文本生图表格里也列出了几个公开的大型商业/开源模型的成绩作为参考，包括SD3.5-Large（80亿参数）、FLUX-1（120亿参数）、FLUX-2（320亿参数）、Qwen-Image（200亿参数）和Z-Image-Turbo（60亿参数）。

相比之下，NANOGEN训练的所有模型都是6亿参数左右，训练数据和计算预算也远小于那些大模型。毫不意外，在绝对成绩上，NANOGEN的方法大多低于那些庞然大物。以GenEval为例，FLUX-2是0.854，Qwen-Image是0.848，而NANOGEN里最好的E2E-Qwen-Image-VAE是0.691，差距明显。

但这个比较的意义并不在于追求绝对分数，而是在相同的小型实验规模下，横向比较不同方法的相对优劣，验证哪些技术方向是跨任务有效的。研究团队特别指出，RAEv2（一个公开了代码的竞品框架）用SigLIP2-B编码器和8.75亿参数模型预训练150万步后，GenEval只有0.624，而NANOGEN用E2E-Qwen-Image-VAE只训练10万步就达到了0.691，这说明NANOGEN的配方本身也相当有竞争力。

研究团队也坦承，如果在BLIP-3o-60K这个精调数据集上做监督微调，GenEval可以轻松提升到0.90以上。但他们刻意没有这样做，因为这类微调很可能是在“针对评测指标作弊”——模型在GenEval上的数字好看了，但实际的通用生成能力未必真的提高。他们呼吁学界开发更难被针对性微调欺骗的文本生图评测机制。

研究的局限与未来方向

研究团队对这项工作的局限性相当坦诚。当前观察到的ImageNet与文本生图之间的弱相关性，是在约6亿参数、10万训练步的特定规模下得到的，在更大或更小的规模下，这种相关性的强度可能有所不同。此外，所有方法都是在相同的预算下比较的，更长时间的训练可能会改变方法之间的相对排名。

在未来方向上，研究团队提出了三个设想。DIFFUSIONBENCH可以进一步扩展到视频生成、3D生成、世界模型等其他生成式AI模态，实现更广泛的跨任务评测。文本生图的评测指标亟需改进，需要开发更难被“刷分”的评测工具。研究团队也将DIFFUSIONBENCH定位为一个社区维护的活跃排行榜，随着领域发展定期刷新，而不是一个静态的固定标准。

说到底，这项研究做的事情，就像是发现“驾照考试的科目二只考停车，但实际开车还要跑高速”——科目二通过固然重要，但它不能作为判断司机驾驶能力的唯一标准。研究团队不是在否定ImageNet-FID的价值，他们明确表示它仍然是一个有用的、成本低廉的研究工具；他们想说的是，它不应该是唯一的评判标准。一个方法如果在ImageNet上提升了，在文本生图上也提升了，那才是值得称道的真实进步。如果只改善了其中一个，则应被明确标注为“任务特定的改进”，而非整个领域的通用进步。

对于任何使用AI图像生成工具的人来说，这项研究的意义在于：评测体系的设计，直接决定了研究者努力的方向。当评测体系不够全面时，即便每篇论文都在“进步”，实际上对我们日常使用的生成图像的质量，可能贡献甚微。

---

Q&A

Q1：ImageNet-FID分数低的扩散模型，为什么文本生图表现不一定好？

A：ImageNet-FID测试的是“给定类别标签生成图片”的能力，用的是固定数据集和固定评测工具，模型优化方向可能会过度适应这个特定任务。而文本生图要求模型真正理解自然语言描述、处理组合关系和细节，这是完全不同的能力。研究团队发现两者的皮尔逊相关系数只有约-0.4到-0.6，说明在前沿方法之间，一个方法的ImageNet分数好坏，完全无法预测它在文本生图任务上的表现。

Q2：NANOGEN框架和其他训练扩散模型的框架有什么不同？

A：NANOGEN最大的特点是用同一套代码、同一个模型骨架，只改动约12行配置就能在ImageNet生成和文本生图两个任务之间切换，而其他框架通常需要为两个任务维护完全不同的代码库。这种统一性保证了跨任务比较的公平性，也大幅降低了研究者同时评测两个任务的工程成本。

Q3：DIFFUSIONBENCH基准包含哪些评测指标？

A：DIFFUSIONBENCH包含两个维度的评测。ImageNet端使用FID、IS、FDr（用五种视觉编码器分别计算的弗雷歇距离）和MIND四类指标。文本生图端使用GenEval、DPG-Bench和GenAIBench三个指标。两个维度合并在一起，构成比单独使用ImageNet-FID更全面的综合评测标准。

流行AI图像评测标准系精致误导澳国立与Canva研究揭露

相关热点

延伸阅读