南洋理工大学让AI图像生成聚焦关键区域

时间：2026-06-20 14:18

南洋理工大学提出频谱强制方法，在扩散模型训练中动态屏蔽被噪点淹没的高频信息，仅保留有用部分。该方法不修改训练流程，计算量仅增0 5%。在ImageNet上FID降低14 5%，训练时间节省17%-33%，适用于粗分块的自然图像生成。

这项由新加坡南洋理工大学S-Lab实验室主导的研究成果，以预印本形式于2026年6月正式发布。

提到AI生成图像，多数人脑海中浮现的往往是那些能够凭空创作出逼真风景、细腻人像，乃至奇幻场景的神奇模型。这些模型背后，一项核心技术被称为“扩散模型”——其工作方式类似于：先将一张清晰的照片逐步加入噪点，直至其变为一片雪花点，再反过来训练AI学习如何从雪花点中“复原”出清晰图像。

然而，南洋理工大学的研究团队发现了一个长期被忽视的资源浪费现象：AI在“去噪”过程中，有相当一部分计算资源其实被浪费在了毫无意义的地方。更关键的是，他们不仅找到了问题根源，还提出了一种几乎无需额外算力、且不改变任何核心训练流程的修复方案，并将其命名为频谱强制（Spectral Forcing，简称SF）。

一、AI画图时究竟在“看”什么？一个关于噪音与信号的故事

要理解这项研究解决了什么问题，我们先得明白AI在训练过程中所面对的处境。

以“矫正流扩散”这种主流训练方式为例，AI在每一个训练时刻，看到的都是一张“半成品图”——它介于纯粹的随机噪点和清晰的原始照片之间。时刻越靠近起点（纯噪点），图像就越模糊混乱；越靠近终点（清晰照片），图像就越接近真实。AI的任务，就是在每个时刻精准预测“应该往哪个方向调整，才能得到最真实的图像”。

自然界的图像普遍遵循一个规律：图像中的细节（即高频信息，如纹理、边缘锯齿）天然携带的能量，远少于粗略轮廓（即低频信息，如大块颜色、整体形状）。用声音来类比，低频就像低沉的鼓声，穿透力强、能量充沛；高频则像细碎的沙沙声，微弱且容易被掩盖。

当噪点被加入图像时，这些微弱的高频细节信息极其容易被噪点“淹没”。研究团队通过数学推导，精准划出了一条清晰的界线：在任何给定的训练时刻，图像中那些频率超过某个临界值的细节，实际上已经完全被噪点吞没，根本无法从中提取出任何有关原始图像的有效信息。这条临界线可以用一个公式精确描述，它会随着训练时刻向“清晰照片”方向推进而不断扩展，允许越来越多的细节频率逐渐显现。

这本是一个中性的物理事实。但问题在于：AI并不“知道”这条界线的存在。它在每个时刻都必须同时处理图像的所有频率，包括那些已经被噪点完全覆盖、根本不含有用信息的高频部分。

二、被浪费的计算力：AI在“学习”毫无意义的东西

为了验证这个猜测，研究团队设计了一个直觉上简单却极具说服力的实验。他们训练了一个小型AI模型，让其在合成数据上充分学习，然后仔细检查该模型在每个“时刻-频率”组合上的表现：AI的预测，与“什么都不做、直接输出零”这种最简单的基线相比，究竟好多少？

实验结果呈现出一幅清晰的地图，形状如同一个楔形区域。在低频部分，以及训练时刻靠近清晰图像的区域，AI确实在做有价值的工作——它学到了数据的真实分布，表现远优于“啥也不预测”的方案。但在高频部分，以及时刻靠近噪点的区域，出现了两种情况：要么AI的预测退化成了一个固定的数学公式（因为噪点覆盖了信号，AI只能机械地“去掉噪点”，与数据本身无关）；要么AI的预测甚至还不如最简单的基线。换句话说，AI将大量计算资源浪费在了两类毫无意义的事情上：一类是解一道固定方程，另一类是连方程都没解好。

更具说服力的是，研究团队将同样的检验方法应用于一个真实的、在ImageNet数据集（一个包含大量真实照片的标准测试集）上训练的大型模型，同样清晰地发现了这个“楔形结构”——那些高频、早期时刻的区域，AI的表现甚至不如零预测基线。计算资源的浪费现象，不仅存在于理论预测中，更是真实发生在实际模型里的。

三、频谱强制：一把随时间伸缩的“低通滤镜”

既然问题已经明确，解决方案便应运而生：能不能在每个训练时刻，直接将那些被噪点覆盖、毫无价值的高频信息屏蔽掉，只让AI看到真正有用的部分？

研究团队的答案就是频谱强制。它的工作原理可以理解为一款滤镜。在摄影中，低通滤镜会让图像变得柔和，滤除细碎的噪点和锐利边缘，仅保留整体颜色和轮廓。频谱强制所做的事情与此类似，但有两个关键差异：第一，它是基于数学上严格推导出的“有用信号界线”来设定滤镜的截止点；第二，这个截止点会随着训练时刻动态变化——在靠近噪点的时刻，截止点很低，只允许极少量低频信息通过；随着时刻向清晰图像推进，截止点不断扩大，让越来越多的频率得以进入，直到最终时刻滤镜完全取消，AI能够看到完整图像。

在技术实现上，这款滤镜使用了二维离散余弦变换（2D-DCT）——这是一种将图像“分解”成不同频率成分的数学工具，与JPEG图像压缩背后的技术同根同源。具体流程为：在每个训练步骤中，首先对当前时刻的含噪图像进行DCT变换，然后利用一个软性的圆形遮罩，将超出截止半径的高频系数乘以接近零的权重，最后通过逆变换还原为图像，再送入AI模型处理。整个过程不引入任何可学习的参数，计算量仅占总训练成本的约0.5%，而且完全不改动训练损失函数、采样器或任何其他组件。

截止点的变化曲线（即“调度方案”）则是另一个重要的设计考量。研究团队测试了多种方案：线性增长、平方增长、余弦曲线增长，以及直接从理论公式推导出的“解析方案”。线性方案最为简单，即截止点随时间均匀扩大；解析方案则完全跟随理论预测的信号界线移动。实验结果显示，在ImageNet的标准设置下，线性方案表现最佳，而解析方案在更高分辨率的场景中更具优势——这背后的原因，后文将详细阐述。

四、什么情况下有效，什么情况下会适得其反

频谱强制并非万能药。研究团队花费了大量篇幅清晰界定了它的适用边界，这种诚实的态度是这项研究最值得称道之处。

核心结论可以用一句话概括：频谱强制在两个条件同时满足时效果最好。第一，AI处理图像的方式是“粗粒度分块”（即把图像切成较大的方块作为输入单元，导致模型本身就无法看到太多高频细节）；第二，图像的高频内容主要是噪点，而非有价值的信号。

为了验证这两个条件，研究团队进行了一系列精心设计的对照实验，使用了三种合成数据集：一种是模拟自然图像统计规律的“幂律”数据（高频内容少，符合自然图像规律）；一种是包含大量清晰边缘的“矩形”数据（高频内容是真实存在的边缘信号，至关重要）；一种是混合了多种结构的“结构化”数据。

实验结果非常清晰：在幂律数据上，频谱强制显著改善了AI的学习效果；在矩形数据上，频谱强制反而损害了模型——因为它屏蔽的高频内容正是矩形的边缘，而这正是AI必须学习的关键信号；在结构化数据上，效果介于两者之间，线性方案接近中性。

同样，在分块大小的实验中，当每张图像被切成1024个小块时（块很小，每块包含更多细节），频谱强制带来的收益最高，改善幅度达到70%；当每张图像仅被切成16个大块时（块很大，每块已经平均掉了大量细节），效果反而略有下降。这说明，当AI的输入已经因分块方式而“看不见”高频细节时，频谱强制额外屏蔽这些已不存在的信息意义不大；但当AI确实在处理高频信息时，明确告知它“现在这些频率都是噪点，别浪费精力”则非常有价值。

五、在真实数据集上的表现：数字会说话

理论和合成实验已经很有说服力，但最终的检验还需要在真实数据上进行。研究团队选择了ImageNet-256作为测试场景，采用的模型框架是“JiT”（一种像素空间扩散模型架构）。

在最具代表性的配置下，即使用JiT-700M/32（7亿参数规模，每张256×256的图像被切成64个图块），仅训练60个轮次，加入频谱强制后，FID分数（衡量生成图像质量的指标，数值越低越好）从24.19降至20.68，提升幅度高达14.5%；初始分数（衡量生成图像多样性和清晰度，越高越好）则从83.28提升至93.96，提升幅度约13%。这一对比是在完全相同的训练配置下完成的，唯一的变量就是是否启用频谱强制。

更能说明问题的是训练效率：加入频谱强制后，训练60个轮次便能达到原本需要约90个轮次才能实现的图像质量，训练120个轮次即可达到原本约145个轮次的水平。这意味着在实际应用中，可以节省约17%到33%的训练时间，而硬件成本几乎未增加。

在更大的训练预算下，训练至120个轮次时，加入频谱强制的模型FID达到15.15，不仅优于同轮次的基线模型（16.46），甚至超过了此前使用类似架构训练约145个轮次的参考结果。

在较小的模型上，频谱强制在训练早期阶段（15个轮次时改善11.6%）优势最为明显，随着训练深入，差距逐渐收窄，到200个轮次时仍保持约1.5%的优势。这一模式表明，频谱强制带来的部分收益源于“更快入门”，但也有一部分是稳定存在的长期改善。

当分块数量增加到256个时，频谱强制的效果缩减至约2.2%，基本在统计误差范围内。这完美验证了理论预测：更细的分块让AI本身就能看到更多高频细节，此时频谱强制的贡献有限，但也不会造成伤害。

研究团队还对比了多种可能的替代方案。恒定的低通滤镜（不随时间变化）反而比基线更差，因为它永久屏蔽了某些频率，导致AI永远无法学习生成那些高频细节；空间域的高斯模糊效果更差；在损失函数上做频率加权（而非在输入上做滤镜）也明显不如频谱强制。

六、线性方案为何在ImageNet上胜过理论最优方案？

研究团队对这一看似反直觉的发现给出了详尽解释，读来颇有启发。

解析方案在小分辨率合成数据上表现优于线性方案2到3倍，但在ImageNet的256×256标准设置、64个图块的配置下反而输给了线性方案。原因主要有三点：

首先，理论公式中使用的“幂律指数”是对自然图像整体频率分布的一个全局拟合值，但真实图像在极高频率段的能量下降速度比全局拟合更快（受相机传感器噪点、抗混叠处理等因素影响），导致理论公式对高频部分的处理过于激进，将本还有一点用的频率也屏蔽掉了。

其次，在64个图块的配置下，图像分块本身就已经截断了大量高频信息，解析方案在早期阶段极为保守（截止点长时间停在最低值附近），会让AI长时间无法看到足够多的有效信息，进而影响梯度质量。

第三，解析方案中截止点的增长速度在训练早期非常缓慢，导致大部分训练时间内AI能看到的频率范围极其有限，学习效率因此受损。这三个问题在更高分辨率时都会得到缓解，所以在高分辨率玩具实验中，解析方案反而更优。

研究团队的结论是：理论框架提供了“截止点应随时间单调扩大、在终点达到全频率”这一正确的定性形状，但具体的函数形式在实际使用中需要根据分辨率和分块大小进行经验性调整。线性方案是一个在多种配置下都足够稳健的默认选择。

七、在文字生成图片模型中的迁移表现

研究团队进一步将频谱强制插入了SenseNova-U1，这是一个“原生视觉-语言模型”（即不依赖独立图像编码器、直接处理原始图像像素块的统一文本-图像模型）。这类模型为了控制序列长度，通常也采用较粗的图像分块，正好落在频谱强制的有效区间内。

在DPG-Bench（一个评测文字生成图像综合能力的基准测试）上，加入频谱强制后，整体分数从64.35提升至67.85，涵盖的13个子类别中有9个获得了改善。提升最集中的子类别是“实体状态”、“实体整体”、“计数”等需要捕捉整体语义结构的维度，而非那些依赖高频细节的类别——这与理论预测一致，因为这类语义信息主要编码在低频成分中。

在GenEval（另一个文字生成图像能力基准测试）上，总体分数从3.87%提升至4.56%（相对提升约18%），其中“单一物体”类别提升2.81个百分点（约19%），“颜色”类别提升1.33个百分点（约16%）。值得注意的是，这些测试是在模型训练早期（10万步）进行的，需要复杂理解能力的复合构图类别（如“两个物体同框”、“计数”等）在这个阶段两个模型都还是零分，尚未发展出相关能力。

八、各项配置和细节对效果的影响

研究团队还系统性地测试了若干设计参数的影响，为希望实际使用频谱强制的研究者提供了充分参考。

关于最低截止点（控制滤镜在训练最初始时刻能通过多少频率），研究发现该参数对效果的影响是单调的：截止点越大（滤镜越宽松），效果越接近基线；截止点越小（滤镜越严格），早期训练越困难，但给AI创造的“迫使它专注低频”的压力也越大。默认值0.05在多种配置下表现稳健。

关于图像分辨率的影响，玩具实验中把图像尺寸从64×64扩大到512×512（同时保持图块数量固定为64），解析方案的相对优势随分辨率增大而显著增强：在64×64时基线最优，解析方案比基线差；在256×256时解析方案已经明显领先基线约15%；在512×512时仍保持约3.3%的优势。在真实ImageNet数据上，在512×512分辨率下，原本在256×256时与基线持平的配置，加入频谱强制后获得了3.4%的FID改善。这说明更高分辨率的训练场景是频谱强制更自然的主场。

关于训练与推理的计算开销，全文反复确认：频谱强制仅需一次前向和一次逆向2D-DCT变换，计算量约为基线的0.5%，无可学习参数，无额外内存占用。在推理阶段，同样在每个采样步骤的图像输入上应用同样的滤镜，开销同样可以忽略不计。

归根结底，这项研究的贡献在于将一个长期隐藏在AI训练过程中的“结构性浪费”变得可见，并用最小代价将其修复。扩散模型在训练时确实存在一个“有效工作区间”——在这个区间之外，模型要么在机械地解固定方程，要么在做比随机猜测还差的事情。频谱强制将这条边界显式化，用一个动态变化的滤镜告诉模型“现在只有这些频率是值得学习的”，从而让模型把有限的计算力集中在真正重要的地方。

对于普通用户而言，这意味着未来使用类似技术训练的图像生成模型，在同等算力预算下可以更快收敛、生成质量更高；对于开发者而言，这是一个几乎无代价即可接入现有训练流程的改进，尤其对那些出于成本考虑不得不使用粗分块方式的原生视觉-语言模型更具实际意义。

当然，频谱强制并非所有场景的万能解。如果你的数据本身就富含高频关键信息（比如医学图像中的细微病变），或者你的模型已经在使用非常细的分块方式处理图像，频谱强制的贡献就会大幅缩水。研究团队在这方面保持了相当清醒的自我评估，没有将一个有条件适用的技术包装成无限通用的突破——这种清醒本身就值得学习。

Q&A

Q1：频谱强制需要修改扩散模型的训练流程吗？

A：频谱强制无需修改训练的任何核心部分。它只是在图像送入模型之前，增加了一个基于当前训练时刻动态调整截止频率的低通滤镜，损失函数、采样器、模型架构、EMA权重全部保持原样。计算量仅增加约0.5%，没有任何新的可学习参数。

Q2：频谱强制在所有图像生成任务中都有效吗？

A：并非所有场景都有效。频谱强制在两个条件同时满足时效果最佳：图像被切成较少、较大的图块（例如64块），并且图像的高频内容主要是噪点而非关键信号。当图像本身富含高频边缘信息（如轮廓鲜明的几何图形），或者模型本身就采用细粒度分块（例如256块）时，效果会明显减弱，甚至可能略有下降。

Q3：频谱强制的线性调度方案为何比理论推导的解析方案在ImageNet标准设置下更优？

A：理论上解析方案应该最优，但在256×256分辨率、64个图块的标准ImageNet配置下，解析方案对高频内容的屏蔽过于激进，且早期截止点增长过慢，导致模型长时间无法接收到足够丰富的训练信号。线性方案增长更为均匀，有效避免了这一问题。在更高分辨率（512×512以上）的场景中，解析方案的优势会重新显现。

来源：https://www.163.com/dy/article/KVQO1NDT0511DTVV.html

图像生成

上一篇蚂蚁集团联合高校研发视觉猎手 AI学会主动用眼睛搜索 下一篇河南淇县电商生态链绘就县域消费新图景

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。