雅典娜研究中心联合高校实现AI图像生成系统自我进化训练提速13倍

首页

热心网友

转载

2026-05-16

这项突破性研究由希腊雅典娜研究中心（Archimedes, Athena RC）联合克里特大学、法国Valeo.ai公司、雅典国立理工大学及IACM-Forth研究所共同完成。相关论文已于2026年4月19日发布在预印本平台arXiv，论文编号为arXiv:2604.17492。

雅典娜研究中心联合多所高校：让AI图像生成系统在训练中

扩散模型：AI图像生成的“去噪”核心引擎

要深入理解这项研究的重大意义，我们首先需要剖析当前主流AI图像生成系统的工作原理。无论是根据文本提示生成逼真画面，还是实现复杂的风格迁移，其核心技术大多依赖于“扩散模型”。

简单来说，扩散模型的核心任务是学习“去噪”。其训练分为两个阶段：首先，对一张清晰图像逐步添加噪声，直至其完全退化为随机噪点；随后，模型学习逆向过程，从这片噪点混沌中逐步重建出原始图像。这好比先将一杯清水搅浑，再精确地分离出每一粒杂质。

目前，这类“去噪引擎”主要有两种实现路径。一种是直接在像素空间操作，处理每个像素的RGB数值，计算开销巨大。另一种更高效的路径，是借助VAE（变分自编码器）先将高分辨率图像压缩到一个低维的“潜在空间”，在此空间内进行去噪学习，最后再解码还原。这类似于编辑一份精简的菜谱，远比处理完整的烹饪视频要高效。

然而，现有系统存在一个普遍瓶颈：它们擅长捕捉颜色、纹理等低层次视觉特征，却缺乏对图像“语义”——即画面中“包含什么物体”以及“正在发生什么”——的深层理解。例如，模型能学会生成羽毛的细腻纹理（低层特征），却难以准确把握“一只站在枝头鸣唱的金丝雀”这一整体场景（高层语义）。

为AI绘图引入“语义顾问”的初步尝试

针对上述问题，研究者们提出了一个直观的改进思路：为扩散模型配备一位“语义顾问”。具体而言，在训练时，模型同时接收两种输入：一是经过压缩的图像特征（负责细节还原），二是从预训练视觉编码器（如DINOv2、MOCOv3）中提取的语义特征（负责内容理解）。

这类“联合建模”方法确实提升了生成质量。代表性方案ReDi让模型在图像和语义双轨道上并行学习，实现相互促进。但ReDi存在一个关键局限：其“语义顾问”的知识是静态的。研究人员在训练前，使用PCA（主成分分析）技术将预训练编码器的知识压缩成一个固定模板，此后在整个漫长训练中不再更新。

这就好比，餐厅聘请了一位顶级主厨作为顾问，却只把他第一天的建议装订成册。此后无论菜单如何创新、食材如何迭代，厨师团队都只能参照那本一成不变的手册。这自然引出了一个核心问题：这位“语义顾问”的知识库，能否与整个AI生成系统同步学习、共同进化？

CoReDi：实现语义与生成的“协同进化”

雅典娜研究中心领衔的团队给出了肯定答案，并将其提出的新框架命名为CoReDi，全称为“协同进化表示扩散”。其核心理念正是“协同进化”——图像生成能力在提升的同时，语义理解空间也在同步优化，两者相互适应，共同驱动模型产出更高质量的图像。

在具体实现上，他们摒弃了固定的PCA压缩，转而采用一个可学习的线性投影层。这个投影层本质上是一个轻量级的数学变换（一个可训练矩阵），参数量极少，却能在整个训练过程中动态调整。它的作用是将预训练编码器的原始知识，“翻译”成越来越契合当前图像生成任务的形式。你可以将其视为一位实时在场的同声传译，他一边翻译顾问的指导意见，一边观察厨房的实际操作，不断优化措辞，使建议更具可执行性。

论文中的可视化结果清晰展现了“协同进化”的效果。随着训练推进，可学习投影层输出的语义特征图，从初始的模糊混沌状态，逐渐演化出清晰的结构与语义分区——猫头鹰的面部、鹦鹉的躯体、蝴蝶的翅膀等区域开始明确显现。这种自发形成的空间组织结构，正是其能有效辅助图像生成的关键。

训练“动态进化顾问”的技术挑战

然而，让这个可学习的投影层高效工作并非易事。研究团队发现，若简单地将其纳入联合训练目标，系统会迅速陷入“偷懒”模式，即研究者所称的“退化解”。

根本原因在于，在原有框架下，扩散模型需要预测“干净的语义特征”。但当这个特征本身由可学习层产生时，便形成了一个循环：投影层既是“出题人”（生成目标特征），又是“答题人”（其输出被用于预测）。最省力的策略自然是将题目出得极其简单甚至无意义，从而导致整个系统崩溃。

为解决这一根本性挑战，团队通过系统性分析，确立了三个不可或缺的关键组件。

第一关键：停止梯度。 在计算语义预测的损失时，用于构成目标值的“干净语义特征”会被阻止梯度反向传播。这意味着，在更新投影层参数时，该目标值被视为固定常量。这一机制直接切断了投影层通过降低题目难度来“作弊”的路径，迫使其必须产出真实、有意义的语义内容。

第二关键：批归一化。 扩散模型对输入特征的数值尺度非常敏感，因为训练中添加的噪声是按特定比例设计的。如果投影层输出的尺度波动不定，就会扰乱整个噪声计划。批归一化通过统计批次内数据的均值和方差，将输出特征稳定在合理范围内。值得注意的是，这里使用的批归一化移除了可学习的缩放和偏移参数，目的纯粹是稳定尺度，而非引入新变化。

第三关键：防坍塌正则化。 即便有了前两项措施，研究者仍观察到了“特征坍塌”现象——投影层输出的多个通道开始编码重复冗余的信息，丧失多样性。为此，他们探索了三种正则化策略。

三种防止信息冗余的“多样化”策略

特征方差正则化： 核心思路是确保每个空间位置的特征向量，在各个通道上的取值有足够大的差异（若标准差低于阈值γ=1则施加惩罚）。这相当于要求每个位置的信息必须在多个“频道”上呈现多样性，避免千篇一律。

正交正则化： 直接约束投影矩阵本身的数学结构，强制要求其各列向量尽可能相互垂直（正交）。在几何上，这代表了不同的投影方向彼此独立，从根本上杜绝信息冗余。

协方差正则化： 灵感来源于自监督学习中的Barlow Twins等方法。它计算所有输出通道之间的协方差矩阵，并惩罚非对角线元素（即通道间的相关性），从而鼓励各个通道学习独立的信息。

对比实验表明，三种策略均能有效防止特征坍塌，其中特征方差正则化效果最佳。可视化结果清晰显示，未使用正则化时，8个通道的特征图几乎完全相同；而加入特征方差正则化后，每个通道都激活了图像中不同的语义区域，实现了信息的有效分离。

完整训练流程：三大损失函数的协同作用

整合以上所有组件，CoReDi的最终训练目标由三部分损失函数共同构成：图像流匹配损失（学习去噪还原图像）、语义表示流匹配损失（学习去噪还原语义特征，并应用停止梯度），以及作用于投影层的正则化损失（防止特征坍塌）。两个超参数分别控制语义损失和正则化损失的权重。

在模型架构上，CoReDi采用“合并token”策略来融合图像与语义信息。两种模态的特征在早期通过通道相加进行合并，随后输入同一个扩散Transformer主体进行处理，最后通过独立的解码头分别预测图像和语义的速度场。这种设计巧妙地在不显著增加计算开销的前提下，实现了深度的多模态融合。

从潜在空间到像素空间：框架的自然扩展

研究团队进一步思考：既然语义辅助已提供了高层结构指导，扩散模型是否还必须依赖VAE压缩的潜在空间？毕竟VAE压缩会引入不可避免的信息损失。

为此，他们将CoReDi框架扩展到了像素空间，直接在原始像素上进行操作。他们以DeCo框架为基础，其核心思想是将图像的高频和低频信息分离处理，用编码器处理下采样的低分辨率图像，再用轻量解码器重建全分辨率输出，从而大幅降低计算负担。

在此架构上集成CoReDi，只需做微小改动：让编码器同时接受下采样的噪声图像和噪声化的协同进化语义特征，产生联合条件特征，进而指导像素解码。值得注意的是，在像素空间中，图像与语义特征的维度差异更大，因此需要调整语义损失的权重（实验发现0.1为最佳值，而在潜在空间中该值为1）。

实验结果：收敛速度获得显著提升

在ImageNet 256×256的标准基准测试上，CoReDi与多个基线模型进行了全面对比。

在不使用分类器自由引导的条件下，对于参数约1.3亿的B/2规模模型，CoReDi在训练40万步后取得了FID 16.4的成绩，显著优于同等训练预算下的ReDi（FID 21.4）和基础SiT模型（FID 33.0）。FID值越低，代表生成图像质量越高、越接近真实分布。

对于参数约6.75亿的XL/2规模模型，CoReDi仅用200万训练步就达到了FID 3.3，这与ReDi需要400万步才能达到的最佳成绩持平，意味着收敛速度提升了一倍。与REPA方案相比，优势更为明显——REPA在400万步时FID为5.9，而CoReDi在相同步数下达到了更优的FID 6.1（其在20万步时FID为9.2，整体收敛速度比REPA快约13倍）。

在启用分类器自由引导后，基于SiT-XL/2主干的CoReDi仅用400个训练轮次就达到了FID 1.58，超越了REPA（800轮，FID 1.80）和ReDi（800轮，FID 1.72）。同时，CoReDi在图像多样性（IS得分297.2）和样本覆盖度（召回率0.78）上也全面领先。

在像素空间扩散实验中，CoReDi-L/16仅用10万步就达到了DeCo-L/16需要20万步才能达到的FID 31.5，再次实现约两倍的收敛加速。继续训练至20万步，CoReDi将FID进一步提升至21.5，而DeCo仅为31.3。

兼容多种“语义顾问”的泛化能力验证

为验证方法的普适性，研究团队测试了DINOv2、MOCOv3、SigLIPv2和MAE四种不同的预训练视觉编码器作为“语义顾问”。

结果显示，CoReDi在所有四种编码器上的表现均优于使用固定PCA投影的ReDi。其中，使用DINOv2时，FID从30.9降至24.7；使用SigLIPv2时，从36.2降至29.1。这表明，协同进化的投影层能够从多种不同架构和训练目标的视觉基础模型中，自适应地提取出对图像生成更有利的语义信息。

消融实验：验证每个组件的必要性

严格的消融实验证实了每个设计组件的不可或缺性。

移除“停止梯度”后，FID从24.7急剧恶化至50.8，印证了模型会走向“偷懒”的退化解。移除“批归一化”的后果更为灾难，FID飙升至223.9，召回率接近零，模型几乎丧失了生成多样图像的能力，证明了稳定输入尺度的重要性。

在没有任何正则化的情况下，FID为37.2，甚至比固定投影的ReDi（30.9）还要差，说明无约束的“自由进化”反而有害。加入任一种正则化（正交、协方差或特征方差）后，性能均显著提升并超越基线，其中特征方差正则化效果最好（FID 24.7）。

内在机制：进化特征形成“空间语义语言”

研究团队进一步深入分析了CoReDi提升性能的内在机制。近期研究表明，影响扩散模型生成质量的关键，可能不在于语义特征的“全局类别标签”，而在于其“空间结构信息”——即特征图是否能清晰编码图像中不同物体部件及其空间关系。

为此，他们用三个空间结构指标追踪了CoReDi训练过程中特征表示的变化：局部与远距相似性（LDS）、相关性衰减斜率（CDS）和均方空间对比度（RMSC）。实验结果显示，随着训练进行，这三个指标均单调上升。更重要的是，训练完成后的CoReDi投影层，在所有指标上都超越了固定的PCA投影。

这证明，可学习投影层在生成目标的驱动下，不仅仅是在做数据压缩，更是自发地发展出了一种对图像生成更有利的“空间语义语言”。这种增强了空间结构的语义表示，被认为是CoReDi实现质量飞跃的核心机制。这一现象在像素空间扩散实验中也得到了验证。

总结：一个“边训练边进化”的智能翻译官

总而言之，CoReDi的核心创新可以概括为一个形象的比喻：此前的方案是在训练前请翻译将专家知识编译成固定手册；而CoReDi则让翻译官全程参与项目，根据团队（扩散模型）的实时进展动态调整翻译策略，确保知识传递始终切合实际需求。为了防止翻译“偷懒”或“说车轱辘话”，系统设置了三大机制：禁止他根据听众反应简化内容（停止梯度），要求他保持音量稳定（批归一化），以及确保他每句话都传递新信息（防坍塌正则化）。

该框架参数效率极高，仅增加了一个轻量的线性投影层，便带来了显著的收敛加速和质量提升，并能无缝集成到潜在空间与像素空间两种主流扩散框架中。研究团队还针对大规模训练优化了一个细节：对投影层的学习率采用余弦衰减调度，在训练后期将其降至零，以确保表示空间最终稳定收敛。

这项研究清晰地表明，当AI图像生成系统的“语义理解模块”能够与系统共同进化时，产生的协同效应是巨大的——更快的训练速度、更高的输出质量，以及低层细节与高层语义更紧密的融合。它为未来的研究方向提供了一个重要启示：语义表示空间本身，应当成为一个可优化的、与生成任务共同演进的关键组成部分，而非一个静止的辅助工具。

常见问题解答

Q1：CoReDi和ReDi的核心区别是什么？
A：最根本的区别在于语义表示是否固定。ReDi使用固定的PCA投影来压缩语义特征，整个训练过程中保持不变。CoReDi则用可学习的线性投影层替代了PCA，使得语义表示能够在整个训练周期内持续更新优化，与扩散模型协同进化，从而更精准地适配图像生成任务的需求。

Q2：CoReDi训练中为什么必须使用停止梯度技术？
A：这是为了防止训练崩溃，确保模型学习到有意义的语义。由于可学习投影层同时负责生成模型的输入和预测目标，如果不阻断梯度（即停止梯度），它会找到“捷径”——通过输出过于简单或无意义的目标特征来降低预测难度，而不是学习真正有价值的语义信息。停止梯度冻结了目标值，迫使投影层必须输出具有丰富语义的特征。

Q3：CoReDi的加速效果具体有多明显？
A：在ImageNet 256×256数据集上的实验表明，加速效果非常显著。使用SiT-XL/2主干网络时，CoReDi仅用200万训练步就达到了REPA方案需要约4000万步（即约13倍步数）才能达到的相近FID水平。在像素空间扩散实验中，CoReDi用10万步就达到了DeCo方案20万步的效果，实现了约两倍的收敛加速。

来源:https://www.techwalker.com/2026/0505/3185769.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：斯坦福大学揭示人工智能三思而后行的内部思考逻辑下一篇：Moorcheh AI记忆助手：让AI真正记住你的简单方法