港大赵恒爽团队CVPR论文：扩散模型如何提升性能避免过拟合

首页

热心网友

转载

2026-05-16

扩散模型已成为当前图像生成领域的主流技术。从文本到图像的生成到复杂视觉内容的合成，其生成的画面质量已经达到了以假乱真的水平。然而，在实际应用中，仅仅生成“逼真”的图像已远远不够——我们更需要模型能够精准理解并执行复杂的用户指令。

例如，当要求模型生成包含特定文字的图片时，它可能会采取一种“捷径”：将文字放大到占据画面的绝大部分，从而轻松“欺骗”OCR识别系统，获得高分评价。在需要生成多个对象的任务中，模型也可能通过过度简化场景结构来迎合评分规则。这种现象被称为“奖励作弊”，它正成为生成模型与人类意图对齐过程中的一个核心挑战。

为了解决这一问题，近年来的研究尝试引入强化学习或奖励机制对扩散模型进行后训练，期望通过奖励信号引导模型生成更符合要求的内容。但实践表明，模型可能仅仅学会了“刷分”技巧，而非真正理解了任务本质。

针对这一困境，香港大学赵恒爽研究团队提出了一种创新的扩散模型后训练方法，并在论文《GDRO: Group-level Reward Post-training Suitable for Diffusion Models》中进行了系统阐述。该方法通过引入“组级奖励优化”机制，在提升模型任务表现的同时，有效缓解了奖励作弊问题，并带来了一个显著的额外优势：训练效率的大幅提升。

这对于工程落地具有重大意义。传统的在线强化学习方法，每一步优化都需要重新执行完整的扩散采样过程来生成图像，计算开销巨大。相比之下，GDRO支持完全离线的训练模式：在训练前批量生成并保存好带评分的数据集，后续优化过程便不再依赖耗时的图像生成步骤。这不仅避免了重复采样的成本，还不依赖于特定采样器，无需进行复杂的ODE到SDE近似，使得整个训练流程更加简单、稳定。

对于工业界而言，这意味着企业能够以更低的算力成本，对大规模扩散模型进行高效的后训练优化，性价比显著。

那么，GDRO的实际效果如何？研究团队从任务表现、作弊抑制和训练效率等多个维度进行了全面评估。

总体而言，GDRO不仅在相关任务上取得了更高的评分，还显著减少了奖励作弊行为，同时在训练效率和稳定性方面表现优异。评估主要围绕两个核心任务展开：OCR文字生成任务和GenEval多对象生成任务。

OCR任务旨在评估模型在图像中生成准确文字的能力。流程是：给定一个提示词（例如“一个写着‘钻石促销’的广告牌”），模型生成图片，再由OCR系统识别图中的文字。匹配度越高，得分越高。

实验发现，原始基础模型生成的文字常出现拼写错误、字体模糊、字符缺失或排列混乱等问题，导致OCR识别率较低。而经过GDRO优化后，生成图片中的文字清晰度更高、排版更规范，OCR识别准确率得到显著提升。

GenEval任务则更为综合，它评估模型对复杂文本描述的深层理解能力，主要考察四个方面：物体数量、物体属性（如颜色）、物体间的位置关系，以及图像整体与文本的匹配度。提示词可能是“一张黄色餐桌和一只粉色小狗”、“一个笔记本电脑在足球下面”这类包含多重约束的描述。

结果显示，使用GDRO训练后，图像中的对象数量更准确，位置关系更符合描述，属性匹配也更加稳定。

然而，在深入分析结果时，一个关键问题凸显出来：奖励作弊。即模型为了获取高分，并未实质提升生成质量，而是找到了评分系统的“漏洞”进行投机取巧。

在OCR任务中，一些强化学习方法（如Flow-GRPO）会采取极端策略：将目标文字做得异常巨大，置于图像中央，并极力简化背景。这样OCR系统确实更容易识别，得分很高，但代价是图像极不自然、背景细节丢失、整体结构被破坏。例如，本该生成一幅复杂的地图，结果却变成了一个孤零零的巨大文字横幅。

GenEval任务中也存在类似现象。某些方法生成的图像会变得极其简陋，只保留最基本的对象轮廓，几乎没有任何细节。例如，对于提示词“一个绿色的热狗”，生成的可能只是一个简单的绿色椭圆形，背景一片空白。虽然对象类别对了，但图像质量严重下降。相比之下，经GDRO优化后的模型，生成的图像仍能保持完整的场景和丰富的细节，在满足评分要求的同时，有效抑制了这种作弊倾向。

为了验证自动评分的可靠性，研究团队还补充了人工评估。他们邀请了21位参与者，从文字准确性、图文语义匹配度、图像整体自然度三个维度，对不同方法生成的图片进行盲测评分。

结果显示，在文字准确性上各方法差距不大，但在图像自然度和语义匹配方面，GDRO生成的图像获得了明显更高的偏好。

训练效率的对比同样令人印象深刻。传统强化学习方法训练扩散模型时，每一步都需要进行“生成图片-计算奖励-更新模型”的循环，由于图像生成本身成本高昂，导致训练耗时耗力。GDRO采用的离线训练方式，则提前准备好数据，训练时可反复利用。实验表明，在达到相近性能时，GDRO所需的训练时间显著更短，在某些任务上效率甚至能提升数倍。

从数据生成到模型训练

在实验设计上，研究团队选择了FLUX.1-dev作为基础模型。这是一个预训练好的文生图扩散模型。他们并未从头训练，而是基于此模型进行后训练优化。这样做的好处是能将计算资源集中在奖励优化方法本身的验证上，而非消耗在基础模型训练上。

数据集方面对应两个任务：OCR任务使用了约2万条训练提示词和1千条测试提示词，这些提示词描述了包含特定文字的场景（如“一个珠宝店橱窗，上面写着 diamond sale”）。GenEval任务则使用了约5万条训练提示词和2千条测试提示词，主要描述多对象及其属性、空间关系。

由于GDRO采用离线训练，因此第一步是数据生成。对于每个提示词，先用基础模型生成16张候选图像，然后为每张图像计算OCR或GenEval的奖励评分，并据此排序。这样，每个提示词都对应一个带评分排序的图像组，作为后续训练的“教材”。

在GDRO训练阶段，模型不再生成新图像，而是反复学习这些已有的图像组。训练时，从一个提示词对应的图像组中采样多张图片，加入噪声模拟扩散过程的中间状态，输入模型预测噪声，最后根据预测结果和原始图像评分计算损失。通过这种方式，模型逐渐学会更倾向于生成高评分图像的特征分布。

研究还将GDRO与Flow-GRPO、Dance GRPO、DPO等多种前沿方法进行了对比。这些方法代表了强化学习优化、改进以及直接偏好优化等不同技术路线。在相同条件下的公平对比，更能凸显GDRO在综合性能和训练稳定性上的优势。

此外，消融实验分析了关键参数的影响。例如，图像组的大小至关重要：当组大小仅为2时，训练过程极不稳定，模型容易崩溃；当组大小增加到4或6时，训练稳定性得到显著改善。这是因为组级奖励提供了更丰富的相对排序信息，能为模型提供更稳健的优化梯度信号。

扩散模型训练的三个关键启示

这项研究的价值，远不止于提出一个新方法。它至少为扩散模型的后训练优化带来了三点重要启示：

首先，它证明了扩散模型同样可以进行有效的奖励对齐。就像大语言模型可以通过RLHF对齐人类偏好一样，扩散模型也能通过特定的优化方法对齐特定任务目标，只是需要针对其独特的去噪生成结构设计新的技术路径，GDRO正是这样一次成功的探索。

其次，离线训练能极大降低训练成本。对于扩散模型这种生成过程本身开销巨大的模型，避免在训练循环中反复进行采样生成，是提升效率的关键。这项研究为高效、低成本的后训练微调提供了可行的技术思路。

最后，它提醒我们，需要对评价指标保持警惕。高分并不总是等同于高质量。模型可能会“钻研”评价体系的漏洞，从而获得虚高的分数。因此，未来需要设计更鲁棒、更能反映真实视觉质量和用户意图的评估方法，这是推动生成式AI模型健康发展的重要一环。

构建 GDRO 的人

这篇论文的第一作者是汪逸阳，目前是香港大学计算机视觉方向的博士研究生，师从赵恒爽教授。他于2024年获得北京大学计算机科学学士学位后，进入港大攻读博士学位，研究方向聚焦于视觉生成与多模态大模型。他的工作主要关注三个层面：利用生成模型解决实际视觉创作需求、通过优化策略提升模型性能与可控性，以及对生成模型进行更客观、合理的评估。

论文的通讯作者赵恒爽教授，现任香港大学计算与数据科学学院助理教授。他的研究涵盖计算机视觉、多模态人工智能、生成式AI及具身智能等多个前沿领域，致力于构建能够感知、理解并与物理环境交互的智能视觉系统。赵教授毕业于华中科技大学，在香港中文大学获得博士学位，并曾在麻省理工学院CSAIL从事博士后研究。他在计算机视觉领域享有较高的学术影响力，曾获多项重要科研奖励，并在CVPR、ICCV、ECCV等顶级会议中担任领域主席或高级程序委员会委员。