逆天改命！Flow-GRPO 让图像生成模型秒变 “大神”_AI热点日报

逆天改命！Flow-GRPO 让图像生成模型秒变 “大神”

类型：热点整理2026-04-14

图像生成模型的“成长烦恼” 当前基于流匹配（Flow matching）的图像生成模型，其理论框架已相当成熟，生成图像的质量也令人印象深刻。然而，当面对复杂场景时——例如需要精确安排多个物体、协调各类属性与关系，或在图像中准确渲染文本——这些模型的表现往往不尽如人意，显得有些力不从心。论文地址：h

图像生成模型的“成长烦恼”

当前基于流匹配（Flow matching）的图像生成模型，其理论框架已相当成熟，生成图像的质量也令人印象深刻。然而，当面对复杂场景时——例如需要精确安排多个物体、协调各类属性与关系，或在图像中准确渲染文本——这些模型的表现往往不尽如人意，显得有些力不从心。

论文地址：https://www.arxiv.org/pdf/2505.05470

项目地址：https://github.com/yifan123/flow_grpo

与此同时，在线强化学习（online RL）在提升大语言模型推理能力方面已展现出显著成效。但一个有趣的现象是，此前的研究焦点多集中于将RL应用于早期的扩散生成模型，或采用直接偏好优化这类离线RL技术，却鲜少有人探索在线RL能否为流匹配生成模型带来突破。这好比手握一把功能强大的钥匙，却未曾尝试去开启另一扇充满潜力的大门。如今，Flow-GRPO的出现，正是为了叩开这扇门。

将RL应用于流模型训练，挑战不容小觑。首要难题在于，流模型的生成过程遵循确定性的常微分方程（ODE），宛如一列沿固定轨道行进的列车，推理时无法进行随机采样。而强化学习的核心恰恰在于通过随机探索不同的“行动”，并根据反馈进行学习。一个要求规整有序，一个依赖随机探索，二者如何协同工作？

其次，在线RL训练依赖于高效的数据采样，但流模型生成每个样本都需要经过多次迭代，过程缓慢，采样效率低下。随着模型变得更大、更复杂，这个问题会愈发突出，形成性能提升的瓶颈。因此，若想让RL在图像乃至视频生成任务中发挥作用，提升采样效率便成为必须攻克的关键。

Flow-GRPO的破局之道

为应对上述挑战，Flow-GRPO应运而生。其核心在于两套相辅相成的策略，共同构成了一个高效且巧妙的训练框架。

第一项策略是“ODE到SDE的转换”。可以这样理解：它将原本只能在确定性轨道上运行的“列车”，改造为能够在更广阔空间内灵活探索的“越野车”。具体而言，Flow-GRPO将生成过程的确定性ODE转化为随机微分方程（SDE），同时确保每个时间步的边际分布与原模型一致。这一转换巧妙地引入了可控的随机性，使得模型在训练阶段能够进行RL所必需的探索。想象一下，生成路径从一条笔直大道，变成了一个拥有多种可能分支的网络，模型从而能探索到更优的图像生成方式。

第二项策略是“降噪步骤缩减”。在训练阶段，Flow-GRPO大幅减少了降噪迭代步数，以此快速收集训练所需数据，极大提升了采样效率。而在最终推理生成时，系统则会恢复使用完整的降噪步骤，以确保输出图像的最高质量。这类似于运动员的训练模式：日常训练采用高强度、短时间的间歇跑以提升效率；正式比赛时则执行完整的策略，以发挥最佳水平。

Flow-GRPO的实战表现

那么，Flow-GRPO的实际效果究竟如何？研究团队在多项文本到图像（T2I）任务上进行了全面测试，结果颇具说服力。

在组合图像生成任务中，使用GenEval基准进行评估。这类任务要求模型像搭积木一样，精确安排物体数量、属性及空间关系。经Flow-GRPO训练后，Stable Diffusion 3.5 Medium（SD3.5-M）模型的准确率从63%大幅提升至95%，甚至超越了GPT-4o模型的表现。以往模型可能生成数量错误、颜色混乱的图像，而经过优化后，其输出变得高度精准可靠。

在视觉文本渲染任务中，SD3.5-M模型的准确率也从59%跃升至92%。此前模型渲染的文本可能出现扭曲、缺失，而现在则能清晰、准确地将其融入图像，仿佛为画面配上了完美的文字标签。

在与人类偏好对齐的任务中，Flow-GRPO同样表现卓越。以PickScore作为奖励模型进行评估，它能使模型生成的图像更贴合人类审美。更重要的是，这种性能提升并未以牺牲图像质量或多样性为代价，有效避免了所谓的“奖励作弊”问题——即模型为追求高分而产出模糊、同质化的内容。Flow-GRPO在提升奖励分数的同时，守住了生成质量的下限。

研究团队还进行了一系列深入分析。例如，在应对奖励作弊问题时，尝试组合多种奖励模型最初会导致图像局部模糊、多样性下降。随后引入KL约束进行调控，在调整至合适的系数后，成功实现了任务特定奖励的优化与模型整体性能的平衡。

对降噪步骤缩减策略的分析显示，将训练时的数据收集步长从40步减少到10步，使得训练速度提升了4倍以上，而最终的奖励分数并未受到影响。这相当于找到了一条通往目的地的捷径，大幅节省了时间成本。

此外，SDE中噪声水平的设置也至关重要。合适的噪声水平（研究发现约在0.7时效果最佳）能增强图像的多样性和模型的探索能力，对RL训练尤为有益。但过高的噪声则会损害图像质量，如同在一幅精细画作上泼洒墨点。关键在于找到那个既能促进探索又不破坏质量的平衡点。

Flow-GRPO还展现了出色的泛化能力。在涉及未见过的场景测试中，它能够准确捕捉物体的数量、颜色和空间关系。即使面对训练时未接触过的物体类别，或是将生成物体数量从训练集的2-4个推广到测试时的5-6个，它都能从容应对，表现出强大的举一反三能力。

未来展望与挑战

尽管Flow-GRPO在文本到图像任务中已取得亮眼成绩，但研究视野并未止步于此。下一个前沿阵地，无疑是视频生成领域。当然，这也意味着一系列新的挑战。

首先是奖励设计。视频生成的评估维度远比图像复杂，需要设计出能综合衡量真实性、流畅性、时序连贯性等多重目标的奖励模型，其复杂程度不可同日而语。

其次是多重奖励的平衡。视频生成往往需要同时优化多个目标，这些目标之间有时存在张力，如何让它们协同一致而非相互冲突，是一个需要精巧设计的难题。

最后是可扩展性。视频生成对计算资源的需求呈数量级增长，如同一个“资源吞噬者”。要将Flow-GRPO成功应用于视频生成，必须开发出更高效的数据收集与训练范式，以应对巨大的算力需求。

尽管前路充满挑战，但Flow-GRPO所展示的潜力为其未来发展奠定了坚实基础。可以预见，随着研究的不断深入，它不仅将在图像生成领域持续进化，更有望在视频生成乃至更广阔的跨模态内容生成场景中，开辟新的可能性。未来的视觉内容创作，或许将因此迎来新一轮的变革。

来源：http://www.5asj.com/ai/20250514/578.html

延伸阅读

补充最近整理过的热点入口。