首页 游戏 软件 资讯 排行榜 专题
首页
AI
逆天改命!Flow-GRPO 让图像生成模型秒变 “大神”

逆天改命!Flow-GRPO 让图像生成模型秒变 “大神”

热心网友
96
转载
2026-04-14

图像生成模型的“成长烦恼”

当前基于流匹配(Flow matching)的图像生成模型,其理论框架已相当成熟,生成图像的质量也令人印象深刻。然而,当面对复杂场景时——例如需要精确安排多个物体、协调各类属性与关系,或在图像中准确渲染文本——这些模型的表现往往不尽如人意,显得有些力不从心。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

image.png

论文地址:https://www.arxiv.org/pdf/2505.05470

项目地址:https://github.com/yifan123/flow_grpo

与此同时,在线强化学习(online RL)在提升大语言模型推理能力方面已展现出显著成效。但一个有趣的现象是,此前的研究焦点多集中于将RL应用于早期的扩散生成模型,或采用直接偏好优化这类离线RL技术,却鲜少有人探索在线RL能否为流匹配生成模型带来突破。这好比手握一把功能强大的钥匙,却未曾尝试去开启另一扇充满潜力的大门。如今,Flow-GRPO的出现,正是为了叩开这扇门。

将RL应用于流模型训练,挑战不容小觑。首要难题在于,流模型的生成过程遵循确定性的常微分方程(ODE),宛如一列沿固定轨道行进的列车,推理时无法进行随机采样。而强化学习的核心恰恰在于通过随机探索不同的“行动”,并根据反馈进行学习。一个要求规整有序,一个依赖随机探索,二者如何协同工作?

其次,在线RL训练依赖于高效的数据采样,但流模型生成每个样本都需要经过多次迭代,过程缓慢,采样效率低下。随着模型变得更大、更复杂,这个问题会愈发突出,形成性能提升的瓶颈。因此,若想让RL在图像乃至视频生成任务中发挥作用,提升采样效率便成为必须攻克的关键。

image.png

Flow-GRPO的破局之道

为应对上述挑战,Flow-GRPO应运而生。其核心在于两套相辅相成的策略,共同构成了一个高效且巧妙的训练框架。

第一项策略是“ODE到SDE的转换”。可以这样理解:它将原本只能在确定性轨道上运行的“列车”,改造为能够在更广阔空间内灵活探索的“越野车”。具体而言,Flow-GRPO将生成过程的确定性ODE转化为随机微分方程(SDE),同时确保每个时间步的边际分布与原模型一致。这一转换巧妙地引入了可控的随机性,使得模型在训练阶段能够进行RL所必需的探索。想象一下,生成路径从一条笔直大道,变成了一个拥有多种可能分支的网络,模型从而能探索到更优的图像生成方式。

第二项策略是“降噪步骤缩减”。在训练阶段,Flow-GRPO大幅减少了降噪迭代步数,以此快速收集训练所需数据,极大提升了采样效率。而在最终推理生成时,系统则会恢复使用完整的降噪步骤,以确保输出图像的最高质量。这类似于运动员的训练模式:日常训练采用高强度、短时间的间歇跑以提升效率;正式比赛时则执行完整的策略,以发挥最佳水平。

image.png

Flow-GRPO的实战表现

那么,Flow-GRPO的实际效果究竟如何?研究团队在多项文本到图像(T2I)任务上进行了全面测试,结果颇具说服力。

在组合图像生成任务中,使用GenEval基准进行评估。这类任务要求模型像搭积木一样,精确安排物体数量、属性及空间关系。经Flow-GRPO训练后,Stable Diffusion 3.5 Medium(SD3.5-M)模型的准确率从63%大幅提升至95%,甚至超越了GPT-4o模型的表现。以往模型可能生成数量错误、颜色混乱的图像,而经过优化后,其输出变得高度精准可靠。

在视觉文本渲染任务中,SD3.5-M模型的准确率也从59%跃升至92%。此前模型渲染的文本可能出现扭曲、缺失,而现在则能清晰、准确地将其融入图像,仿佛为画面配上了完美的文字标签。

在与人类偏好对齐的任务中,Flow-GRPO同样表现卓越。以PickScore作为奖励模型进行评估,它能使模型生成的图像更贴合人类审美。更重要的是,这种性能提升并未以牺牲图像质量或多样性为代价,有效避免了所谓的“奖励作弊”问题——即模型为追求高分而产出模糊、同质化的内容。Flow-GRPO在提升奖励分数的同时,守住了生成质量的下限。

研究团队还进行了一系列深入分析。例如,在应对奖励作弊问题时,尝试组合多种奖励模型最初会导致图像局部模糊、多样性下降。随后引入KL约束进行调控,在调整至合适的系数后,成功实现了任务特定奖励的优化与模型整体性能的平衡。

对降噪步骤缩减策略的分析显示,将训练时的数据收集步长从40步减少到10步,使得训练速度提升了4倍以上,而最终的奖励分数并未受到影响。这相当于找到了一条通往目的地的捷径,大幅节省了时间成本。

此外,SDE中噪声水平的设置也至关重要。合适的噪声水平(研究发现约在0.7时效果最佳)能增强图像的多样性和模型的探索能力,对RL训练尤为有益。但过高的噪声则会损害图像质量,如同在一幅精细画作上泼洒墨点。关键在于找到那个既能促进探索又不破坏质量的平衡点。

Flow-GRPO还展现了出色的泛化能力。在涉及未见过的场景测试中,它能够准确捕捉物体的数量、颜色和空间关系。即使面对训练时未接触过的物体类别,或是将生成物体数量从训练集的2-4个推广到测试时的5-6个,它都能从容应对,表现出强大的举一反三能力。

未来展望与挑战

尽管Flow-GRPO在文本到图像任务中已取得亮眼成绩,但研究视野并未止步于此。下一个前沿阵地,无疑是视频生成领域。当然,这也意味着一系列新的挑战。

首先是奖励设计。视频生成的评估维度远比图像复杂,需要设计出能综合衡量真实性、流畅性、时序连贯性等多重目标的奖励模型,其复杂程度不可同日而语。

其次是多重奖励的平衡。视频生成往往需要同时优化多个目标,这些目标之间有时存在张力,如何让它们协同一致而非相互冲突,是一个需要精巧设计的难题。

最后是可扩展性。视频生成对计算资源的需求呈数量级增长,如同一个“资源吞噬者”。要将Flow-GRPO成功应用于视频生成,必须开发出更高效的数据收集与训练范式,以应对巨大的算力需求。

尽管前路充满挑战,但Flow-GRPO所展示的潜力为其未来发展奠定了坚实基础。可以预见,随着研究的不断深入,它不仅将在图像生成领域持续进化,更有望在视频生成乃至更广阔的跨模态内容生成场景中,开辟新的可能性。未来的视觉内容创作,或许将因此迎来新一轮的变革。


来源:http://www.5asj.com/ai/20250514/578.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

逆天改命!Flow-GRPO 让图像生成模型秒变 “大神”
AI
逆天改命!Flow-GRPO 让图像生成模型秒变 “大神”

图像生成模型的“成长烦恼” 当前基于流匹配(Flow matching)的图像生成模型,其理论框架已相当成熟,生成图像的质量也令人印象深刻。然而,当面对复杂场景时——例如需要精确安排多个物体、协调各类属性与关系,或在图像中准确渲染文本——这些模型的表现往往不尽如人意,显得有些力不从心。 论文地址:h

热心网友
04.14
逆天改命!Flow-GRPO 让图像生成模型秒变 “大神”
AI
逆天改命!Flow-GRPO 让图像生成模型秒变 “大神”

今天必须给你们唠唠科研界的一项超酷新成果 ——Flow-GRPO!这东西可不得了,它就像是给图像生成模型打了一针 “超级进化剂”,直

热心网友
07.17

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Lemonaid-AI音乐生成工具
AI
Lemonaid-AI音乐生成工具

Lemonaid是什么 如果你正为音乐创作寻找得力助手,那么Lemonaid很可能就是答案。它是一款专门面向专业音乐人打造的AI音乐生成工具,核心能力在于自主生成包含完整旋律、和声与节奏的乐曲。无论是想要一段氛围感十足的背景音乐,还是为具体场景定制配乐,它都能提供高度逼真且质量上乘的作品。工具提供了

热心网友
04.14
苹果折叠屏iPhone Ultra关键点汇总:这4个问题你肯定想知道
iphone
苹果折叠屏iPhone Ultra关键点汇总:这4个问题你肯定想知道

苹果也要出折叠屏,传闻已经有几年了,从目前供应链、分析师与知名爆料者释放的信息来看,这款与市面大折都不一样的阔折叠似乎已经蓄势待发,大概率今年下半年就要正式面市。今天我们就来为大家汇总一波,没准儿就有你想知道的消息。 关于苹果折叠屏手机的传闻,已经流传了好几年。如今,综合供应链、分析师以及各路知名爆

热心网友
04.14
《刺客信条4:黑旗 重制版》对手来了!被称为4A级海盗大作
游戏评测
《刺客信条4:黑旗 重制版》对手来了!被称为4A级海盗大作

《刺客信条:黑旗重制版》官宣之际,这款新海盗游戏为何能抢先赢得玩家口碑? 当游戏界的焦点都集中在《刺客信条:黑旗重制版》的正式公布时,一款名为《风启之旅》(Windrose)的开放世界海盗生存建造游戏,却凭借其过硬的品质与独特的玩法融合,悄然在玩家社区中掀起热议。这款由乌兹别克斯坦团队Kraken

热心网友
04.14
腾讯智影-智能视频创作与发布一体化平台
AI
腾讯智影-智能视频创作与发布一体化平台

产品介绍 提到云端智能视频创作,腾讯智影是一个绕不开的名字。这款由腾讯推出的平台,本质上是一个一站式的在线视频工厂,集成了从素材挖掘、剪辑、渲染到最终发布的全链路功能,旨在为用户提供全方位的视频创作解决方案。更吸引人的是,它不仅免费开放,还深度整合了多项前沿AI技术,目标很明确:让视频化表达这件事,

热心网友
04.14
比心被拒小哥回应:不尴尬 尊重Coser 大家当个乐子
游戏评测
比心被拒小哥回应:不尴尬 尊重Coser 大家当个乐子

《王者荣耀世界》线下活动风波:合影互动引争议,职业素养与网络舆论深度探讨 近日,《王者荣耀世界》的一场线下玩家见面会,因台上一次短暂的合影互动,意外成为全网热议的焦点。活动中,一位男粉丝上台与角色扮演者(Coser)合影时,主动做出比心手势以示友好,却未得到身旁Coser的任何回应。男生举着手势在原

热心网友
04.14