英伟达港大MIT联手推出AI绘画训练提速464倍侦察兵策略

首页

热心网友

转载

2026-05-15

2026年4月8日，一项由英伟达、香港大学与麻省理工学院联合完成的研究在arXiv平台发布，论文编号arXiv:2604.06916。这项研究直指AI绘画领域一个日益紧迫的痛点：如何让庞大的图像生成模型，在“学习人类审美偏好”这件事上，既学得好，又学得快？

英伟达、港大与MIT联手：让AI绘画训练提速4.64倍的

要理解这项研究的价值，得先从AI绘画模型为何需要“学习”说起。如今我们熟知的FLUX.1、SANA、Stable Diffusion 3.5等模型，虽然能根据文字生成惊艳的图像，但它们并不天然懂得人类喜欢什么。于是，研究人员引入了“强化学习”机制——让模型不断生成图片，获得人类反馈的评分，再根据评分改进，就像一个不断练习、不断接受评委打分的画手。

这套机制有个核心环节：每次练习，模型不是只画一张图，而是生成一大批（比如96张），然后从中挑出最好和最差的来重点学习。因为对比越强烈，模型收到的“这样画对、那样画错”的信号就越清晰。但问题随之而来：生成96张图再筛选，意味着大量计算资源被浪费在了那些最终被丢弃的“中等生”身上。对于动辄上百亿参数的大模型，这种浪费相当可观。

正是针对这一瓶颈，研究团队提出了名为Sol-RL（Speed-of-Light RL，光速强化学习）的两阶段训练框架。它巧妙地利用了英伟达最新Blackwell架构GPU支持的FP4超低精度计算能力，在不牺牲最终训练质量的前提下，将整体训练速度最高提升了4.64倍。

一、效率困境：“画更多草稿”的逻辑与代价

强化学习的逻辑，有点像培训班里的选拔机制。教练从一批学生作品中挑出最好和最差的让大家对比学习，直觉上，参与的人越多、作品越多样，对比学习的效果就越好——因为更容易找到真正的“天花板”和“地板”。

AI绘画的强化学习同理。研究验证了一个规律：当每次生成的候选图片数量（即“候选池”规模）扩大时，筛选出的最好与最差图片之间的差距会拉大，给模型的学习信号也越强。统计上，这个差距的期望值大约随候选样本数N的对数平方根增长。也就是说，候选池越大，极端样本越极端，学习效果越好。

然而，扩大候选池的代价是直接的：你必须先把所有图都完整画出来，才能评分筛选。对于FLUX.1这样的120亿参数模型，生成96张图的时间远远超过了后续真正用于“学习”的时间。实验数据显示，对于SD3.5-Large模型，生成96张候选图需要451秒，而后续的模型参数更新只需240秒。训练的瓶颈不再是“学”，而是“画草稿”。

一个自然的想法是：用低精度计算来加速“画草稿”。英伟达Blackwell GPU的FP4计算吞吐量是标准BF16的4倍。但问题在于，FP4精度极低，生成的图像在像素细节上存在偏差。如果直接拿这些“模糊草稿”让模型学习，模型反而会去模仿失真图像，导致训练效果下降甚至不稳定。这就像让学生临摹一张打了马赛克的名画，技术没提升，审美可能还被带偏了。

二、关键突破口：低精度草图的“排名”依然可靠

正是在这个两难困境中，研究团队找到了关键突破口：FP4生成的图像虽然在像素细节上与高精度版本有差异，但它们所反映的“哪张图更好、哪张图更差”的相对排名，却与高精度版本高度一致。

这背后有一个深刻的道理。在AI图像生成中，最终图片的大致内容和质量，很大程度上由最初随机生成的“噪声种子”决定。同一个噪声种子，无论用高精度还是低精度“绘制”，最终图像在语义层面——比如主题、构图、与文字描述的契合度——会保持相当一致。FP4只是在局部细节上引入微小偏差，就像同一张底片，高质量和低质量冲印的内容一致，只是清晰度不同。

研究团队通过大量实验严格验证了这一点。他们测量了FP4与BF16生成样本在奖励分数排名上的一致性，使用了肯德尔τ系数和斯皮尔曼ρ系数两种统计指标。结果相当惊人：平均斯皮尔曼ρ达到0.927，平均肯德尔τ达到0.798，远超“高度一致”的判断阈值。更重要的是，在筛选“前12名”和“后12名”这个核心任务上，FP4的命中率超过96%。这意味着，用FP4版本判断出的最好和最差样本，96%以上与用BF16判断的结果吻合。

这个发现好比：你不需要把每幅候选画都用最昂贵的材料精心完成，只需要快速勾勒96张铅笔草图，就能准确判断哪些构图最好、哪些最差。真正需要精心完成的，只有最终入选的那24张。

三、Sol-RL方案：侦察兵与精锐部队的分工

基于上述发现，Sol-RL构建了一个精妙的两阶段流程，可以形象地比喻为“侦察兵先摸清情报，精锐部队再精准出击”。

第一阶段：FP4加速探索。 在每一轮训练迭代中，系统首先随机生成96个不同的噪声种子，然后用FP4量化后的模型、以极少的去噪步数（只需6步，而非标准的10步）迅速生成96张“草图”。这些草图被奖励模型打分并排序。整个过程因FP4的超高吞吐量和减少的步数而极快，对于SD3.5-Large模型只需约125秒（相比BF16的451秒）。完成后，系统记录下得分最高和最低的各12个噪声种子，共24个。

第二阶段：BF16高保真再生成。 系统拿着第一阶段筛选出的24个噪声种子，切换回完整的BF16高精度模式，用完整的10步去噪过程，重新生成这24张图像。由于噪声种子没变，这24张高精度图像在语义上与FP4版本高度一致，但细节毫无损失。随后，模型的参数就在这24张高保真图像上进行更新学习。

整个迭代完成后，模型的新权重会被立刻重新量化为FP4格式，同步回推理引擎，为下一轮迭代做准备。这个重新量化的过程几乎无额外开销，保证了流程的连贯性。

以SD3.5-Large为例，对比时间开销：传统的BF16全量候选池方案（96张图全用BF16生成）需要451秒生成加240秒训练，合计691秒每轮。Sol-RL方案只需125秒用于FP4探索、62秒用于BF16再生成、240秒用于训练，合计约427秒每轮，整体加速1.61倍。而在“达到同样奖励水平所需的总时间”这个更关键的指标上，由于Sol-RL能高效利用大候选池带来的更强学习信号，收敛速度大幅提升，最终实现了高达4.64倍的训练加速。

四、实验验证：全面领先主流基线方法

研究团队在SANA（16亿参数）、FLUX.1（约120亿参数）和Stable Diffusion 3.5-Large三款主流模型上进行了完整验证，使用了ImageReward、CLIPScore、PickScore和HPSv2四种衡量图像质量和人类偏好的评分标准。所有实验均在8块英伟达B200 GPU上进行。

在最核心的对比实验中，Sol-RL与DanceGRPO、FlowGRPO、AWM和DiffusionNFT四种主流基线方法在同等GPU时间预算下进行比较。以FLUX.1模型为例，Sol-RL在ImageReward上得到1.7636分，比排名第二的DiffusionNFT（1.6707分）高出约5.5%；在CLIPScore、PickScore和HPSv2上均位列第一。

更直观的是训练收敛曲线的对比。以DiffusionNFT为基准，Sol-RL在所有九种“模型×评分指标”组合中，都能以更少的GPU时间达到DiffusionNFT的最终性能水平，提速范围从1.91倍到4.64倍不等。而且，Sol-RL最终能达到的性能上限也显著更高。

研究团队还验证了Sol-RL与“暴力BF16扩大候选池”方案之间的保真度。结果显示，在相同训练步数下，Sol-RL与暴力BF16方案的HPSv2得分差异极小：在FLUX.1上仅差0.29%，在SANA上Sol-RL甚至还高出0.11%。这证明Sol-RL确实做到了“用FP4探索的效率，实现BF16训练的质量”。

五、参数调优：探索步数与候选池大小的平衡

研究团队细致探究了两个关键参数对Sol-RL效果的影响，为实际应用提供了具体建议。

首先是FP4探索阶段使用的去噪步数。 测试了2步、4步、6步、8步四种设置。结果显示，仅用2步时，图像语义内容尚未充分成形，草图太粗糙，导致排名判断不准，最终HPSv2得分较低。增加到4步时改善明显。6步是一个甜蜜点，得分达到最高。继续增加到8步，得分反而略微下降，说明6步已足够让语义信息稳定，更多步数只会增加计算开销而无额外收益。

其次是FP4探索的候选池大小N。 测试了N=24、48、72、96四种设置，同时保持最终用于训练的样本数K固定在24。结果呈现清晰的单调递增趋势：N=24时效果最弱，N=96时效果最佳。这验证了理论分析：候选池越大，极端样本越极端，学习信号越强。而得益于FP4的高效率，将N从24扩展到96带来的额外计算代价相当有限。

六、数学保证：为什么方案在理论上成立

研究团队不仅做了实验验证，还从数学角度严格证明了Sol-RL方案的正确性。

首先，他们证明了FP4量化对奖励分数的影响是有界的。FP4产生的噪声会让最终图像略有偏移，但这个偏移量受到一个固定常数的约束，这个常数完全由FP4的精度格式和去噪步数决定，与候选池大小N无关。

其次，对于筛选出的最好和最差候选，其真实奖励分差（即学习信号的强度）满足：真实分差 ≥ BF16暴力方案的分差 - 4Δ。也就是说，FP4筛选方案最坏情况下，只是把学习信号减弱了一个固定常数。

但关键在于：当候选池大小N增大时，BF16暴力方案的期望分差会以约2σ√(2logN)的速度增长。这个增长是无界的，而4Δ这个损失是固定不变的。因此，只要N足够大，FP4方案保留的学习信号不仅不会消失，反而会越来越强。这在数学上严格保证了：候选池越大，FP4方案的效果越接近理想的BF16方案。Sol-RL在N=96下运行，正是让这一理论保证得到了实践验证。

七、视觉对比：微调后的图像好在哪里

研究团队提供了大量对比图像，直观展示了Sol-RL微调前后的视觉差异。

以SANA模型为例，经过Sol-RL在多个奖励指标联合微调后，模型在处理复杂场景时表现明显提升。例如“一只梵高风格的霸王龙在巴黎”这个提示词，微调后的图像构图更合理，梵高的笔触风格也更鲜明。对于需要渲染文字的场景，微调后的模型在文字清晰度和艺术感方面都有显著改善。

与FlowGRPO和DiffusionNFT相比，Sol-RL生成的图像在语义契合度、细节丰富度和整体艺术风格一致性方面都表现出优势。比如同一个“章鱼同时演奏八种乐器”的提示词，Sol-RL的版本在乐器数量和章鱼姿态的准确性上都更贴近描述。

说到底，Sol-RL解开了一个长期困扰AI绘画训练领域的死结：更多候选图片能带来更好的训练效果，但生成更多候选图片的代价太高。研究团队的破局方式出奇地优雅——不是压缩训练质量，也不是寻找更好的算法，而是发现了“FP4版本虽然画得不够精细，但对‘谁好谁差’的判断力和BF16几乎一样准”这个关键事实，进而把“探索”和“学习”彻底分开，让FP4负责大范围侦察，让BF16专注精准出击。

这项研究对普通用户的影响在于，未来使用的AI绘图工具会在更短时间内被调教得更符合人类审美，而这发生在模型开发阶段，无需终端用户额外操作。对AI研究社区而言，Sol-RL所展示的“解耦探索与优化”思路，或许可以迁移到语言模型、视频生成等更广泛的强化学习后训练场景。

一个值得继续思考的问题是：当FP4的精度损失足够小、候选池足够大时，是否存在某种理论上的极限，使得进一步扩大候选池带来的收益开始递减？研究团队的实验在N=96处停止，但根据其理论分析，收益应该还在持续上升。下一代硬件的更强FP4算力，或许会让N=256、甚至N=1024的探索变得触手可及。

Q&A

Q1：Sol-RL框架中的FP4量化到底是什么，和普通的图像压缩有什么区别？

A：FP4量化是一种针对神经网络权重和计算过程的数值精度压缩技术，用4位浮点数代替原来的16位浮点数来表示数值，理论上计算吞吐量可达原来的4倍。与普通图像压缩不同，FP4量化作用于模型的计算过程本身，而非最终图像。它的影响是让生成过程更快但结果略有偏差。Sol-RL的创新在于只用FP4做候选筛选，而不用FP4做最终训练，从而避免了精度损失影响模型学习质量。

Q2：Sol-RL的训练加速4.64倍是指什么意思，对实际使用AI绘画工具有影响吗？

A：这个加速倍数是指：达到同等图像质量水平所需要的GPU计算时间，Sol-RL只需要原来方案的约五分之一。对于模型开发方，这意味着训练一个对齐人类审美的大模型，原本可能需要100小时的GPU时间，现在只需约22小时，大幅降低了研发成本。对普通用户来说，直接体验是更快地用上质量更好的AI绘画工具，同时开发者也有更多资源去测试不同的美学偏好方向。

Q3：DiffusionNFT和Sol-RL的主要差别是什么，Sol-RL是完全替代它还是在它基础上改进？

A：DiffusionNFT是一种现有的扩散模型强化学习训练方法。Sol-RL在训练优化阶段仍然沿用DiffusionNFT的学习目标，因此可以理解为Sol-RL是在DiffusionNFT的基础上，增加了一个高效的两阶段候选筛选流程。Sol-RL的核心创新不在于改变“如何更新模型参数”，而在于改变“从哪些样本中学习”以及“如何高效找到这些样本”，两者是互补关系而非替代关系。

来源:https://www.techwalker.com/2026/0416/3184200.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：北京大学研究揭示AI过度思考导致行为失真原因下一篇：埃因霍温理工大学R3PM-Net：工业机器人3D视觉识别更快更准