首页 游戏 软件 资讯 排行榜 专题
首页
AI
英伟达港大MIT联手推出AI绘画训练提速464倍侦察兵策略

英伟达港大MIT联手推出AI绘画训练提速464倍侦察兵策略

热心网友
25
转载
2026-05-15

2026年4月8日,一项由英伟达、香港大学与麻省理工学院联合完成的研究在arXiv平台发布,论文编号arXiv:2604.06916。这项研究直指AI绘画领域一个日益紧迫的痛点:如何让庞大的图像生成模型,在“学习人类审美偏好”这件事上,既学得好,又学得快?

英伟达、港大与MIT联手:让AI绘画训练提速4.64倍的

要理解这项研究的价值,得先从AI绘画模型为何需要“学习”说起。如今我们熟知的FLUX.1、SANA、Stable Diffusion 3.5等模型,虽然能根据文字生成惊艳的图像,但它们并不天然懂得人类喜欢什么。于是,研究人员引入了“强化学习”机制——让模型不断生成图片,获得人类反馈的评分,再根据评分改进,就像一个不断练习、不断接受评委打分的画手。

这套机制有个核心环节:每次练习,模型不是只画一张图,而是生成一大批(比如96张),然后从中挑出最好和最差的来重点学习。因为对比越强烈,模型收到的“这样画对、那样画错”的信号就越清晰。但问题随之而来:生成96张图再筛选,意味着大量计算资源被浪费在了那些最终被丢弃的“中等生”身上。对于动辄上百亿参数的大模型,这种浪费相当可观。

正是针对这一瓶颈,研究团队提出了名为Sol-RL(Speed-of-Light RL,光速强化学习)的两阶段训练框架。它巧妙地利用了英伟达最新Blackwell架构GPU支持的FP4超低精度计算能力,在不牺牲最终训练质量的前提下,将整体训练速度最高提升了4.64倍。

一、效率困境:“画更多草稿”的逻辑与代价

强化学习的逻辑,有点像培训班里的选拔机制。教练从一批学生作品中挑出最好和最差的让大家对比学习,直觉上,参与的人越多、作品越多样,对比学习的效果就越好——因为更容易找到真正的“天花板”和“地板”。

AI绘画的强化学习同理。研究验证了一个规律:当每次生成的候选图片数量(即“候选池”规模)扩大时,筛选出的最好与最差图片之间的差距会拉大,给模型的学习信号也越强。统计上,这个差距的期望值大约随候选样本数N的对数平方根增长。也就是说,候选池越大,极端样本越极端,学习效果越好。

然而,扩大候选池的代价是直接的:你必须先把所有图都完整画出来,才能评分筛选。对于FLUX.1这样的120亿参数模型,生成96张图的时间远远超过了后续真正用于“学习”的时间。实验数据显示,对于SD3.5-Large模型,生成96张候选图需要451秒,而后续的模型参数更新只需240秒。训练的瓶颈不再是“学”,而是“画草稿”。

一个自然的想法是:用低精度计算来加速“画草稿”。英伟达Blackwell GPU的FP4计算吞吐量是标准BF16的4倍。但问题在于,FP4精度极低,生成的图像在像素细节上存在偏差。如果直接拿这些“模糊草稿”让模型学习,模型反而会去模仿失真图像,导致训练效果下降甚至不稳定。这就像让学生临摹一张打了马赛克的名画,技术没提升,审美可能还被带偏了。

二、关键突破口:低精度草图的“排名”依然可靠

正是在这个两难困境中,研究团队找到了关键突破口:FP4生成的图像虽然在像素细节上与高精度版本有差异,但它们所反映的“哪张图更好、哪张图更差”的相对排名,却与高精度版本高度一致。

这背后有一个深刻的道理。在AI图像生成中,最终图片的大致内容和质量,很大程度上由最初随机生成的“噪声种子”决定。同一个噪声种子,无论用高精度还是低精度“绘制”,最终图像在语义层面——比如主题、构图、与文字描述的契合度——会保持相当一致。FP4只是在局部细节上引入微小偏差,就像同一张底片,高质量和低质量冲印的内容一致,只是清晰度不同。

研究团队通过大量实验严格验证了这一点。他们测量了FP4与BF16生成样本在奖励分数排名上的一致性,使用了肯德尔τ系数和斯皮尔曼ρ系数两种统计指标。结果相当惊人:平均斯皮尔曼ρ达到0.927,平均肯德尔τ达到0.798,远超“高度一致”的判断阈值。更重要的是,在筛选“前12名”和“后12名”这个核心任务上,FP4的命中率超过96%。这意味着,用FP4版本判断出的最好和最差样本,96%以上与用BF16判断的结果吻合。

这个发现好比:你不需要把每幅候选画都用最昂贵的材料精心完成,只需要快速勾勒96张铅笔草图,就能准确判断哪些构图最好、哪些最差。真正需要精心完成的,只有最终入选的那24张。

三、Sol-RL方案:侦察兵与精锐部队的分工

基于上述发现,Sol-RL构建了一个精妙的两阶段流程,可以形象地比喻为“侦察兵先摸清情报,精锐部队再精准出击”。

第一阶段:FP4加速探索。 在每一轮训练迭代中,系统首先随机生成96个不同的噪声种子,然后用FP4量化后的模型、以极少的去噪步数(只需6步,而非标准的10步)迅速生成96张“草图”。这些草图被奖励模型打分并排序。整个过程因FP4的超高吞吐量和减少的步数而极快,对于SD3.5-Large模型只需约125秒(相比BF16的451秒)。完成后,系统记录下得分最高和最低的各12个噪声种子,共24个。

第二阶段:BF16高保真再生成。 系统拿着第一阶段筛选出的24个噪声种子,切换回完整的BF16高精度模式,用完整的10步去噪过程,重新生成这24张图像。由于噪声种子没变,这24张高精度图像在语义上与FP4版本高度一致,但细节毫无损失。随后,模型的参数就在这24张高保真图像上进行更新学习。

整个迭代完成后,模型的新权重会被立刻重新量化为FP4格式,同步回推理引擎,为下一轮迭代做准备。这个重新量化的过程几乎无额外开销,保证了流程的连贯性。

以SD3.5-Large为例,对比时间开销:传统的BF16全量候选池方案(96张图全用BF16生成)需要451秒生成加240秒训练,合计691秒每轮。Sol-RL方案只需125秒用于FP4探索、62秒用于BF16再生成、240秒用于训练,合计约427秒每轮,整体加速1.61倍。而在“达到同样奖励水平所需的总时间”这个更关键的指标上,由于Sol-RL能高效利用大候选池带来的更强学习信号,收敛速度大幅提升,最终实现了高达4.64倍的训练加速。

四、实验验证:全面领先主流基线方法

研究团队在SANA(16亿参数)、FLUX.1(约120亿参数)和Stable Diffusion 3.5-Large三款主流模型上进行了完整验证,使用了ImageReward、CLIPScore、PickScore和HPSv2四种衡量图像质量和人类偏好的评分标准。所有实验均在8块英伟达B200 GPU上进行。

在最核心的对比实验中,Sol-RL与DanceGRPO、FlowGRPO、AWM和DiffusionNFT四种主流基线方法在同等GPU时间预算下进行比较。以FLUX.1模型为例,Sol-RL在ImageReward上得到1.7636分,比排名第二的DiffusionNFT(1.6707分)高出约5.5%;在CLIPScore、PickScore和HPSv2上均位列第一。

更直观的是训练收敛曲线的对比。以DiffusionNFT为基准,Sol-RL在所有九种“模型×评分指标”组合中,都能以更少的GPU时间达到DiffusionNFT的最终性能水平,提速范围从1.91倍到4.64倍不等。而且,Sol-RL最终能达到的性能上限也显著更高。

研究团队还验证了Sol-RL与“暴力BF16扩大候选池”方案之间的保真度。结果显示,在相同训练步数下,Sol-RL与暴力BF16方案的HPSv2得分差异极小:在FLUX.1上仅差0.29%,在SANA上Sol-RL甚至还高出0.11%。这证明Sol-RL确实做到了“用FP4探索的效率,实现BF16训练的质量”。

五、参数调优:探索步数与候选池大小的平衡

研究团队细致探究了两个关键参数对Sol-RL效果的影响,为实际应用提供了具体建议。

首先是FP4探索阶段使用的去噪步数。 测试了2步、4步、6步、8步四种设置。结果显示,仅用2步时,图像语义内容尚未充分成形,草图太粗糙,导致排名判断不准,最终HPSv2得分较低。增加到4步时改善明显。6步是一个甜蜜点,得分达到最高。继续增加到8步,得分反而略微下降,说明6步已足够让语义信息稳定,更多步数只会增加计算开销而无额外收益。

其次是FP4探索的候选池大小N。 测试了N=24、48、72、96四种设置,同时保持最终用于训练的样本数K固定在24。结果呈现清晰的单调递增趋势:N=24时效果最弱,N=96时效果最佳。这验证了理论分析:候选池越大,极端样本越极端,学习信号越强。而得益于FP4的高效率,将N从24扩展到96带来的额外计算代价相当有限。

六、数学保证:为什么方案在理论上成立

研究团队不仅做了实验验证,还从数学角度严格证明了Sol-RL方案的正确性。

首先,他们证明了FP4量化对奖励分数的影响是有界的。FP4产生的噪声会让最终图像略有偏移,但这个偏移量受到一个固定常数的约束,这个常数完全由FP4的精度格式和去噪步数决定,与候选池大小N无关。

其次,对于筛选出的最好和最差候选,其真实奖励分差(即学习信号的强度)满足:真实分差 ≥ BF16暴力方案的分差 - 4Δ。也就是说,FP4筛选方案最坏情况下,只是把学习信号减弱了一个固定常数。

但关键在于:当候选池大小N增大时,BF16暴力方案的期望分差会以约2σ√(2logN)的速度增长。这个增长是无界的,而4Δ这个损失是固定不变的。因此,只要N足够大,FP4方案保留的学习信号不仅不会消失,反而会越来越强。这在数学上严格保证了:候选池越大,FP4方案的效果越接近理想的BF16方案。Sol-RL在N=96下运行,正是让这一理论保证得到了实践验证。

七、视觉对比:微调后的图像好在哪里

研究团队提供了大量对比图像,直观展示了Sol-RL微调前后的视觉差异。

以SANA模型为例,经过Sol-RL在多个奖励指标联合微调后,模型在处理复杂场景时表现明显提升。例如“一只梵高风格的霸王龙在巴黎”这个提示词,微调后的图像构图更合理,梵高的笔触风格也更鲜明。对于需要渲染文字的场景,微调后的模型在文字清晰度和艺术感方面都有显著改善。

与FlowGRPO和DiffusionNFT相比,Sol-RL生成的图像在语义契合度、细节丰富度和整体艺术风格一致性方面都表现出优势。比如同一个“章鱼同时演奏八种乐器”的提示词,Sol-RL的版本在乐器数量和章鱼姿态的准确性上都更贴近描述。

说到底,Sol-RL解开了一个长期困扰AI绘画训练领域的死结:更多候选图片能带来更好的训练效果,但生成更多候选图片的代价太高。研究团队的破局方式出奇地优雅——不是压缩训练质量,也不是寻找更好的算法,而是发现了“FP4版本虽然画得不够精细,但对‘谁好谁差’的判断力和BF16几乎一样准”这个关键事实,进而把“探索”和“学习”彻底分开,让FP4负责大范围侦察,让BF16专注精准出击。

这项研究对普通用户的影响在于,未来使用的AI绘图工具会在更短时间内被调教得更符合人类审美,而这发生在模型开发阶段,无需终端用户额外操作。对AI研究社区而言,Sol-RL所展示的“解耦探索与优化”思路,或许可以迁移到语言模型、视频生成等更广泛的强化学习后训练场景。

一个值得继续思考的问题是:当FP4的精度损失足够小、候选池足够大时,是否存在某种理论上的极限,使得进一步扩大候选池带来的收益开始递减?研究团队的实验在N=96处停止,但根据其理论分析,收益应该还在持续上升。下一代硬件的更强FP4算力,或许会让N=256、甚至N=1024的探索变得触手可及。

Q&A

Q1:Sol-RL框架中的FP4量化到底是什么,和普通的图像压缩有什么区别?

A:FP4量化是一种针对神经网络权重和计算过程的数值精度压缩技术,用4位浮点数代替原来的16位浮点数来表示数值,理论上计算吞吐量可达原来的4倍。与普通图像压缩不同,FP4量化作用于模型的计算过程本身,而非最终图像。它的影响是让生成过程更快但结果略有偏差。Sol-RL的创新在于只用FP4做候选筛选,而不用FP4做最终训练,从而避免了精度损失影响模型学习质量。

Q2:Sol-RL的训练加速4.64倍是指什么意思,对实际使用AI绘画工具有影响吗?

A:这个加速倍数是指:达到同等图像质量水平所需要的GPU计算时间,Sol-RL只需要原来方案的约五分之一。对于模型开发方,这意味着训练一个对齐人类审美的大模型,原本可能需要100小时的GPU时间,现在只需约22小时,大幅降低了研发成本。对普通用户来说,直接体验是更快地用上质量更好的AI绘画工具,同时开发者也有更多资源去测试不同的美学偏好方向。

Q3:DiffusionNFT和Sol-RL的主要差别是什么,Sol-RL是完全替代它还是在它基础上改进?

A:DiffusionNFT是一种现有的扩散模型强化学习训练方法。Sol-RL在训练优化阶段仍然沿用DiffusionNFT的学习目标,因此可以理解为Sol-RL是在DiffusionNFT的基础上,增加了一个高效的两阶段候选筛选流程。Sol-RL的核心创新不在于改变“如何更新模型参数”,而在于改变“从哪些样本中学习”以及“如何高效找到这些样本”,两者是互补关系而非替代关系。

来源:https://www.techwalker.com/2026/0416/3184200.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

英伟达高管称AI成本高于人力 为何企业裁员仍在继续
科技数码
英伟达高管称AI成本高于人力 为何企业裁员仍在继续

当前企业热衷用AI替代人力并因此裁员,但英伟达和Uber高管指出AI运行成本远超人力,研究也显示多数场景人工更优且成本更低。然而,企业仍坚定推进AI替代,看重其全天候运行能力,并加速用AI生成代码、削减岗位。这场成本与效率的博弈仍在持续。

热心网友
05.14
英伟达颠覆性成果重新定义RAG外部检索必要性
AI
英伟达颠覆性成果重新定义RAG外部检索必要性

说到RAG(检索增强生成),大家可能已经习惯了它的标准工作流程:先用一个检索模型从海量文档里捞出一批“相关”内容,再交给大语言模型去消化、生成答案。这个流程看似顺畅,但其实一直埋着一个根本性的问题,只是我们习以为常了。 这个问题就是:检索器和生成器,其实是在两个完全不同的“世界”里工作。 检索器,无

热心网友
05.14
英伟达市值超德国GDP 解析其中国投资布局与战略
科技数码
英伟达市值超德国GDP 解析其中国投资布局与战略

五月中旬,英伟达市值突破5 5万亿美元,超越德国2025年名义GDP,成为全球首家市值超过单一发达经济体的上市公司。这反映了人工智能浪潮带来的巨大能量重构。英伟达自2004年起在中国设立多家公司,已构建完整的业务网络。市值里程碑背后,是AI算力赛道价值获得空前认可的缩影。

热心网友
05.14
英伟达CEO称旧款GPU因AI需求涨价,算力供需失衡加剧
iphone
英伟达CEO称旧款GPU因AI需求涨价,算力供需失衡加剧

在AI需求爆发的背景下,GPU市场出现供需严重失衡。英伟达CEO黄仁勋将旧款GPU价格持续上涨的现象比喻为“好酒效应”,指出其升值速度甚至超过葡萄酒陈化。核心原因在于全球AI业务对算力的巨大需求,使得数据中心极度依赖GPU。这种需求从上游芯片制造到下游云服务贯穿整个产业链,导致包括四五年前旧型号在内

热心网友
05.14
谷歌与英伟达谁将问鼎全球市值第一
科技数码
谷歌与英伟达谁将问鼎全球市值第一

来源:环球时报 【环球时报特约记者 甄翔】资本市场近日上演了一场引人注目的“王座”争夺战。谷歌母公司Alphabet在美股盘后交易时段,市值一度超越英伟达,这意味着它在阔别大约十年后,短暂地重返了全球市值冠军的宝座。回顾过去一年,Alphabet的股价表现堪称惊艳,累计飙升了160%。截至上周五收盘

热心网友
05.13

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

领克GT概念跑车北京车展首发 百公里加速仅2秒
科技数码
领克GT概念跑车北京车展首发 百公里加速仅2秒

领克首款GT概念跑车亮相北京车展,由中欧团队联合打造。新车采用经典GT比例与低趴宽体设计,配备液态金属蓝涂装与2+2座舱,设有高性能模式按键可激活空气动力学套件。车辆采用后驱布局与AI智能运动控制系统,百公里加速约2秒,设计融合瑞典极简美学并参考全球用户反馈。

热心网友
05.14
英伟达RTX 5070移动版GPU发布 12GB显存性能大幅提升
科技数码
英伟达RTX 5070移动版GPU发布 12GB显存性能大幅提升

英伟达推出12GB显存版RTX5070移动GPU,与8GB版同步上市。两者均基于Blackwell架构,核心规格相同,仅显存容量不同。此举旨在缓解GDDR7芯片供应压力,为OEM提供灵活配置,加速笔记本产品布局,更大显存可更好满足游戏与AI应用需求。

热心网友
05.14
微星新款雾面WOLED显示器MAG 276QRY28与276QRDY54正式发售
科技数码
微星新款雾面WOLED显示器MAG 276QRY28与276QRDY54正式发售

微星将于5月15日推出两款26 5英寸雾面WOLED显示器MAG276QRY28和276QRDY54,售价分别为2499元和6299元。均采用第四代WOLED面板,具备QHD分辨率、VESADisplayHDRTrueBlack500认证、1500尼特峰值亮度及99 5%DCI-P3色域覆盖。276QRY28刷新率为280Hz,高阶款276QRDY54支持4

热心网友
05.14
中芯国际一季度净利润13.61亿元 同比增长0.4%
科技数码
中芯国际一季度净利润13.61亿元 同比增长0.4%

中芯国际2026年第一季度营收176 17亿元,同比增长8 1%;净利润13 61亿元,同比增长0 4%。公司预计第二季度收入环比增长14%至16%,毛利率指引上调至20%至22%。这反映出公司在行业复苏中展现出财务韧性,并通过运营优化增强了短期增长势头。

热心网友
05.14
AI图像处理训练数据存在色差问题 16种算法经小改动全面提升
AI
AI图像处理训练数据存在色差问题 16种算法经小改动全面提升

手机修图、相机降噪、视频去雾……这些我们日常使用的图像处理功能,其背后都离不开人工智能(AI)技术的驱动。通常,AI模型的训练逻辑是:向模型展示大量“低质图像”与“优质图像”的配对数据,让它学习如何将前者转化为后者。然而,天津大学计算机视觉团队近期发表的一项研究(arXiv:2604 08172)揭

热心网友
05.14