当前位置: 首页 > AI > 文章内容页

腾讯混元SRPO技术:优化大模型生图效果,告别油腻画风

时间:2025-09-18    作者:游乐小编    

腾讯合集腾讯文章合集

9月17日最新消息,腾讯混元团队通过官方公众号宣布,其图像生成研究小组在9月10日推出了一项突破性技术SRPO。这项研究成果针对开源文生图模型Flux常见的"油脂感过重"问题,提出了一套创新性的强化学习算法,成功将人像生成的逼真度提升了300%。

数据显示,该研究成果一经发布便迅速登上Hugging Face热门榜单第一名,社区量化版本下载量突破2.5万次,Github收藏数超过700颗星。

目前Flux是开源文生图领域应用最广泛的基础模型。针对Flux.dev.1版本产生的"皮肤质感失真"问题,SRPO(全称语义相对偏好优化)通过在线奖励偏好调节和生成轨迹优化两大核心技术实现了突破性进展。

腾讯混元图像优化研究SRPO技术细节

据介绍,这项由腾讯混元携手香港中文大学(深圳)和清华大学联合开发的技术,创新性地采用了语义偏好驱动的奖励模型在线调节机制。具体而言,研究人员通过在奖励模型中添加"真实感"等特定调控提示词,实现了对优化目标的精准引导。实验证明这些控制词能显著增强模型在特定维度的表现。

语义偏好优化技术

研究发现,单纯的语义引导容易产生奖励诱导偏颇现象。为此团队开创性地提出"语义相对偏好优化"策略:同时采用正负向引导词作为信号输入,利用负梯度抵消奖励模型的通用性偏差,同时保留特定维度上的准确优化能力。

值得注意的是,传统方法如ReFL和DRaFT通常仅优化生成过程的后半段,这会导致奖励模型过度拟合高频信息。具体表现为:HPSv2偏好红色调图像,PickScore倾向紫色,而ImageReward则会给过曝光区域过高评分。

针对这一痛点,研究团队开发了Direct-Align技术,通过对输入图像进行可控噪声注入,再利用单步推理以预置噪声为"参考锚点"实现图像重建。这一创新方法大幅降低了重建误差,使得奖励信号传导更加精确,从而实现对全生成过程的优化。

Direct-Align技术示意图

实验数据表明,SRPO展现出惊人的训练效率,仅需10分钟训练就能全面超越DanceGRPO的表现。

SRPO性能对比
▲ 与主流方法DanceGRPO相比,SRPO有效避免了诱导偏颇现象,显著提升了图像真实度
色彩优化效果
▲ 在各种主流奖励模型上都未出现色彩偏差或过饱和等问题

定量评估显示,SRPO多项指标达到业界顶尖水平,人类评估的真实感和美学评分提升超过300%,训练时间较DanceGRPO缩短98.7%。

性能指标对比训练效率对比

相关资源:

论文题目: 基于精细人类偏好的全扩散轨迹直接对齐

论文链接:https://arxiv.org/abs/2509.06942

项目主页:https://tencent.github.io/srpo-project-page/

GitHub:https://github.com/Tencent-Hunyuan/SRPO

热门推荐

更多

热门文章

更多

首页  返回顶部

本站所有软件都由网友上传,如有侵犯您的版权,请发邮件youleyoucom@outlook.com