当前位置: 首页 > AI > 文章内容页

那些需要守护的

纸嫁衣4红丝缠

蚊子模拟器2022

寿司制作模拟器

鸡尾酒王子

修仙之百世归来

闹鬼的屋子

建造和生存工艺

大王为何独宠我手机

天天快送

腾讯混元SRPO技术：优化大模型生图效果，告别油腻画风

时间:2025-09-18 作者:游乐小编

9月17日最新消息，腾讯混元团队通过官方公众号宣布，其图像生成研究小组在9月10日推出了一项突破性技术SRPO。这项研究成果针对开源文生图模型Flux常见的"油脂感过重"问题，提出了一套创新性的强化学习算法，成功将人像生成的逼真度提升了300%。

数据显示，该研究成果一经发布便迅速登上Hugging Face热门榜单第一名，社区量化版本下载量突破2.5万次，Github收藏数超过700颗星。

目前Flux是开源文生图领域应用最广泛的基础模型。针对Flux.dev.1版本产生的"皮肤质感失真"问题，SRPO（全称语义相对偏好优化）通过在线奖励偏好调节和生成轨迹优化两大核心技术实现了突破性进展。

据介绍，这项由腾讯混元携手香港中文大学（深圳）和清华大学联合开发的技术，创新性地采用了语义偏好驱动的奖励模型在线调节机制。具体而言，研究人员通过在奖励模型中添加"真实感"等特定调控提示词，实现了对优化目标的精准引导。实验证明这些控制词能显著增强模型在特定维度的表现。

研究发现，单纯的语义引导容易产生奖励诱导偏颇现象。为此团队开创性地提出"语义相对偏好优化"策略：同时采用正负向引导词作为信号输入，利用负梯度抵消奖励模型的通用性偏差，同时保留特定维度上的准确优化能力。

值得注意的是，传统方法如ReFL和DRaFT通常仅优化生成过程的后半段，这会导致奖励模型过度拟合高频信息。具体表现为：HPSv2偏好红色调图像，PickScore倾向紫色，而ImageReward则会给过曝光区域过高评分。

针对这一痛点，研究团队开发了Direct-Align技术，通过对输入图像进行可控噪声注入，再利用单步推理以预置噪声为"参考锚点"实现图像重建。这一创新方法大幅降低了重建误差，使得奖励信号传导更加精确，从而实现对全生成过程的优化。

实验数据表明，SRPO展现出惊人的训练效率，仅需10分钟训练就能全面超越DanceGRPO的表现。

▲ 与主流方法DanceGRPO相比，SRPO有效避免了诱导偏颇现象，显著提升了图像真实度

▲ 在各种主流奖励模型上都未出现色彩偏差或过饱和等问题

定量评估显示，SRPO多项指标达到业界顶尖水平，人类评估的真实感和美学评分提升超过300%，训练时间较DanceGRPO缩短98.7%。

首页