首页 游戏 软件 资讯 排行榜 专题
首页
AI
视觉生成模型对齐新方法TGO无需偏好对仅用标量反馈

视觉生成模型对齐新方法TGO无需偏好对仅用标量反馈

热心网友
54
转载
2026-05-18

生成模型的偏好对齐,可能正在进入一个新的阶段。

过去几年,大模型后训练最主流的方法,无论是RLHF还是DPO,都绕不开一个核心前提:反馈必须成对出现。但在真实的应用场景里,情况往往并非如此——我们更常拿到的是单个样本的标量分数,比如一个审美评分、一个对齐分数,或者一次用户点击。

为此,新加坡国立大学的研究团队提出了一种更直接的解法:Threshold-Guided Optimization (TGO)。这是一种不依赖成对偏好数据,直接利用独立样本标量评分进行模型对齐的新范式。目前,这项研究已被ICML 2026接收。

图片

它的核心思路很直观:从分数分布中估计一个阈值(例如中位数),高于阈值的样本被视为“伪正例”,低于阈值的则被视为“伪负例”。训练时,模型的任务是提高“伪正例”相对于参考模型的生成概率,同时降低“伪负例”的概率。更重要的是,样本分数离阈值越远,说明监督信号越确定,其在训练中的权重也就越大。

简单说,TGO让生成模型的对齐不再只依赖“哪个更好”的比较,而是开始直接利用“这个有多好”的绝对反馈。

DPO的优雅,来自成对数据

DPO能成为偏好优化的代表方法,关键在于它将复杂的KL正则化强化学习目标,改写成了一个可直接训练的分类目标。它不需要显式训练奖励模型,也无需在线采样,只要有离线的偏好对数据,就能完成策略拟合。

其背后的数学结构很清晰:在KL正则化的对齐目标下,最优策略有一个闭式解,但其中包含一个难以计算的对所有可能输出的求和项(即配分函数)。DPO的巧妙之处在于,当在同一提示词下比较“优选”输出和“被拒”输出时,这个难算的配分函数会在奖励差值中相互抵消。

也就是说,DPO的简洁性很大程度上源于成对偏好数据本身。两个输出一比较,难题就消失了,问题转化为了一个相对概率的分类问题。

但这个优势也反过来限制了它的适用范围。一旦监督信号不再是成对的,而是单个样本的标量分数,原来依靠“两两相减”来抵消配分函数的方法就不再直接适用。

实践中常见的变通方法是把标量分数转化为偏好对,例如在一个批次内排序,或将同一提示下的多个候选结果进行两两比较。这种做法虽然可行,却带来了信息损失。一个9.5分的样本和一个7.5分的样本,在成对训练中可能都被视为“胜者”;而两个分数极为接近(如4.9分和4.8分)的样本,被强行拆分为“胜者/败者”对,在评分噪声较大时,这种人为构造的偏好对可能并不可靠,甚至可能放大错误的监督信号。

对于视觉生成任务,这个问题尤为突出。图像和视频的质量很少是简单的二元判断。一张图可能审美出众但文本对齐稍弱,也可能构图精准但风格欠佳。视频还需考量运动是否自然、主体是否稳定、时间是否连贯。很多时候,一个连续的分数比一个简单的“胜/负”标签更能反映真实的反馈。

三条路线,都在放松成对约束

实际上,TGO并非孤立出现。近期领域内的几项工作都在回应同一个核心问题:偏好优化能否摆脱对成对偏好的强依赖?

PMPO

例如,Google DeepMind在《Preference Optimization as Probabilistic Inference》一文中提出,模型学习偏好并不一定需要严格配对的样本。只要有正例样本或负例样本,甚至只有其中一种反馈,也可以进行优化。该方法基于EM风格的策略改进,目标由三部分组成:提高正例样本的似然、降低负例样本的似然,同时保持新策略接近参考策略。这使得反馈结构更加灵活,更贴合现实任务中数据分布不平衡、反馈不成对的常态。

图片

图片

QRPO

另一篇论文《Quantile Reward Policy Optimization》则试图解决点式绝对奖励下的策略拟合问题。其核心挑战依然是那个难算的配分函数。QRPO的解决方案是将原始奖励转换为分位数奖励。这样一来,在参考策略下,分位数奖励的分布会变成均匀分布,从而使配分函数有了解析形式。模型因此可以通过一个简单的点式回归目标来直接拟合最优策略,而无需依赖成对比较来抵消归一化项。

图片

TGO

而本文介绍的TGO,回答的是同一问题的另一个切面。PMPO关注未配对的正负反馈,QRPO关注点式绝对奖励的可解析策略拟合,TGO则面向视觉生成模型,选择了一个更轻量级的阈值方案。

图片

三者的共同点在于,它们都在尝试将偏好优化从“必须有配对数据”这一前提中解放出来。

TGO的核心:用阈值近似基线

TGO的方法看似简单,但并非随意设定一个阈值做二分类。其背后的推导源于KL正则化对齐目标。理论上,对于一个给定样本,最优策略是提高还是降低其概率,取决于其奖励是否超过某个与实例相关的“神谕”基线。但这个基线与配分函数相关,通常无法计算。

DPO通过成对比较使其抵消;QRPO通过分位数变换使其可解析;TGO则选择用一个数据驱动的全局阈值来近似它。

图片

具体操作上,TGO首先从带分数数据集的分布中估计一个阈值(常用中位数)。随后,所有分数高于阈值的样本被视为“伪正例”,低于阈值的被视为“伪负例”。训练时,模型学习调整其相对于参考模型的对数似然比:对伪正例提高,对伪负例降低。

更进一步,TGO引入了置信度加权。样本分数离阈值越远,意味着将其判为正例或负例的置信度越高,该样本对训练的贡献权重也越大。分数接近阈值的样本则较为模糊,权重相应降低。

这样一来,TGO并未完全丢弃标量分数的幅度信息,而是将分数大小转化为了监督信号的强度。其规则可概括为两层:阈值决定更新方向,距离决定更新力度。这与普通的二值化标签不同,后者只保留正负信息,而TGO的置信度加权继续利用了分数偏离阈值的程度。对于视觉生成这类评分噪声较大、质量分布连续的任务,这一点尤为重要。

当然,TGO并不能消除对反馈质量本身的依赖。标量分数仍需与目标偏好足够相关;如果打分器本身存在偏差或噪声较大,阈值产生的伪标签也会继承这些偏差。因此,TGO解决的是如何更直接地利用标量反馈,而非替代反馈建模本身。

为什么视觉生成尤其适合标量反馈

在语言模型中,成对偏好很自然。人类比较两个回答哪个更好,往往比直接打分更稳定。但在视觉生成领域,情况有所不同。

一张图像的好坏,通常无法用简单的“胜过另一张”来概括。它可能在审美上出众,但提示词对齐稍弱;也可能语义准确,但构图平庸。此外,风格、色调、人物姿态、背景复杂度等偏好因素也更为主观。这些多维度的考量,更适合表达为一个连续分数或多个维度的评分。

视频生成则更为复杂。评估视频不仅要看单帧质量,还需考量运动合理性、时间一致性、主体稳定性、镜头变化以及文本对齐。将这些复杂的信号强行压缩成一个简单的成对偏好,往往会损失大量细节信息。

真实产品环境中的用户反馈也更接近标量或隐式反馈,例如点赞、收藏、点击、停留时长、评分,或对生成结果进行二次编辑。这些信号并非天然成对,却是模型迭代改进的宝贵数据来源。如果对齐方法只能处理“胜者/败者”标签,便很难充分利用这类反馈。

TGO瞄准的正是这一缺口。它不要求每个提示词下都有多个候选结果,也无需人工构造偏好对。只要每个样本有一个分数,就可以投入训练。这使得视觉生成模型的对齐过程,能够更贴近真实世界反馈的收集方式。

从图像到视频:TGO在多种视觉生成范式上验证

该研究的实验覆盖了两类主流的视觉生成范式:基于扩散的模型和基于掩码的生成模型。前者包括Stable Diffusion v1.5、FLUX、Wan 1.3B等,后者则包括Meissonic这类掩码生成式Transformer。这表明TGO并非只适配特定架构,而更像是一种通用的标量反馈对齐框架。

在图像生成实验中,研究者在Pick-a-Pic、PartiPrompts和HPSv2等多个测试集上评估TGO,并使用HPSv2.1、PickScore、ImageReward、CLIPScore、LAION审美评分等多个奖励模型作为评价指标。

图片

结果显示,与SFT、CSFT、AlignProp、Diffusion-DPO、Diffusion-KTO、DSPO等方法相比,TGO在多种设置下都能取得更高的奖励模型分数。更重要的是,TGO在多个不同的奖励模型上均有提升,这说明它并非简单地“刷高”某一个特定打分器,而是在更广泛的视觉偏好维度上带来了真实的改进,缓解了“奖励黑客”的担忧。

图片

在视频生成方面,基于LoRA的TGO-LoRA被应用于Wan 1.3B模型并结合VideoReward进行评估。结果表明,它不仅提升了整体的VideoReward分数,也改善了多个组件指标。这证明这种基于阈值的标量反馈对齐方法,有潜力从图像生成扩展到更复杂的视频生成任务。

不是替代DPO,而是补上另一种反馈接口

需要明确的是,TGO并非要否定DPO。成对偏好仍然非常重要,在许多任务中它依然是最稳定、最直观的反馈形式。尤其是当人类难以给出绝对分数,但能明确比较两个结果的优劣时,成对偏好具有不可替代的实用价值。

但问题在于,成对偏好不应该是唯一的接口。

随着生成模型深入更多真实应用场景,现实中的反馈并不会总是以“优选/被拒”配对的形式出现。语言模型会有奖励模型分数、可验证奖励、数学验证结果、代码通过率;图像模型会有审美分数、图文对齐分数、人类评分;视频模型涉及运动质量、时间一致性;多模态系统还会有点击、收藏、停留、编辑等用户行为信号。这些反馈大多是点式的,它们不告诉模型“这个比那个好”,而是告诉模型“这个结果本身有多好”。如果对齐方法只能处理比较数据,就会错过大量自然存在的监督信号。

PMPO、QRPO和TGO的共同意义,正在于将偏好优化从成对监督扩展到更一般的反馈优化。PMPO展示了未配对的正负反馈如何被纳入概率推断式的策略改进;QRPO证明了绝对奖励如何通过分位数奖励进入可解析的策略拟合;TGO则说明,在视觉生成中,一个经验阈值加上置信度权重,就足以将标量分数转化为有效的对齐信号。

为什么这件事现在值得认真对待?因为生成模型越贴近产品,反馈形态就越复杂。早期的对齐研究可以假设存在干净的偏好对数据,但真实用户不会总是配合系统做A/B测试。更多时候,系统拿到的是一个分数、一次点击、一次收藏或一次修改。这些信号看似零散,却可能构成下一阶段后训练的主要数据来源。

对于视觉生成尤其如此。图像和视频的质量本质上是审美、语义、结构、运动、风格和个体偏好的综合结果。直接从标量反馈中学习,可能比先构造成对偏好更自然,也更容易扩展。

TGO的价值正在于此。它没有将问题复杂化,而是用一种相当克制的方式,将标量反馈接入了KL正则化对齐目标。理论上,它用经验阈值近似了不可计算的神谕基线;工程上,它只需要带分数的样本就能训练;实践上,它能同时覆盖扩散模型和掩码生成模型范式,并在图像和视频任务上带来稳定提升。

这或许是生成模型对齐迈向下一步的关键:模型不能只会从“谁赢了”中学习,也必须学会理解“这个结果到底有多好”。

图片

回顾过去,偏好优化的主流接口是成对比较。这个接口足够清晰,也催生了DPO、GRPO等简洁有效的方法。

但随着生成模型进入更复杂的应用场景,反馈本身正变得日益多样。评分、通过率、奖励模型输出、用户行为日志、编辑操作……这些点式信号将越来越常见。

TGO给出的答案很直接:不一定非要把它们都折叠成“胜者”和“败者”。对于视觉生成模型,只要找到一个合理的阈值,就可以将标量分数转化为更新方向;再利用分数与阈值的距离,来衡量这个监督信号的可信度。

这并不是一个复杂的重型系统,而更像是在把真实反馈中本就存在的信息,以更直接的方式交给模型去学习。

如果说DPO让偏好优化摆脱了复杂的强化学习流程,那么TGO、QRPO和PMPO这类工作,正在让偏好优化进一步摆脱对成对比较的强依赖。生成模型对齐的下一步,或许不只是继续追问“哪个更好”,而是要让模型真正学会评估:“这个,到底有多好。”

来源:https://www.51cto.com/article/843436.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

视觉生成模型对齐新方法TGO无需偏好对仅用标量反馈
AI
视觉生成模型对齐新方法TGO无需偏好对仅用标量反馈

新加坡国立大学团队提出TGO方法,无需依赖成对偏好数据,可直接利用单个样本的标量评分优化视觉生成模型。该方法通过估计分数阈值划分伪正负例,并依分数距离加权训练,在图像与视频生成任务中有效提升性能,为利用真实场景标量反馈提供了新途径。

热心网友
05.18
IP SH城市视觉版权交易系统五年焕新升级
科技数码
IP SH城市视觉版权交易系统五年焕新升级

寻找上海的城市视觉素材,既要新、又要多、还得可靠,有没有一个地方能同时满足这些要求? 最近有个平台做了件挺实在的事。IP SHANGHAI,这个上海的城市形象资源共享平台,为了庆祝上线五周年,对其视觉版权交易系统进行了一次重要升级。核心变化在于,创作者现在可以自主为上传的原创图片和视频设定价格,而使

热心网友
05.12
美剧续作越拍越好的反常识密码
娱乐
美剧续作越拍越好的反常识密码

续集魔咒是 Hollywood 铁律——《Beef》第二季却打破了它 说来有趣,这部口碑不降反升的亚裔复仇剧续作,让观众印象最深的,往往不是那些戏剧性的剧情转折,而是每一集里一闪而过的怪诞画作。这本身,就挺反常的。 正方:视觉符号才是续作的灵魂 通常来说,续集为了维持热度,要么堆砌新角色,要么制造更

热心网友
04.26
港中大突破:单GPU实现对话驱动多镜头好莱坞级视频生成能力提升
科技数码
港中大突破:单GPU实现对话驱动多镜头好莱坞级视频生成能力提升

从单镜头到电影叙事:交互式AI视频生成的技术突破 这项由香港中文大学多媒体实验室、快手科技以及香港创新科技研究院联合开展的研究,已于2026年3月发表在计算机视觉顶级会议上,论文编号为arXiv:2603 25746v1。对技术细节感兴趣的读者,可以通过该编号查阅完整的学术论文。 当前的AI视频生成

热心网友
04.17
原生Steam Link应用登陆苹果Vision Pro头显,支持4K游戏串流
科技数码
原生Steam Link应用登陆苹果Vision Pro头显,支持4K游戏串流

原生Steam Link应用正式登陆苹果Vision Pro,实现4K高清游戏串流体验 游戏玩家们迎来重磅消息。根据知名科技媒体9to5Mac的报道,Valve已正式推出专为visionOS系统开发的原生Steam Link应用测试版。苹果Vision Pro用户现在即可通过TestFlight平台

热心网友
04.14

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

警惕人工智能依赖 避免大脑能力退化
业界动态
警惕人工智能依赖 避免大脑能力退化

科学家警告,过度依赖人工智能可能削弱创造力与批判性思维,类似GPS损害方向感。研究显示,AI替代需“认知摩擦”的思考过程,或导致认知能力衰退。专家建议应有意识使用AI,使其成为思维“扩音器”而非替代品,例如先自主判断、加深信息处理、主动创意构思,以保护并锻炼大脑独特能力。

热心网友
05.18
谷歌阿里微软云端AI决战 云电脑迎来行业新机遇
业界动态
谷歌阿里微软云端AI决战 云电脑迎来行业新机遇

谷歌推出云端AI驱动的安卓电脑,重塑PC形态。当前AIPC多依赖云端算力,本地硬件价值受质疑。云电脑与AI结合成为新方向,对网络延迟更宽容。谷歌联合硬件伙伴推进该方案,阿里等云服务商也已布局。传统芯片、终端厂商及微软、苹果正以不同策略应对AIPC趋势。未来竞争将聚焦云端能力、系统重构与生态协。

热心网友
05.18
企业数字化转型全流程解析:从战略规划到AI智能体落地
业界动态
企业数字化转型全流程解析:从战略规划到AI智能体落地

结论先行:在2026年的商业环境中,企业数字化转型方法的核心不再是单纯的IT系统堆砌,而是“业务流程自动化”与“AI智能化”的深度融合。成功的数字化转型方法论应遵循“小步快跑、场景切入、数据驱动”的原则,利用AI Agent(智能体)技术打通烟囱式系统,实现平滑升级,而非推倒重来。 一、 拒绝假大空

热心网友
05.18
产品设计软件推荐与选择指南
业界动态
产品设计软件推荐与选择指南

面对琳琅满目的产品设计软件,许多设计师和团队都在追问:究竟哪一款才是最好的选择?然而,真正的答案并非一个简单的软件名称,而是一套基于您具体工作流程的适配逻辑。本文将为您系统解析,如何跳出“最好”的迷思,找到最“对”的那款工具,从而最大化团队效率与产出价值。 核心决策逻辑 首先,我们必须确立一个核心原

热心网友
05.18
跨境电商售后难题的智能客服解决方案
业界动态
跨境电商售后难题的智能客服解决方案

跨境电商的售后环节,本质上是客户信任的二次考验。当问题出现时,初次交易建立的信任已然动摇,若处理不当,将直接导致客户永久流失。因此,构建一套真正高效的售后体系,必须实现三大核心目标:响应速度需如本地支付般即时;处理规则需预先设定,实现小额纠纷的自动化化解;最终,所有流程数据必须形成闭环,驱动供应链的

热心网友
05.18