香港科技大学如何让AI学会公平预测避免答案趋同
这项由香港科技大学主导的研究于2026年5月以预印本形式发布,论文编号为arXiv:2605.01402。对技术细节感兴趣的读者可通过该编号在arXiv平台检索并下载完整论文。

设想一下,你正在训练一个AI模型进行人脸年龄估计。你提供了包含一万张照片的数据集,其中八千张是30-40岁的中年人,仅有约两千张是儿童或老年人。经过大量训练后,这个AI很快掌握了一种“高效的捷径”:无论看到何种面孔,都倾向于预测为三四十岁——因为这在大多数情况下都不会错得太离谱。
这种行为在统计学上被称为“向均值回归”。本质上,AI在摸清了数据分布的“主流答案”后,开始机械地向该区间靠拢。对于常见年龄区间的预测,其表现尚可接受;但一旦遇到训练数据中罕见的儿童或老年面孔,AI的预测就会频繁出错,因为它从未认真学过这些“尾部”样本的特征。
这类问题在现实世界的AI应用中普遍存在。无论是医疗领域的骨龄评估、电影评分预测,还是基于图像的年龄估算——凡是需要AI输出连续数值(回归任务)的场景,只要训练数据分布不均,AI就容易患上这种“向主流答案偷懒”的毛病。香港科技大学的研究团队正是针对这一核心痛点,提出了一种名为“CCC-GRPO”的创新训练框架,专门纠正AI的这种预测偏见。
一、AI执行“数值预测”任务的根本挑战
要理解此问题,需先厘清现代多模态大语言模型(MLLM)的基础学习机制。这类模型在训练时,学习的是“预测下一个词元(Token)”——类似于完形填空。当要求其输出数字“27”时,它实际是依次预测字符“2”和“7”。整个过程是基于离散词元的自回归生成,而非将“27”作为一个连续的数值整体来理解和优化。
这就产生了一个根本矛盾:数值本身是连续的,“26”与“27”差异极小,而“27”与“99”则相差甚远。但当AI以字符预测方式学习时,它并不内在地理解这种数值间的距离关系。在它看来,预测正确即得分,差之毫厘也与谬以千里无异。这种模式对文本生成很有效,但对于要求精确数值输出的回归任务而言,无异于用错误的工具处理问题。
更严重的是,当训练数据本身呈现长尾分布(即多数样本集中在少数区间)时,该问题会被急剧放大。AI从头部热门区间获得大量强化信号,而从尾部稀疏区间获得的纠正反馈极少。结果便是,AI越来越擅长预测常见值,却几乎放弃了学习预测罕见值。
现有改进方案各有局限。一些方法试图修改模型架构,例如添加专用的“数值预测头”,但这破坏了模型原有的统一生成能力。另一些方法要求AI先输出推理链再给出答案,虽可能提升准确性,却显著增加了推理耗时。还有一些方法仅在词元级别进行微调,未能触及问题本质。
二、核心理念:从“单点评估”到“批量对比”
研究团队的关键洞见在于:现有训练范式,无论是传统的监督微调(SFT)还是基于强化学习(RL)的改进方法,都采用“单点评估”模式。即,AI对单个样本做出预测,系统将其与单个标准答案对比并给予反馈,然后处理下一个样本。每次评估都是独立事件。
这种方式的问题在于,AI永远无法感知自身预测在整体分布上的系统性偏差。它每次猜中“中年人年龄”都获得正面反馈,却从未被提醒:“你已经连续数百次预测为30-40岁,完全忽略了儿童和老年人群体。”
团队提出的新框架CCC-GRPO,其中“CCC”指代“一致性相关系数”(Concordance Correlation Coefficient),一种统计指标;“GRPO”则是一种强化学习优化方法。其核心创新在于将评估模式从“单点比较”升级为“批量比较”。
具体流程如下:在每次训练迭代中,系统不是处理单张图片,而是将一批样本(例如16张)同时输入。对于批次中的每张图片,AI会生成多个候选预测值(例如4个)。随后,系统将整批样本的所有候选预测值与所有真实答案汇集,统一计算一个CCC分数——该分数衡量的是“AI预测值的整体分布与真实答案的整体分布之间的吻合程度”。
以年龄预测为例,若该批16张图片的真实年龄覆盖10岁至80岁,但AI的所有预测都密集分布在30-50岁区间,CCC分数就会很低,因为预测分布与真实分布严重偏离。反之,若AI的预测值能够大致覆盖整个年龄范围,与真实分布形态相似,CCC分数就会很高。
三、CCC指标为何优于传统误差指标?
研究选择CCC作为核心指标,是因为它同时度量了三个关键维度,而非单一维度。
第一,相关性:预测值的变化趋势是否与真实值一致?例如,对于真实年龄更大的照片,AI是否也给出了更高的预测值?第二,尺度一致性:预测值的波动范围是否与真实值的波动范围相匹配?如果真实年龄跨度达80岁,而AI预测仅在20岁范围内波动,则说明其压缩了动态范围。第三,均值对齐:预测值的平均值是否接近真实值的平均值?如果AI整体预测系统性偏高或偏低,也会被扣分。
这三个维度缺一不可。仅看相关性,一个将所有年龄都预测为固定值40岁的AI,其相关性可能为0,CCC分数会直接暴露其失败——这直接惩罚了“永远猜测平均值”的偷懒策略。而仅关注排序的指标(如斯皮尔曼相关系数)则对绝对数值误差不敏感,不适用于需要精确数值的任务。CCC将三者结合,恰好针对了长尾回归任务中最易出错的几个方面。
四、技术实现:“批量比较”在训练中如何运作
在技术实现上,研究团队设计了一个精巧的结构来计算CCC分数,而非简单混合所有预测。
对于批次中的某张目标图片,AI为其生成4个候选预测。同时,系统会计算批次中其他所有图片预测值的平均值,作为背景参考。因此,在评估该目标图片的某个特定预测时,所使用的“比较向量”包含:该特定预测值、其他图片的平均预测值、以及对应的全部真实答案。CCC分数即基于此向量计算。
为何使用“其他图片的平均预测值”而非“所有候选预测值”?这是出于稳定性的考量。若将所有候选预测混合,随机噪声过大,同一图片不同候选预测之间的波动会干扰训练信号,导致反馈嘈杂。使用平均值作为背景,既保留了批次层面的分布信息,又过滤了单次采样的随机噪声,使反馈更稳定可靠。
此外,为确保AI输出格式规范,系统还引入了一个小型格式奖励。输出格式正确可获得小幅加分,格式错误则无分。此奖励仅起辅助作用——一旦模型学会正确格式,该奖励便趋于稳定,不再主导优化方向,整体优化仍由CCC奖励驱动。
五、四大验证场景:从人脸年龄到医学影像分析
为全面验证框架有效性,研究团队构建了一个统一的测试平台,涵盖四个不同领域的经典长尾回归任务,总数据量超过12.9万条。
场景一:基于野外拍摄人脸照片的年龄估计,使用AgeDB-DIR数据集,包含约1.2万张训练图,年龄范围0-100岁,但大量样本集中于年轻成年区间。场景二:规模更大的IMDB-WIKI-DIR数据集,源自网络名人照片,训练集约8.2万张,年龄分布极度不均,某些年龄段样本超3500张,而某些仅1张。
场景三:跨领域任务——基于电影海报图片预测其IMDb评分,使用IMDB-Movie-DIR数据集。此任务挑战性极高,因单凭海报预测评分本身噪声就大,加之评分分布存在偏斜,对模型构成双重考验。场景四:医学影像分析——基于儿童手部X光片估算骨龄(以月为单位,范围0-228个月),使用BoneAge-DIR数据集,这是一个对精度要求极高的临床辅助诊断任务。
评估方式经过专门设计:训练集保持原始的不均衡分布,而测试集则被构建为近似均匀分布,以覆盖全数值范围。随后,根据训练集中各数值区间的样本数量,将测试集划分为“多样本区间”、“中等样本区间”和“少样本区间”,并分别报告误差。如此便能清晰揭示模型是在所有区间表现均衡,还是仅擅长样本丰富的头部区间。
六、实验结果:性能提升具体体现在何处?
研究团队将CCC-GRPO与多种基线方法对比,包括传统监督微调、使用软化标签的改进方法、以及基于逐点回归奖励的强化学习方法等。
在年龄预测任务上,以3B参数模型为例,传统方法在中等样本区间的平均绝对误差(MAE)为7.67岁,在少样本区间为8.36岁。CCC-GRPO将这两个误差分别降至5.62岁和6.40岁,提升幅度约25%-27%;而在样本丰富的头部区间,两种方法误差相当,表明新方法在显著改善尾部性能的同时,并未牺牲头部性能。
电影评分预测任务展现了更显著的提升。同样在3B模型上,传统方法在中等样本区间的误差为11.21分,在少样本区间高达21.51分——这表明传统方法在稀疏区间几乎失效。CCC-GRPO将这两个误差降至8.12分和16.35分,少样本区间提升近24%。换用更大的7B模型后,少样本区间误差从17.14分降至14.58分,中等样本区间从9.58分降至6.87分。
骨龄预测是最能体现新方法价值的场景。此任务难度极高,未经专门训练的AI在零样本情况下误差高达95个月。经传统方法训练后,误差降至18.60个月;而CCC-GRPO进一步将其降至14.22个月,相对提升约24%。尤为关键的是,在少样本区间,传统方法误差为21.86个月,CCC-GRPO为14.35个月,提升幅度达34%,证明新方法对医学影像中的稀有病例预测有实质性帮助。
在大规模数据集上的结果一致表明:CCC-GRPO在中等和少样本区间的误差均优于所有对比方法,且这一规律在3B和7B两种模型规模上均成立,说明其有效性并非特定规模下的偶然现象。
七、深度剖析:为何“批量”机制比“逐点”奖励更关键?
为探究框架中哪些设计起主导作用,研究团队进行了一系列消融实验与对照研究。
其中最关键的一组实验对比了不同奖励函数。团队在同一强化学习框架下,测试了四种奖励:逐点MAE奖励、经频率加权的MAE奖励、批量斯皮尔曼等级相关奖励、以及CCC奖励。
结论明确:逐点奖励无论如何调整权重,对中、尾部样本的改善均有限,因其本质仍是孤立评估每个预测。批量斯皮尔曼奖励在少样本区间有明显改善,说明“批量比较”机制本身已发挥作用——但斯皮尔曼相关只关心排序,不关心绝对数值,因此其在头部样本区间的表现稍弱。CCC批量奖励在所有区间取得了最均衡的优秀表现,因为它兼具批量比较的优势,同时对绝对数值的校准提出了明确要求。
团队还测试了不同候选预测数量及批次大小的影响,发现这两个超参数对最终结果影响不大——即使仅使用4个候选预测和16的批次大小,效果已相当出色。这一发现很重要,意味着CCC-GRPO无需复杂的超参数调优,鲁棒性较强。此外,不同强化学习算法变体的性能差异微小,再次证明方法的有效性源于奖励设计本身,而非特定RL算法的选择。
八、一个有趣的权衡:头部样本区的轻微代价
任何方法都存在权衡,此框架亦不例外。在电影评分预测任务中,CCC-GRPO在样本最丰富区间的误差略高于传统方法。这是一种内在的取舍:当你强制AI更均匀地覆盖整个数值范围、避免预测过度集中于热门区间时,其在热门区间的“极致精度”自然会轻微下降。
类似地,在骨龄预测任务中,有一个对异常值敏感的指标叫“几何平均绝对误差”,CCC-GRPO在头部区间的该数值略高于传统方法。研究团队解释称,该指标易受极少数误差增大的样本影响。若查看每个样本的误差排序曲线,会发现CCC-GRPO对大多数样本的误差都更低,仅对极尾部极少数样本的误差略有增加。这表明指标的轻微劣化源于指标特性,而非模型在头部区间整体性能倒退。
在需要精准覆盖罕见病例的场景(如医疗诊断),这种“以头部区间微小精度代价,换取尾部区间大幅性能提升”的权衡是完全值得的。但团队也明确指出,在某些极端强调头部区间精度的应用中,此权衡需额外考量,未来可探索混合目标函数来更灵活地控制这一平衡。
九、实际部署优势:即插即用与资源友好
研究团队特别指出,CCC-GRPO是一个“即插即用”的训练框架,无需改动AI模型的内部架构。现有的多模态大语言模型可直接套用此框架进行后续训练,无需添加新模块或重新设计模型。
在计算资源方面,以年龄预测任务为例,传统监督微调约需30分钟,而CCC-GRPO约需3小时——额外时间主要源于强化学习框架需对每张图片进行多次采样以生成候选预测。虽然训练成本有所增加,但对于需要在稀有病例上保持高可靠性的关键应用(如医疗AI)而言,这一投入是合理的。且重要的是,所有额外开销仅存在于训练阶段。一旦模型训练完成,其在推理阶段的速度与普通模型完全相同,终端用户不会感知到任何延迟。
另一个值得注意的细节是:该方法不依赖任何基于标签的特定采样策略。即,训练时无需刻意过采样尾部样本,普通的随机采样即可。批量CCC机制本身会自然惩罚“预测分布过度集中”的行为,从而在不改变数据采样策略的前提下,为稀疏样本提供更有效的监督信号。
十、研究局限与未来展望
研究团队对当前工作的局限性保持了清醒认识。首先,所有实验均局限于单变量数值回归任务。对于需要同时预测多个相关数值(多输出回归)的任务,该框架的有效性尚未验证,需进一步拓展研究。
其次,实验均在同一个模型系列上进行,最大参数量为70亿(7B)。在更大规模模型(如千亿参数)上CCC-GRPO是否同样有效,以及其有效性与模型规模间是否存在规律,目前尚不明确。
团队还指出了一个重要的公平性问题:在年龄预测等任务中,数据的长尾分布往往与特定人口统计学群体相关联。虽然CCC-GRPO改善了整体分布的均衡性,但并不能自动保证对所有人口子群体都实现公平。在实际部署前,仍需进行细粒度的子群体评估和公平性审计,不能仅依赖整体指标做出结论。
总而言之,这项研究的核心贡献在于:它揭示了AI在处理不均衡数据时“向多数派靠拢”的系统性偏差,并提出了一种不改变模型结构、仅通过革新训练反馈机制(从“单点评估”到“批量分布对比”)的方法,迫使AI更公平地对待每一个数值区间。思路简洁,效果显著,并在医学骨龄评估、电影评分预测、人脸年龄估计等多个跨领域场景中得到验证。
对于任何依赖AI进行辅助决策的场景——尤其是那些“罕见情况比常见情况更关键”的领域(如医疗诊断、风险评估)——这种让AI学会“不偷懒、不取巧”的训练新思路,具有重要的实用价值和借鉴意义。
Q&A 常见问题解答
Q1:CCC-GRPO与常规强化学习方法的核心区别是什么?
A:核心区别在于评估逻辑。常规RL方法对每个预测进行独立打分(逐点奖励)。而CCC-GRPO采用“批量评估”机制,将一批样本的预测分布与真实分布进行整体对比(通过CCC指标)。这种方式使AI能直接感知自身预测是否存在系统性偏差(如过度集中于某个区间),从而有效抑制“向均值回归”的偷懒行为。
Q2:在骨龄预测任务上,CCC-GRPO相比传统微调具体提升多少?
A:在骨龄预测任务上,传统监督微调后的模型平均绝对误差为18.60个月。采用CCC-GRPO训练后,误差降至14.22个月,整体提升约24%。在数据稀少的尾部区间,提升更为显著:传统方法误差为21.86个月,CCC-GRPO为14.35个月,提升幅度接近35%。在更大的7B参数模型上,整体误差从17.09个月降至13.35个月。
Q3:CCC-GRPO的训练耗时比传统方法长多少?
A:以年龄预测任务为例,传统监督微调约需30分钟完成训练。CCC-GRPO因采用强化学习框架并需对每张图片采样多个候选预测,训练时间延长至约3小时,约为传统方法的6倍。请注意,此额外开销仅存在于模型训练阶段。模型部署后的推理速度与传统模型完全相同,不会影响最终用户体验。
相关攻略
时间来到2026年,传统搜索引擎“十条蓝链”的展示模式已正式步入历史。行业数据显示,超过75%的用户在寻求产品推荐、服务对比或决策参考时,会优先选择DeepSeek、Kimi、豆包、腾讯元宝、通义千问、百度AI等智能对话模型。与传统搜索的多结果列表不同,AI大模型具备强大的答案整合与收敛能力,它会综
屏幕,作为我们连接数字世界的核心窗口,其演进历程就是一部人机交互的进化史。从早期电子设备满足“能显示”的基本功能,到移动互联网时代追求“看得清、看得真”的视觉体验,这块玻璃背后的技术革新从未停歇。 如今,人工智能(AI)时代全面来临。智能设备不再是简单执行命令的工具,它们开始学习理解环境、预测用户意
AI编程工具虽能快速生成代码,却常因调用过时接口导致地图定位不准。这种空间逻辑的缺陷阻碍了AI融入物理世界。百度地图已服务超400万开发者,提供数百项API。当AI通过地图学会“认路”,便能跨越虚拟与现实的关键门槛,推动AI产业化的真正爆发。
豆包AI翻译效果不佳常因使用方式不当。针对不同场景,可采用五种方法:对话模式适合灵活的口语翻译;专用工具页确保语言精准对应;浏览器助手实现网页双语对照阅读;语音输入满足实时口语转译需求;文档上传功能则能批量处理专业文件并保留格式。
豆包AI接口采用按量计费模式,按输入输出Token消耗实时扣费。新用户享有一次性试用额度,过期自动失效。稳定业务可购买预付费资源包以降低成本,但需注意有效期。调用受RPM和TPM配额限制,超限即触发限流。特定API采用阶梯计费,单价随日调用量增加而降低。务必关注账户余额,避免服务中断。
热门专题
热门推荐
香港科技大学牵头研制的“天韵相机”随天舟十号升空,该项目由内地与香港科研团队合作完成,体现了双方优势互补的高效能。香港科研正深度融入国家发展大局,从“参与”转变为“不可或缺”的一部分。项目不仅激励更多机构参与国家重大工程,还积极推动成果转化,相关企业正将监测数据转化。
英伟达股价5月14日创下236 54美元历史新高,收盘涨4 39%至235 74美元,盘后交易继续微涨,公司总市值攀升至约5 71万亿美元。
PudgyPenguins生态代币PENGU采用创新的质押与销毁机制,旨在平衡价值捕获与社区激励。其定位超越了传统NFT项目,致力于构建一个融合实体商品、游戏与社交的综合性IP生态。通过独特的“灵魂绑定”特质和多元化的应用场景,PENGU力图在竞争激烈的Web3赛道中,探索出一条可持续的IP价值实现路径。
马斯克起诉OpenAI案进入结案陈词阶段。马斯克指控OpenAI背离非营利初衷,违反信托义务并转向营利,其律师质疑奥特曼信誉并指责微软协助不当行为。OpenAI律师反驳称马斯克证词矛盾,且其本人也曾试图控制公司获利。诉讼结果可能取决于是否在法定时效内提起,并将影响OpenAI未来发展与IPO进程。
彭博社报道,OpenAI对与苹果的合作现状非常失望,ChatGPT集成未达预期增长。OpenAI正评估法律选项,可能向苹果发出违约通知。双方于2024年宣布深度合作,但功能入口较深、收入低于预期。苹果则关注OpenAI隐私标准及硬件动向。科技公司与苹果合作历来复杂,历史案例包括谷歌地图、AdobeFlash及Spotify纠纷。





