首页 游戏 软件 资讯 排行榜 专题
首页
AI
中科大美团联手破解AI偏科难题 让大模型兼顾准确性与思维多样性

中科大美团联手破解AI偏科难题 让大模型兼顾准确性与思维多样性

热心网友
64
转载
2026-05-15

这项由中国科学技术大学与美团联合开展的研究,于2026年4月发布在预印本平台arXiv上,论文编号为arXiv:2604.10688。参与机构还包括南京大学、复旦大学和华中科技大学。感兴趣的读者可通过该编号查阅完整论文。

中科大与美团联手破解AI

当AI变成“应试机器”,我们该怎么办?

想象一下,你有一位家庭教师,他辅导你解题时,无论题目难易、错误类型,总用同一套方式、同样的力度来纠正你。久而久之,你或许能熟练应对某类固定题型,可一旦题目稍有变化,就可能彻底束手无策——因为你的思维已经被“驯化”成了单一模式。眼下,大型语言模型(如ChatGPT、DeepSeek等)在训练中,正面临类似的困境。现有的主流方法在追求“答对题”的同时,往往在不经意间扼杀了模型的思维多样性。而中科大与美团团队提出的SCOPE框架,正是为了破解这个看似矛盾的核心难题。

一、AI训练中的“偏科”现象:越练越死板

要理解这个问题,得先看看AI是怎么学习的。大语言模型学习推理,有点像学生参加模拟考试:模型自己先尝试解题,然后根据最终答案的对错来“打分”,并据此调整自己的“思考习惯”。这种方法被称为“在线强化学习”,是目前训练AI推理能力的主流路径。

然而,这种只认最终结果的评分方式有个明显的缺陷:AI的推理过程往往很长,但奖励信号只在最后给出。这就导致模型很难分辨,漫长的思考链条中,究竟是哪一步起了关键作用,哪一步其实在拖后腿。好比一场接力赛,只知道团队总成绩,却搞不清每个队员的具体贡献。

为了解决这个“功劳归属”难题,研究者引入了“在线蒸馏”方法。简单说,就是给训练的AI配一位能力更强的“老师模型”。当“学生”自己解题时,“老师”会实时跟踪每一个生成步骤,给出细粒度的指导,而非只在最后判个对错。这种方式让训练更精准、更高效。

但问题在于,现有的在线蒸馏方法隐含了一个过于理想的假设:老师模型对所有题目、所有时刻的指导都同样可靠。现实中,这个假设根本站不住脚。

二、发现问题的两个实验:老师也会“发懵”,学生越练越“偏科”

在提出解决方案前,研究团队通过两个关键实验,揭示了现有方法的两个致命缺陷。

第一个问题叫做“多样性退化”。团队在Qwen2.5-7B模型上做了一个实验:只强化模型自己做对的题目。结果发现一个吊诡的现象——在单次尝试中,模型的正确率从63.2%提升到了74.1%,看似进步显著。但当给予模型32次尝试机会(只要有一次答对即算成功)时,成功率却从93.7%暴跌至84.9%。这意味着,模型虽然单次表现变好了,但其思维空间却被大幅收窄,那些“旁门左道”的正确解题路径被一条条遗忘。

好比一个学生原本掌握三种解法,经过强化训练后,他只记住了最常用的一种,另外两种虽正确却不常用,逐渐被边缘化。这样的学生遇到需要灵活变通的题目时,很容易陷入困境。随后,团队在DeepSeek-R1-Distill-Qwen-1.5B上用在线蒸馏方法重复实验,悲剧再次上演:单次正确率提升,但多次尝试的成功率从76.5%降到了75.0%。两种主流方法,都导致了同样的“思维单一化”结局。

第二个问题叫做“纠错低效”。当学生模型做错题时,可以让老师模型来纠正。但研究发现,一旦学生模型的推理过程本身逻辑混乱,老师模型在读完这段“胡言乱语”后,自己也会陷入困惑,其给出的纠正信号就变成了噪音。

为了验证这一点,团队从DeepMath数据集中抽取了2000道题,让学生模型生成错误的推理过程,再由老师模型进行评估。他们用“困惑度”这个指标来衡量老师读完学生推理后的理解程度——困惑度越高,说明老师越看不懂。

接着,他们做了一个“截断实验”:将学生的错误推理过程截断至不同长度(如截去20%、40%等),然后让老师从这个不完整的地方接着推理,看能否得出正确答案。结果令人印象深刻:那些让老师困惑度最低的推理前缀,在截断20%时,纠错成功率高达64.9%;而让老师最困惑的前缀,同样条件下成功率只有45.4%,差距高达19.4个百分点。当截断比例增加到80%时,即便最“友好”的前缀,纠错成功率也跌至35.8%左右,而最混乱的前缀更是只有28.6%。

这说明什么?当学生模型的推理逻辑本身已混乱不堪,老师模型就像被强行塞入一篇错误百出的作文,并被迫从中间续写,结果只能是越写越偏。此时,若还强迫学生去模仿老师在这种“困惑”状态下给出的信号,无异于用噪音来纠正错误,只会适得其反。

三、SCOPE框架:像聪明的老师一样区别对待不同作业

基于以上发现,研究团队提出了SCOPE框架。其核心思想,可以用一位经验丰富的老师的工作方式来类比。

一位聪明的老师,不会对所有的作业一视同仁。对于学生做对的题目,他会思考:这道题虽然对了,但用的是最笨的方法还是最巧妙的思路?如果是笨方法,就该鼓励他探索更好的路径;如果是他已熟练掌握的常规解法,则不必过度强化。对于学生做错的题目,老师会先判断:这个错误我能看懂问题出在哪吗?如果能,就给出精准的纠正;如果学生的逻辑已经乱成一团,连老师自己都理不清头绪,那这道题或许就该暂时搁置,而非强行纠错,以免越纠越乱。

SCOPE框架将AI的每次推理过程(称为“轨迹”)按最终对错,分两条路径处理,即“结果驱动的分组分支”。在训练中,模型对同一道题生成多个推理过程,由验证器判断正误,分别归入“正确集合”与“错误集合”。

对于错误轨迹,SCOPE采用“老师困惑度加权蒸馏”。老师模型读完这条错误推理后,如果自身困惑度很低(说明能看懂学生错在哪),则给该轨迹分配高权重,让老师的纠正信号充分影响学生。反之,如果老师困惑度极高(说明学生的推理已混乱到无法理解),则大幅降低该轨迹的权重,近乎忽略老师的信号,避免传递噪音。

对于正确轨迹,SCOPE转而使用“学生困惑度加权最大似然”。此时不依赖老师,而是直接强化学生自己做对的推理过程。但关键在于,并非所有正确推理都同等对待。如果某条正确推理对学生而言“轻而易举”(学生困惑度低,说明这是熟练套路),就分配较低权重,避免过度强化已知路径。反之,如果某条正确推理对学生来说比较“意外”(学生困惑度高,说明这是一条不寻常的解题路径),则分配较高权重,鼓励模型将这种“旁门左道”的正确方法也纳入武器库。

在数学实现上,权重的计算颇为精巧。错误轨迹的权重与老师困惑度成反比,通过对困惑度取倒数并在同组内做softmax归一化得到;正确轨迹的权重则与学生困惑度成正比,直接对困惑度做softmax归一化。两种权重均在单道题的多条推理轨迹组内进行归一化,从而自动适应不同题目间的难度差异。这套机制被团队称为DPAW。

最终,SCOPE的目标函数整合了这两条路径:对于同一道题,正确轨迹的加权最大似然损失与错误轨迹的加权蒸馏损失共同构成总损失,并在整个数据集上进行优化。

四、实验结果:六大数学竞赛题库的全面检验

研究团队在六个高难度数学推理基准上全面测试了SCOPE,包括MATH500、AIME24、AIME25、AMC2023、Minerva和OlympiadBench。

测试采用了两组不同的学生-老师模型配对,并与GRPO、离线知识蒸馏、标准在线蒸馏三种基线方法进行比较。评估主要看两个指标:A vg@32(32次尝试的平均正确率,衡量稳定性)和Pass@32(32次中至少一次正确的概率,衡量能力上限与思维多样性)。

在第一组实验中,SCOPE在A vg@32上全面领先。尤其在OlympiadBench上,相对标准在线蒸馏提升了10.69%。综合六个基准,SCOPE的平均A vg@32达到55.2%,显著优于基线方法。

在衡量思维多样性的Pass@32指标上,SCOPE的优势更为明显。在第二组实验中,基线方法GRPO几乎未提升Pass@32,离线蒸馏甚至导致严重下降,而SCOPE实现了最强的提升。例如在AIME25上,SCOPE的Pass@32达到35.6%,相对于标准在线蒸馏提升了19.87%。这充分证明了SCOPE在保持并提升模型思维广度方面的独特价值。

从训练动态曲线也能清晰看到差异:GRPO的策略熵(反映思维多样性)持续下降,导致Pass@32劣化;标准在线蒸馏和SCOPE都能维持较高的策略熵,但前者在准确率上很快遇到瓶颈,而SCOPE的A vg@32则持续稳健上升。

五、消融实验:每一个设计都有其存在的理由

为了验证SCOPE每个组件的必要性,团队进行了一系列“拆解”实验。

当移除整个DPAW加权机制,退化为均匀权重后,性能出现显著下降。这证明忽视信号质量差异的“一刀切”策略会造成实质性损失。

单独移除对学生正确轨迹的困惑度加权(即不再优先强化非常规路径),Pass@32指标明显下跌,直接验证了“放大非常规正确路径”对保持多样性的关键作用。若将权重方向反转(给高困惑度轨迹低权重),性能同样受损。

单独移除对老师困惑度的加权(即对错误轨迹一视同仁),性能也会下降。而若将权重方向反转(老师越困惑,给的权重反而越高),性能则出现暴跌,甚至不如均匀加权版本。这个结果极具说服力:如果不加甄别地让学生模仿老师在混乱状态下的输出,不仅无益,反而会严重损害模型性能。

六、计算代价:多了多少开销?

任何新方法都需考量其效率代价。团队坦率地列出了每步训练的时间分解。SCOPE每步总时间约为641.9秒,比GRPO慢约40%,主要多的开销在于老师模型的打分步骤。

值得注意的是,目前的实现是“同步架构”,即生成步骤和老师打分步骤串行进行。研究团队指出,若改用“异步架构”让这两步重叠进行,理论上时间开销可与GRPO持平。换言之,SCOPE当前的时间代价更多是工程优化层面的问题,而非方法本身固有的缺陷。

七、权重温度的影响:松紧要适度

团队还测试了权重计算中温度参数τ的影响。τ=0.5时,权重分布过于尖锐,过度聚焦于极端样本,反而引入了噪声;τ=2.0时,权重分布过于平坦,几乎退化为均匀加权,失去了自适应意义。τ=1.0在多个基准上表现最佳,因此被设为默认配置。

归根结底,SCOPE所做的事情,其理念并不复杂:在AI的“模拟考试”中,对于做错的题,只在老师能看懂错处时才让学生认真学;对于做对的题,则优先让学生巩固那些“意外走对”的非常规解法,而非反复练习熟练套路。两者结合,让AI既能稳步提升答题正确率,又能保持开阔的思维空间,避免陷入“偏科”陷阱。

这项研究的深层意义,在于它指出了一个长期被忽视的关键:训练数据的信号质量是高度异质的,不同推理轨迹对模型的价值天差地别。盲目地均匀处理,不仅效率低下,还会累积训练噪音,最终导致模型能力萎缩。SCOPE提供的这套分类处理、按质加权的思路,有望成为未来大模型训练流程中的一个标准化组件,帮助下一代AI以更高效的方式,获得更强大的推理能力和更灵活的思维。

来源:https://www.techwalker.com/2026/0422/3184747.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

中科大美团联手破解AI偏科难题 让大模型兼顾准确性与思维多样性
AI
中科大美团联手破解AI偏科难题 让大模型兼顾准确性与思维多样性

这项由中国科学技术大学与美团联合开展的研究,于2026年4月发布在预印本平台arXiv上,论文编号为arXiv:2604 10688。参与机构还包括南京大学、复旦大学和华中科技大学。感兴趣的读者可通过该编号查阅完整论文。 当AI变成“应试机器”,我们该怎么办? 想象一下,你有一位家庭教师,他辅导你解

热心网友
05.15
大模型能力跨模型迁移新思路破解AI钥匙复刻难题
AI
大模型能力跨模型迁移新思路破解AI钥匙复刻难题

一项由弗吉尼亚理工大学、亚马逊和北卡罗来纳大学教堂山分校联合开展的研究,于2026年4月发表在arXiv预印本平台(编号arXiv:2604 06377v1),提出了一个名为“主钥匙假说”(Master Key Hypothesis)的理论框架。基于该假说,研究团队开发了名为“Unlock”的方法,

热心网友
05.15
实在智能五大数字员工如何借助大模型高效上岗
业界动态
实在智能五大数字员工如何借助大模型高效上岗

在数字化转型的浪潮中,人工智能技术正深刻改变着企业的运营模式与行业竞争格局。近日,实在智能公司迎来重要升级——其智能平台全新推出五位基于大模型能力的数字员工,正式投入多个核心业务场景,开启了人机协同的高效工作新范式。 这五位数字员工并非简单自动化工具,而是分别专注于客户服务、数据分析、内容创作、流程

热心网友
05.14
医疗大模型如何优化智能问诊与健康咨询
业界动态
医疗大模型如何优化智能问诊与健康咨询

当患者面临健康困惑时,能否迅速获得准确、可信的医疗信息,直接关系到就医决策的质量与效率。如今,以大模型为代表的人工智能技术正在深刻重塑这一过程,为医疗健康问答场景带来了全新的智能化解决方案。它不仅是高效的信息检索工具,更逐渐成为连接患者、医生与医疗体系的关键智能纽带。 一、应用场景 智能导诊是大模型

热心网友
05.14
大模型通俗解释:人工智能如何理解与生成语言
业界动态
大模型通俗解释:人工智能如何理解与生成语言

提起大模型,许多人或许觉得它既神秘又遥远。实际上,我们可以将其理解为一个由海量数据“喂养”而成的超级智能大脑。其最核心的价值,在于其庞大的知识储备与强大的自主学习能力。 大模型的核心特点 首先,大模型拥有极其丰富的知识库。在训练过程中,它“阅读”了天文数字级别的文本、图像等多模态数据,涵盖从古籍经典

热心网友
05.14

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

领克GT概念跑车北京车展首发 百公里加速仅2秒
科技数码
领克GT概念跑车北京车展首发 百公里加速仅2秒

领克首款GT概念跑车亮相北京车展,由中欧团队联合打造。新车采用经典GT比例与低趴宽体设计,配备液态金属蓝涂装与2+2座舱,设有高性能模式按键可激活空气动力学套件。车辆采用后驱布局与AI智能运动控制系统,百公里加速约2秒,设计融合瑞典极简美学并参考全球用户反馈。

热心网友
05.14
英伟达RTX 5070移动版GPU发布 12GB显存性能大幅提升
科技数码
英伟达RTX 5070移动版GPU发布 12GB显存性能大幅提升

英伟达推出12GB显存版RTX5070移动GPU,与8GB版同步上市。两者均基于Blackwell架构,核心规格相同,仅显存容量不同。此举旨在缓解GDDR7芯片供应压力,为OEM提供灵活配置,加速笔记本产品布局,更大显存可更好满足游戏与AI应用需求。

热心网友
05.14
微星新款雾面WOLED显示器MAG 276QRY28与276QRDY54正式发售
科技数码
微星新款雾面WOLED显示器MAG 276QRY28与276QRDY54正式发售

微星将于5月15日推出两款26 5英寸雾面WOLED显示器MAG276QRY28和276QRDY54,售价分别为2499元和6299元。均采用第四代WOLED面板,具备QHD分辨率、VESADisplayHDRTrueBlack500认证、1500尼特峰值亮度及99 5%DCI-P3色域覆盖。276QRY28刷新率为280Hz,高阶款276QRDY54支持4

热心网友
05.14
中芯国际一季度净利润13.61亿元 同比增长0.4%
科技数码
中芯国际一季度净利润13.61亿元 同比增长0.4%

中芯国际2026年第一季度营收176 17亿元,同比增长8 1%;净利润13 61亿元,同比增长0 4%。公司预计第二季度收入环比增长14%至16%,毛利率指引上调至20%至22%。这反映出公司在行业复苏中展现出财务韧性,并通过运营优化增强了短期增长势头。

热心网友
05.14
AI图像处理训练数据存在色差问题 16种算法经小改动全面提升
AI
AI图像处理训练数据存在色差问题 16种算法经小改动全面提升

手机修图、相机降噪、视频去雾……这些我们日常使用的图像处理功能,其背后都离不开人工智能(AI)技术的驱动。通常,AI模型的训练逻辑是:向模型展示大量“低质图像”与“优质图像”的配对数据,让它学习如何将前者转化为后者。然而,天津大学计算机视觉团队近期发表的一项研究(arXiv:2604 08172)揭

热心网友
05.14