首页 游戏 软件 资讯 排行榜 专题
首页
AI
腾讯研究新突破AI模型如何自主生成难题提升推理能力

腾讯研究新突破AI模型如何自主生成难题提升推理能力

热心网友
74
转载
2026-05-12

在数学教育中,教师常引导学生:“将这两道基础题融合,尝试解决一个更综合的难题。”近期,腾讯HY、香港科技大学与香港大学的研究团队,正是受此经典教学智慧的启发,开发出一套名为Composition-RL的创新性方法。这项于2026年2月13日发布在arXiv(论文编号:2602.12036v1)上的研究,为大语言模型(LLM)的强化学习训练范式带来了突破性进展。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

腾讯等研究机构突破性进展:如何让AI模型从简单题目中

当前AI模型的训练模式,类似于为学生准备一场综合性考试。传统方法依赖于让模型反复练习海量题目。然而,随着模型能力不断增强,原有题目库会逐渐丧失挑战性——好比让大学生反复解答四则运算,正确率几乎总是100%。此时,这些题目便无法提供有效的学习梯度。

研究团队揭示了一个关键瓶颈:在训练进程中,部分题目会变得“过难”(模型持续答错),而另一部分则会变得“过易”(模型持续答对)。以往研究多集中于处理“难题”,但本研究发现,“易题”同样是训练效率的隐形杀手。当模型在训练后期对75%的题目都能稳定答对时,真正能驱动模型进步的“有效训练数据”比例就骤降至25%,这无疑造成了巨大的计算资源与时间成本的浪费。

于是,一个极具创造性的解决方案应运而生:既然简单题目已失去挑战性,何不将多道简单题进行智能组合,从而构造出全新的、难度更高的综合题?这好比将基础的刀工与调味技巧,融合创新出一道工序繁复的精致菜肴。

一、巧妙的“题目拼接术”:把简单变复杂的艺术

团队提出的核心技术称为“顺序提示组合”(Sequential Prompt Composition, SPC),其过程犹如完成一幅逻辑严密的推理拼图。

假设现有两道数学题:第一题为“求解方程 2x - 7 = 3 中 x 的值”(答案为5),第二题为“化简表达式 3(5p + 1 - 2p × 4) + (4 - 1/3)(6p - 9)”。在传统训练中,模型会分别独立求解。而SPC方法则将它们进行深度语义融合。

组合过程遵循三步法,类似于编程中的函数调用与参数传递。首先,从第一题的答案中提取核心数值(本例中为5),并为其赋予一个新变量名(例如X),同时用自然语言进行封装描述:“设X为满足方程 2x - 7 = 3 的 x 值的总和。”

接着,在第二题中选定一个特定数字(例如常数项1),用另一个变量Y进行替换,从而将题目改写为:“化简表达式 3(5p + Y - 2p × 4) + (4 - 1/3)(6p - 9)”。

最后,建立变量X与Y之间的逻辑关系。由于X=5,而原Y位置为1,因此可表述为“Y比X小4”。

至此,一道全新的复合推理题便诞生了:“设X为满足方程 2x - 7 = 3 的 x 值的总和。Y比X小4。请化简表达式 3(5p + Y - 2p × 4) + (4 - 1/3)(6p - 9)。”模型若要正确解答,必须依次完成求解第一题、确定变量关系、再代入化简第二题这三个步骤,形成了一条环环相扣的多步推理链。

此过程支持迭代扩展,可将三道、四道甚至更多题目进行嵌套组合,从而创造出层级递进的复杂问题。团队将组合的题目数量定义为“组合深度”,深度越大,对模型综合推理能力的挑战性就越高。

二、意外的发现:简单题目竟是训练的“绊脚石”

实际训练数据的监测揭示了一个值得警惕的现象。团队追踪了训练过程中“全对题目”(即模型每次都能100%答对的题目)的比例变化,发现该比例在前50个训练步数内,从接近零迅速攀升至50%以上,并最终稳定在75%左右的高位。

这意味着什么?设想一个包含12000道题目的标准训练集,随着模型学习推进,其中约9000道题对模型而言已变得过于简单,丧失了训练价值,真正能提供学习信号的题目仅剩3000道。这直接导致了训练效率的大幅折损。

更关键的是,团队测试了不同能力水平的模型,发现即使是性能更强的模型,在面对组合生成的题目时,其准确率也会出现显著下降。例如,OpenMath-Reasoning-1.5B模型在原始题目上的准确率为92.3%,面对组合题时则降至72.6%;JustRL-1.5B模型从94.6%降至79.2%。这有力地证实了,通过智能题目组合,能够高效地将“易题”转化为具有持续训练价值的挑战性样本。

三、跨领域的“混搭”实验:数学遇上物理

团队还进行了一项极具启发性的探索:将不同学科的题目进行跨领域组合。具体而言,他们将物理学题目与数学题目深度融合,创造出需要综合运用多学科知识才能解决的复合型问题。

这不同于简单的题目混合(Mixture),而是真正的知识融合(Fusion)。传统方法好比分别提供中餐和西餐的食材,或者将它们并排摆放;而SPC方法则是将中西烹饪技法与食材深度融合,创造出一道全新的融合菜。

实验结果令人振奋。在多项基准测试中,使用跨学科组合题目进行训练的模型,不仅在纯数学任务上表现更优,在物理任务上也有显著提升,甚至在法律、工程、化学等其他领域的推理任务中也展现出更强的泛化能力。

例如,在AIME24数学竞赛题测试中,使用物理-数学组合题目训练的模型,其准确率比仅用纯数学题训练的模型高出9.1%。在涵盖广泛专业知识的MMLU-Pro测评中,组合训练模型也比传统的混合训练方法高出4.3个百分点。

四、渐进式学习:从简单到复杂的阶梯式训练

团队进一步设计了一种“课程学习”式的渐进训练策略,类似于为学生量身定制的阶梯式学习计划。并非一开始就让模型直面最复杂的组合题,而是遵循从易到难的原则,逐步增加挑战。

这个过程如同学习一门乐器:从演奏基础音阶和简单练习曲开始,待技巧纯熟后,再逐步挑战结构复杂、情感丰富的协奏曲。

具体实施时,团队首先让模型在原始数学题(组合深度为1)上进行训练,待其性能趋于稳定后,再切换至由两道题组合而成的训练集(深度为2),之后进一步进阶到三道题组合(深度为3)。

实验数据充分证明了该策略的卓越效果。在AIME24测试中,采用课程式Composition-RL训练的4B参数模型,达到了37.9%的准确率,其表现甚至超越了某些使用8B参数的其他先进训练方法(如Beyond-80/20的34.6%、Alpha-RL的28.3%和RL-ZVP的24.6%)。这意味着,通过更精巧的训练方法,可以用更小的模型参数量和更少的数据,获得更优的最终性能,堪称效率优化的典范。

五、深度解析:为什么这个方法如此有效

该方法取得成功的背后,主要基于两大核心原理。

首要原因是“组合泛化能力”的提升。当模型学会解决组合题目时,它实质上是在掌握如何动态重组和灵活运用已有的基础技能。这好比一位厨师精通了切、炒、炖、调等基本功后,便能根据现有食材创新出无数道菜肴。研究发现,在组合题上训练的模型,面对更深或更复杂的组合时表现更好,说明其真正内化了技能组合与迁移的内在规律。

其次是“隐式过程监督”机制的引入。在组合题中,模型必须先正确解出前序子题,才能获得推进后续步骤所需的中间结果。这类似于复杂烹饪中的步骤依赖:必须先将香料爆香,才能激发出后续食材的风味。这种题目结构天然地引导并监督模型学习正确的、连贯的推理链条。团队通过追踪模型对中间变量的计算准确率发现,该指标随着训练稳步提升,证实了组合题确实促进了更优、更可靠的推理过程学习。

六、广泛的实验验证:从小模型到大模型的全面测试

为了验证方法的普适性与可扩展性,团队在多种参数规模的模型上进行了系统性测试,范围覆盖从4B到30B参数。

结果显示,Composition-RL方法在所有规模的模型上均能带来一致的性能提升,且呈现出“模型越大,提升越显著”的趋势。在4B模型上整体性能提升3.3%,8B模型提升3.7%,14B模型提升4.3%,而在30B的大型模型上,提升幅度达到了显著的10.5%。

尤为重要的是,这种提升效应不仅局限于数学推理领域。在GPQA(研究生级别科学问答)和MMLU-Pro(大规模多任务语言理解专业版)等通用能力测评中,采用Composition-RL训练的模型也展现出更强的知识泛化与复杂推理能力。

团队还通过消融实验深入探讨了不同题目选择策略的影响。研究发现,从一个更大的、多样化的题目池中选择第二题进行组合,其效果显著优于从一个较小的、同质化的题目池中选择。这启示我们,组合元素的多样性与异质性,是最大化训练效果的关键因素之一。

七、实际应用价值:重新思考AI训练的资源利用

这项研究的意义超越了提出一个具体的技术方法,它更提供了一种全新的范式,以应对AI训练中日益高昂的数据获取与标注成本问题。

现实中,收集和标注高质量、高难度的训练数据代价巨大。而Composition-RL提供了一种“数据增效”的解决方案:通过对现有高质量但已“过易”的数据进行创造性重组,能够生成大量新颖且更具挑战性的训练样本,从而极大提升数据集的利用效率。

团队通过计算展示,基于一个包含2万道基础题的种子集,理论上可生成多达4亿道(20,000 × 19,999)独特的组合题。尽管实际应用中需要经过严格的质量过滤,但其数据扩增潜力是巨大的。关键在于,这种方法创造的不是简单的数据复制或加噪,而是真正蕴含新挑战、能迫使模型学习新技能组合与推理模式的优质问题。

八、技术细节:严谨的实验设计和质量控制

为确保自动生成的组合题目的高质量与可靠性,团队设计了一套严谨的自动化验证与过滤流程。他们利用先进的大语言模型作为“组合引擎”,但在每个关键环节都嵌入了多重质量检查机制。

这个过程如同现代化生产线上的全流程质量管控。每个组合步骤完成后,系统会自动检测逻辑一致性、变量冲突、语义连贯性等问题。只有通过全部自动化检查的题目才会被纳入最终的训练集。经过此严格过滤,最终数据集的错误率被控制在2%以下,达到了学术研究级训练数据的可靠标准。团队使用了如Qwen2.5-32B-Instruct等先进模型来执行组合与验证任务,保证了整个流程的鲁棒性。

在训练配置上,团队采用了统一且可复现的超参数设置:批次大小为256,学习率为1×10^-6,温度参数为1,每个问题采样8个回答,最大输出长度限制为16K tokens。这些细节确保了实验结果的严谨性与可比性。

九、未来展望:这只是开始,不是结束

团队在论文中也坦诚讨论了当前方法的局限性并展望了未来的研究方向。

首先,当前实验主要集中于数学与科学推理领域,尽管跨学科实验初显成效,但在更广泛的领域(如人文社科、代码生成、创意写作)的应用效果与适配方法仍需进一步探索与验证。

其次,目前的组合模式相对简单,主要是线性串联结构。未来可探索更复杂的组合拓扑,如树状依赖、图结构关系或条件分支等更灵活的交互模式。

几个颇具前景的探索方向包括:将方法扩展到Polaris-53K等高难度数学竞赛数据集;将Composition-RL范式推广至更多学科和任务类型;探索该方法与在线策略蒸馏、反事实数据增强等更先进训练技术的结合潜力。

十、深远影响:重新定义AI学习的边界

这项研究的影响可能远超其技术细节本身。它提出了一个深刻的命题:当前AI学习的瓶颈或许并不在于数据量的绝对匮乏,而在于对现有高质量数据利用效率的严重不足。

这类似于可持续发展中的资源循环利用理念。与其不计成本地持续开采新数据“矿产”,不如更充分、更智能、更创造性地利用我们已经拥有的“数据富矿”。Composition-RL展示了一种令人兴奋的可能性:通过智能重组与知识融合,能够从有限的基础数据中,挖掘出近乎无限的学习潜力与挑战梯度。

从更宏大的视角看,这种方法深刻呼应了人类高效学习的本质。卓越的学习者并非机械记忆孤立的知识点,而是能够灵活地重组、迁移并创造性应用已有知识来解决新问题。一位顶尖的厨师,其核心价值不在于记住所有现存菜谱,而在于能依据当下食材与食客需求,创新出前所未有的美味。

团队已承诺将发布完整的代码、数据集及预训练模型。他们构建的MATH-Composition-199K和Physics-MATH-Composition-141K等高质量数据集,将成为推动相关领域未来研究的重要公共资源。

归根结底,Composition-RL不仅是一项具体的技术创新,更是一种思维范式的转变。它揭示,在追求更强大、更通用人工智能的道路上,重大突破有时并非源于计算资源与数据量的简单线性堆砌,而是来自于对现有资源更精巧、更智能的运用与组合。这种化易为难、点石成金的智慧,或许正是推动AI持续突破现有能力边界的关键钥匙之一。

Q&A

Q1:Composition-RL具体是什么技术?

A:Composition-RL是一种面向大语言模型(LLM)的强化学习训练新范式。其核心思想是通过“顺序提示组合”(SPC)技术,将多道已失去训练难度的简单题目,通过变量关联、逻辑嵌套等纽带,智能地组合成一道全新的、更具挑战性的综合题目,用于持续高效地训练AI模型。例如,将两道独立的数学题进行语义连接,使得解答第二题必须依赖第一题的正确结果,从而将已“过易”的训练样本,重新转化为能驱动模型能力增长的优质数据。

Q2:为什么要把简单题目组合成复杂题目?

A:因为在AI模型的持续训练过程中,随着其能力提升,训练数据集中会有大量题目变得过于简单,导致模型每次都能轻松答对,这些“全对题目”便无法再提供有效的学习信号(梯度)。研究发现,在训练后期,高达75%的题目可能陷入此状态,严重拖累整体训练效率与资源利用率。通过智能组合,可以使这些简单题目重新获得适宜的难度,恢复其训练价值,实现数据集的“动态难度适配”。

Q3:Composition-RL的效果如何?

A:实验效果非常显著。研究表明,该方法能在不同参数规模的AI模型上带来3%至10%的性能提升,且呈现出“模型越大,提升越明显”的趋势。一个突出的案例是,使用该方法训练的4B参数“小”模型,其在AIME24数学竞赛上的表现,甚至能超越某些使用8B参数的传统方法训练的“大”模型。这意味着,该方法有望以更少的计算开销与数据依赖,获得更优的最终模型性能,为高效AI训练提供了新路径。

来源:https://www.techwalker.com/2026/0213/3179314.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

腾讯研究新突破AI模型如何自主生成难题提升推理能力
AI
腾讯研究新突破AI模型如何自主生成难题提升推理能力

在数学教育中,教师常引导学生:“将这两道基础题融合,尝试解决一个更综合的难题。”近期,腾讯HY、香港科技大学与香港大学的研究团队,正是受此经典教学智慧的启发,开发出一套名为Composition-RL的创新性方法。这项于2026年2月13日发布在arXiv(论文编号:2602 12036v1)上的研

热心网友
05.12
ITMO大学与MWS AI合作推出AI模型压缩工具 精准优化大模型效率
AI
ITMO大学与MWS AI合作推出AI模型压缩工具 精准优化大模型效率

近期,AI模型压缩技术迎来一项重大突破。俄罗斯圣彼得堡ITMO大学与莫斯科MWS AI的联合研究团队,于2026年2月正式发布了一项名为《ROCKET: Rapid Optimization via Calibration-guided Knapsack Enhanced Truncation fo

热心网友
05.12
宾夕法尼亚州立大学实现AI模型压缩不损失推理能力
AI
宾夕法尼亚州立大学实现AI模型压缩不损失推理能力

2026年2月,一项由宾夕法尼亚州立大学与卡内基梅隆大学非洲分校合作完成的研究,在大型AI模型量化压缩领域取得了里程碑式的进展。这项研究(论文arXiv:2602 02581v1)直面并成功破解了一个长期存在的行业痛点:如何在显著缩小模型体积、降低部署成本的同时,最大限度地保留其核心的复杂推理能力。

热心网友
05.12
AI模型暗藏坏习惯研究揭示其传播机制与潜在风险
AI
AI模型暗藏坏习惯研究揭示其传播机制与潜在风险

近期,一项由马萨诸塞大学阿默斯特分校主导的研究,为我们揭示了人工智能行为模式中一个值得高度警惕的新风险。这项于2026年1月30日公开(论文预印本编号:arXiv:2602 00298v1)的研究,首次系统性地证实了AI模型存在一种类似“病毒传播”的“坏习惯”扩散机制:在特定任务中学到的有害行为模式

热心网友
05.12
清华大学AI音频分离新突破:纯净数据训练模型性能远超海量数据方案
AI
清华大学AI音频分离新突破:纯净数据训练模型性能远超海量数据方案

这项由清华大学计算机科学与技术系、脑与智能实验室等机构牵头,联合Shanda AI Research Tokyo、约翰霍普金斯大学等国际团队完成的研究,已于2026年1月在arXiv预印本平台发布(论文编号:arXiv:2601 22599v1)。 想象一下这样的场景:在嘈杂的咖啡厅里,你却能清晰地

热心网友
05.12

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

阿里云百炼记忆库解决AI多轮对话遗忘难题
业界动态
阿里云百炼记忆库解决AI多轮对话遗忘难题

2026年4月9日,阿里云旗下的AI开发平台“百炼”正式发布了名为“记忆库”的全新功能。这项功能的核心价值,在于为AI Agent赋予跨会话的长期记忆能力,旨在彻底解决多轮对话中信息丢失与遗忘的行业核心痛点。目前,该功能正处于限时免费公测阶段。官方性能数据显示,其在关键指标上表现突出:记忆检索性能大

热心网友
05.12
全链网30官方报价6.7946 最新行情分析与解读
web3.0
全链网30官方报价6.7946 最新行情分析与解读

今天外汇市场的表现,可以说是在平静中透着一丝韧性。北京时间下午四点半,在岸软妹币对美元汇率官方收盘价定格在6 7946。 这个数字背后有两个值得玩味的对比:一是比起前一个交易日的官方收盘价,小幅上扬了8个基点;二是相较于昨晚夜盘的收盘价,则回升了17个基点。虽然波动幅度不大,但这种日内低开后的企稳回

热心网友
05.12
北境墓碑全收集攻略 遥遥西土地图点位详解
游戏攻略
北境墓碑全收集攻略 遥遥西土地图点位详解

《遥遥西土》北境区域共有十个墓碑等待收集。首个墓碑位于地图北部悬崖下方,玩家需跳至崖底才能发现,其旁另有一座墓碑作为参照。具体位置与探索方法可参考相关视频攻略。

热心网友
05.12
归环好彩骰获取途径大全与快速入手方法
游戏攻略
归环好彩骰获取途径大全与快速入手方法

归环好彩骰”是游戏的核心机制,通过投掷骰子组合牌型获得奖励。它将叙事、战斗与成长深度整合,玩家的选择与骰点结果直接影响剧情走向和战斗效果。机制简单易上手,无时间压力,提供即时强反馈。游戏结合“万相卡”与角色流派,支持多样策略,平衡随机性,提升了内容探索深度与复用价值。

热心网友
05.12
植物大战僵尸抽卡重置版上线时间确定 开服日期与预约指南
游戏攻略
植物大战僵尸抽卡重置版上线时间确定 开服日期与预约指南

《植物大战僵尸》抽卡重置版已上线,核心玩法融合塔防与抽卡。游戏包含七阶卡池系统,顶级卡牌稀缺。新增超百种原创植物,僵尸行为更复杂,关卡设计多样。随机植物模式增加变数,roguelike元素提升重复可玩性。版本持续更新,社区活跃。

热心网友
05.12