腾讯研究新突破AI模型如何自主生成难题提升推理能力_AI热点日报

在数学教育中，教师常引导学生：“将这两道基础题融合，尝试解决一个更综合的难题。”近期，腾讯HY、香港科技大学与香港大学的研究团队，正是受此经典教学智慧的启发，开发出一套名为Composition-RL的创新性方法。这项于2026年2月13日发布在arXiv（论文编号：2602 12036v1）上的研

在数学教育中，教师常引导学生：“将这两道基础题融合，尝试解决一个更综合的难题。”近期，腾讯HY、香港科技大学与香港大学的研究团队，正是受此经典教学智慧的启发，开发出一套名为Composition-RL的创新性方法。这项于2026年2月13日发布在arXiv（论文编号：2602.12036v1）上的研究，为大语言模型（LLM）的强化学习训练范式带来了突破性进展。

腾讯等研究机构突破性进展：如何让AI模型从简单题目中

当前AI模型的训练模式，类似于为学生准备一场综合性考试。传统方法依赖于让模型反复练习海量题目。然而，随着模型能力不断增强，原有题目库会逐渐丧失挑战性——好比让大学生反复解答四则运算，正确率几乎总是100%。此时，这些题目便无法提供有效的学习梯度。

研究团队揭示了一个关键瓶颈：在训练进程中，部分题目会变得“过难”（模型持续答错），而另一部分则会变得“过易”（模型持续答对）。以往研究多集中于处理“难题”，但本研究发现，“易题”同样是训练效率的隐形杀手。当模型在训练后期对75%的题目都能稳定答对时，真正能驱动模型进步的“有效训练数据”比例就骤降至25%，这无疑造成了巨大的计算资源与时间成本的浪费。

于是，一个极具创造性的解决方案应运而生：既然简单题目已失去挑战性，何不将多道简单题进行智能组合，从而构造出全新的、难度更高的综合题？这好比将基础的刀工与调味技巧，融合创新出一道工序繁复的精致菜肴。

一、巧妙的“题目拼接术”：把简单变复杂的艺术

团队提出的核心技术称为“顺序提示组合”（Sequential Prompt Composition, SPC），其过程犹如完成一幅逻辑严密的推理拼图。

假设现有两道数学题：第一题为“求解方程 2x - 7 = 3 中 x 的值”（答案为5），第二题为“化简表达式 3(5p + 1 - 2p × 4) + (4 - 1/3)(6p - 9)”。在传统训练中，模型会分别独立求解。而SPC方法则将它们进行深度语义融合。

组合过程遵循三步法，类似于编程中的函数调用与参数传递。首先，从第一题的答案中提取核心数值（本例中为5），并为其赋予一个新变量名（例如X），同时用自然语言进行封装描述：“设X为满足方程 2x - 7 = 3 的 x 值的总和。”

接着，在第二题中选定一个特定数字（例如常数项1），用另一个变量Y进行替换，从而将题目改写为：“化简表达式 3(5p + Y - 2p × 4) + (4 - 1/3)(6p - 9)”。

最后，建立变量X与Y之间的逻辑关系。由于X=5，而原Y位置为1，因此可表述为“Y比X小4”。

至此，一道全新的复合推理题便诞生了：“设X为满足方程 2x - 7 = 3 的 x 值的总和。Y比X小4。请化简表达式 3(5p + Y - 2p × 4) + (4 - 1/3)(6p - 9)。”模型若要正确解答，必须依次完成求解第一题、确定变量关系、再代入化简第二题这三个步骤，形成了一条环环相扣的多步推理链。

此过程支持迭代扩展，可将三道、四道甚至更多题目进行嵌套组合，从而创造出层级递进的复杂问题。团队将组合的题目数量定义为“组合深度”，深度越大，对模型综合推理能力的挑战性就越高。

二、意外的发现：简单题目竟是训练的“绊脚石”

实际训练数据的监测揭示了一个值得警惕的现象。团队追踪了训练过程中“全对题目”（即模型每次都能100%答对的题目）的比例变化，发现该比例在前50个训练步数内，从接近零迅速攀升至50%以上，并最终稳定在75%左右的高位。

这意味着什么？设想一个包含12000道题目的标准训练集，随着模型学习推进，其中约9000道题对模型而言已变得过于简单，丧失了训练价值，真正能提供学习信号的题目仅剩3000道。这直接导致了训练效率的大幅折损。

更关键的是，团队测试了不同能力水平的模型，发现即使是性能更强的模型，在面对组合生成的题目时，其准确率也会出现显著下降。例如，OpenMath-Reasoning-1.5B模型在原始题目上的准确率为92.3%，面对组合题时则降至72.6%；JustRL-1.5B模型从94.6%降至79.2%。这有力地证实了，通过智能题目组合，能够高效地将“易题”转化为具有持续训练价值的挑战性样本。

三、跨领域的“混搭”实验：数学遇上物理

团队还进行了一项极具启发性的探索：将不同学科的题目进行跨领域组合。具体而言，他们将物理学题目与数学题目深度融合，创造出需要综合运用多学科知识才能解决的复合型问题。

这不同于简单的题目混合（Mixture），而是真正的知识融合（Fusion）。传统方法好比分别提供中餐和西餐的食材，或者将它们并排摆放；而SPC方法则是将中西烹饪技法与食材深度融合，创造出一道全新的融合菜。

实验结果令人振奋。在多项基准测试中，使用跨学科组合题目进行训练的模型，不仅在纯数学任务上表现更优，在物理任务上也有显著提升，甚至在法律、工程、化学等其他领域的推理任务中也展现出更强的泛化能力。

例如，在AIME24数学竞赛题测试中，使用物理-数学组合题目训练的模型，其准确率比仅用纯数学题训练的模型高出9.1%。在涵盖广泛专业知识的MMLU-Pro测评中，组合训练模型也比传统的混合训练方法高出4.3个百分点。

四、渐进式学习：从简单到复杂的阶梯式训练

团队进一步设计了一种“课程学习”式的渐进训练策略，类似于为学生量身定制的阶梯式学习计划。并非一开始就让模型直面最复杂的组合题，而是遵循从易到难的原则，逐步增加挑战。

这个过程如同学习一门乐器：从演奏基础音阶和简单练习曲开始，待技巧纯熟后，再逐步挑战结构复杂、情感丰富的协奏曲。

具体实施时，团队首先让模型在原始数学题（组合深度为1）上进行训练，待其性能趋于稳定后，再切换至由两道题组合而成的训练集（深度为2），之后进一步进阶到三道题组合（深度为3）。

实验数据充分证明了该策略的卓越效果。在AIME24测试中，采用课程式Composition-RL训练的4B参数模型，达到了37.9%的准确率，其表现甚至超越了某些使用8B参数的其他先进训练方法（如Beyond-80/20的34.6%、Alpha-RL的28.3%和RL-ZVP的24.6%）。这意味着，通过更精巧的训练方法，可以用更小的模型参数量和更少的数据，获得更优的最终性能，堪称效率优化的典范。

五、深度解析：为什么这个方法如此有效

该方法取得成功的背后，主要基于两大核心原理。

首要原因是“组合泛化能力”的提升。当模型学会解决组合题目时，它实质上是在掌握如何动态重组和灵活运用已有的基础技能。这好比一位厨师精通了切、炒、炖、调等基本功后，便能根据现有食材创新出无数道菜肴。研究发现，在组合题上训练的模型，面对更深或更复杂的组合时表现更好，说明其真正内化了技能组合与迁移的内在规律。

其次是“隐式过程监督”机制的引入。在组合题中，模型必须先正确解出前序子题，才能获得推进后续步骤所需的中间结果。这类似于复杂烹饪中的步骤依赖：必须先将香料爆香，才能激发出后续食材的风味。这种题目结构天然地引导并监督模型学习正确的、连贯的推理链条。团队通过追踪模型对中间变量的计算准确率发现，该指标随着训练稳步提升，证实了组合题确实促进了更优、更可靠的推理过程学习。

六、广泛的实验验证：从小模型到大模型的全面测试

为了验证方法的普适性与可扩展性，团队在多种参数规模的模型上进行了系统性测试，范围覆盖从4B到30B参数。

结果显示，Composition-RL方法在所有规模的模型上均能带来一致的性能提升，且呈现出“模型越大，提升越显著”的趋势。在4B模型上整体性能提升3.3%，8B模型提升3.7%，14B模型提升4.3%，而在30B的大型模型上，提升幅度达到了显著的10.5%。

尤为重要的是，这种提升效应不仅局限于数学推理领域。在GPQA（研究生级别科学问答）和MMLU-Pro（大规模多任务语言理解专业版）等通用能力测评中，采用Composition-RL训练的模型也展现出更强的知识泛化与复杂推理能力。

团队还通过消融实验深入探讨了不同题目选择策略的影响。研究发现，从一个更大的、多样化的题目池中选择第二题进行组合，其效果显著优于从一个较小的、同质化的题目池中选择。这启示我们，组合元素的多样性与异质性，是最大化训练效果的关键因素之一。

七、实际应用价值：重新思考AI训练的资源利用

这项研究的意义超越了提出一个具体的技术方法，它更提供了一种全新的范式，以应对AI训练中日益高昂的数据获取与标注成本问题。

现实中，收集和标注高质量、高难度的训练数据代价巨大。而Composition-RL提供了一种“数据增效”的解决方案：通过对现有高质量但已“过易”的数据进行创造性重组，能够生成大量新颖且更具挑战性的训练样本，从而极大提升数据集的利用效率。

团队通过计算展示，基于一个包含2万道基础题的种子集，理论上可生成多达4亿道（20,000 × 19,999）独特的组合题。尽管实际应用中需要经过严格的质量过滤，但其数据扩增潜力是巨大的。关键在于，这种方法创造的不是简单的数据复制或加噪，而是真正蕴含新挑战、能迫使模型学习新技能组合与推理模式的优质问题。

八、技术细节：严谨的实验设计和质量控制

为确保自动生成的组合题目的高质量与可靠性，团队设计了一套严谨的自动化验证与过滤流程。他们利用先进的大语言模型作为“组合引擎”，但在每个关键环节都嵌入了多重质量检查机制。

这个过程如同现代化生产线上的全流程质量管控。每个组合步骤完成后，系统会自动检测逻辑一致性、变量冲突、语义连贯性等问题。只有通过全部自动化检查的题目才会被纳入最终的训练集。经过此严格过滤，最终数据集的错误率被控制在2%以下，达到了学术研究级训练数据的可靠标准。团队使用了如Qwen2.5-32B-Instruct等先进模型来执行组合与验证任务，保证了整个流程的鲁棒性。

在训练配置上，团队采用了统一且可复现的超参数设置：批次大小为256，学习率为1×10^-6，温度参数为1，每个问题采样8个回答，最大输出长度限制为16K tokens。这些细节确保了实验结果的严谨性与可比性。

九、未来展望：这只是开始，不是结束

团队在论文中也坦诚讨论了当前方法的局限性并展望了未来的研究方向。

首先，当前实验主要集中于数学与科学推理领域，尽管跨学科实验初显成效，但在更广泛的领域（如人文社科、代码生成、创意写作）的应用效果与适配方法仍需进一步探索与验证。

其次，目前的组合模式相对简单，主要是线性串联结构。未来可探索更复杂的组合拓扑，如树状依赖、图结构关系或条件分支等更灵活的交互模式。

几个颇具前景的探索方向包括：将方法扩展到Polaris-53K等高难度数学竞赛数据集；将Composition-RL范式推广至更多学科和任务类型；探索该方法与在线策略蒸馏、反事实数据增强等更先进训练技术的结合潜力。

十、深远影响：重新定义AI学习的边界

这项研究的影响可能远超其技术细节本身。它提出了一个深刻的命题：当前AI学习的瓶颈或许并不在于数据量的绝对匮乏，而在于对现有高质量数据利用效率的严重不足。

这类似于可持续发展中的资源循环利用理念。与其不计成本地持续开采新数据“矿产”，不如更充分、更智能、更创造性地利用我们已经拥有的“数据富矿”。Composition-RL展示了一种令人兴奋的可能性：通过智能重组与知识融合，能够从有限的基础数据中，挖掘出近乎无限的学习潜力与挑战梯度。

从更宏大的视角看，这种方法深刻呼应了人类高效学习的本质。卓越的学习者并非机械记忆孤立的知识点，而是能够灵活地重组、迁移并创造性应用已有知识来解决新问题。一位顶尖的厨师，其核心价值不在于记住所有现存菜谱，而在于能依据当下食材与食客需求，创新出前所未有的美味。

团队已承诺将发布完整的代码、数据集及预训练模型。他们构建的MATH-Composition-199K和Physics-MATH-Composition-141K等高质量数据集，将成为推动相关领域未来研究的重要公共资源。

归根结底，Composition-RL不仅是一项具体的技术创新，更是一种思维范式的转变。它揭示，在追求更强大、更通用人工智能的道路上，重大突破有时并非源于计算资源与数据量的简单线性堆砌，而是来自于对现有资源更精巧、更智能的运用与组合。这种化易为难、点石成金的智慧，或许正是推动AI持续突破现有能力边界的关键钥匙之一。

Q&A

Q1：Composition-RL具体是什么技术？

A：Composition-RL是一种面向大语言模型（LLM）的强化学习训练新范式。其核心思想是通过“顺序提示组合”（SPC）技术，将多道已失去训练难度的简单题目，通过变量关联、逻辑嵌套等纽带，智能地组合成一道全新的、更具挑战性的综合题目，用于持续高效地训练AI模型。例如，将两道独立的数学题进行语义连接，使得解答第二题必须依赖第一题的正确结果，从而将已“过易”的训练样本，重新转化为能驱动模型能力增长的优质数据。

Q2：为什么要把简单题目组合成复杂题目？

A：因为在AI模型的持续训练过程中，随着其能力提升，训练数据集中会有大量题目变得过于简单，导致模型每次都能轻松答对，这些“全对题目”便无法再提供有效的学习信号（梯度）。研究发现，在训练后期，高达75%的题目可能陷入此状态，严重拖累整体训练效率与资源利用率。通过智能组合，可以使这些简单题目重新获得适宜的难度，恢复其训练价值，实现数据集的“动态难度适配”。

Q3：Composition-RL的效果如何？

A：实验效果非常显著。研究表明，该方法能在不同参数规模的AI模型上带来3%至10%的性能提升，且呈现出“模型越大，提升越明显”的趋势。一个突出的案例是，使用该方法训练的4B参数“小”模型，其在AIME24数学竞赛上的表现，甚至能超越某些使用8B参数的传统方法训练的“大”模型。这意味着，该方法有望以更少的计算开销与数据依赖，获得更优的最终模型性能，为高效AI训练提供了新路径。