这项由蚂蚁集团Inclusion AI、浙江大学、上海创新研究院与西湖大学联合开展的研究,以预印本形式公开发布于2026年6月17日,论文编号为arXiv:2606.19047,重点聚焦大模型训练中的在线数据合成技术。
一、教练手里的题库用完了
假设你正在备考一场数学考试,你的教练手里有一套500道练习题。一开始,你做每道题都很吃力,每次做完题、看答案、找错误,都能学到新东西,进步飞快。可当你把这500道题全都做熟了,再做同样的题就毫无意义——不是太简单全对,就是太难完全不会,两种情况都无法帮你继续进步。这时候,教练要么得出新题,要么就只能眼睁睁看着你的备考停滞不前。
这正是当前AI大模型训练面临的核心困境。研究人员正在训练一类叫做"多轮工具调用智能体"的AI——通俗地说,就是能够通过多次来回对话、调用各种外部工具(比如查天气、查股票、操作文件系统)来帮用户完成复杂任务的AI助手。训练这类AI需要大量真实的多轮对话数据,但高质量的训练数据极度稀缺,比如业界著名的BFCL V3测试集里只有800条样本——这对于训练来说远远不够。
更麻烦的是,即使有了这些数据,随着AI模型能力不断提升,原来的训练题目会逐渐变得"太简单"或"太难",就像那500道题被做熟之后的窘境。这背后有一个深层的数学规律:在强化学习训练中,真正能推动模型进步的,是那些介于"会"和"不会"之间的题目——也就是模型有时答对、有时答错的题目。对于这类题目,训练算法能从成功与失败的对比中提取到最丰富的学习信号。一旦题库里的题目全都变成"全对"或"全错",训练信号就会像枯竭的水井,再怎么努力也提不上来水。
研究团队将这个现象称为"能力边界的漂移"——随着模型越来越强,那条介于会与不会之间的边界线会不断向更难的方向移动,而静态的训练数据集没有办法跟上这条移动的边界线。
研究团队为这个困境提出了一套名为RODS(Reward-driven Online Data Synthesis,奖励驱动的在线数据合成)的解决方案,核心思路简单而精妙:让训练系统在学习的同时,实时出新题,而且出的新题始终精准瞄准当前模型的能力边界,既不太难也不太简单。
二、"最佳学习区"的数学原理
在深入了解RODS的工作方式之前,有必要理解一个关键的数学洞察,因为整个方案都建立在这个洞察之上。
训练AI使用的是一种叫做"强化学习"的方法,具体采用的算法叫GRPO。每次训练时,模型会对同一道题生成16个不同的答案,然后根据这16个答案的得分情况来调整自己的参数,学习"什么样的做法得分更高"。关键在于:如果16个答案全都对(说明这题太简单了),模型就没什么可学的——因为它已经知道怎么做了;如果16个答案全都错(说明这题太难了),模型也没什么可学的——因为它完全摸不着头脑,无法从失败中提取有用信息。真正有价值的,是那些有对有错、答案参差不齐的题目——模型在这类题目上能清晰地看到"什么做法导致成功,什么做法导致失败",从而提取最丰富的改进信号。
这背后有一个数学定理的支撑:Popoviciu不等式告诉我们,一个取值在0到1之间的变量,其方差的上限是μ×(1-μ)——这个函数在μ=0.5时取到最大值。换成大白话就是:当一道题的成功率恰好在50%左右,模型的学习信号最强。研究团队通过实验验证了这个数学直觉:在实际训练中收集了4800个任务样本的统计数据,发现处于"边界区域"(成功率在25%到75%之间)的任务,其奖励方差比"太简单"或"太难"的任务高出2到2.2倍,这直接意味着每道边界题能产生的学习价值比其他题目高出一倍以上。
这个洞察的美妙之处在于,发现这些"最佳学习区"的任务完全不需要额外的计算代价——因为训练过程本身就需要对每道题跑16次推理来计算优势值,这些数据天然就包含了判断一道题是否处于能力边界所需的全部信息。RODS只是把这些本来就存在的信号重新利用了起来,充当"题目难度探测器"。
三、RODS的三个核心模块——侦察、仿制、管理
整个RODS系统可以用一个贴切的比喻来理解:一个能够自我更新的智能题库管理系统。这个系统有三个紧密协作的部门:第一个部门负责实时侦察当前模型的能力边界;第二个部门负责根据边界题目快速仿制出结构相似但内容全新的练习题;第三个部门负责维护一个动态更新的"活跃题库",确保题库里的题目时刻处于最有价值的状态。
侦察部门:实时定位能力边界
在每一步训练过程中,系统都在悄悄给题库里的每道题打一个"价值分数"——具体来说,就是计算这道题在最近几次训练中的平均进度奖励值。研究团队把训练数据按这个分数分成三个区域:平均分超过0.85的题目被归为"已掌握区",这些题太简单,模型已经能稳定做对,继续练毫无意义;平均分低于0.20的题目被归为"暂时触不到区",这些题对当前模型来说过于超前,强行练习只是浪费资源;平均分介于两者之间的题目就是黄金地带——"能力边界区",这里的题目才是出新题的原材料。
在选取边界题目时,系统还做了一个细心的设计:按照题目类型进行配额管理,确保每次选出的新种子题在不同题型上有均衡覆盖,防止系统对某一类题型产生偏好而忽视其他类型。在每种题型内部,再按照成功率最接近50%的原则排序优先选取。另外,系统还设置了一个"时间隔离窗口":同一道题在被选为种子题之后的若干训练步内不会被重复选中,避免反复基于同一道题生成变体题而导致多样性不足。
仿制部门:五步流水线造新题
找到了边界种子题之后,仿制工作才是真正的技术难点。如果只是简单地换几个数字或名字,生成的新题会缺乏多轮对话之间的逻辑连贯性——就像把一部完整电影的几个场景随机拼凑在一起,虽然画面是真实的,但故事毫无意义。研究团队将这个问题定义为"语义脱节",并专门设计了一套五阶段多智能体流水线来解决它。
这套流水线的核心思路是"骨架不变,血肉全新"——保留原题的API调用拓扑结构(比如需要先调用工具A获得数据,再把这个数据作为参数传给工具B,这样的依赖关系链条保持不变),但在这个骨架上重新生成全新的故事背景、参数值和自然语言描述。
第一阶段由一个"规划智能体"负责,它读入种子题,从可用的API函数库中为新题规划出一个结构相近的函数调用序列,同时创作一个统一的叙事背景(比如"用户张明想要查询股票后进行交易"),并将历史失败经验记录下来,避免在新题中重蹈覆辙。
第二阶段由"执行编排智能体"负责,它把规划好的函数序列放到一个模拟的执行环境中真实运行,生成包含完整地面真实值的原始轨迹。如果执行过程中遇到错误,系统会触发一个双路修复机制:一方面,"配置修补智能体"会分析环境状态中的问题(比如账户余额不足、市场状态关闭等),生成修补指令;另一方面,规划智能体会收到失败函数的黑名单,重新规划一条避开障碍的路径。这个修复循环最多尝试三次。
第三阶段是整个流水线中最关键的"全局语义渲染"步骤,由"重写智能体"负责。这个智能体的特别之处在于,它不是逐轮独立生成用户提问,而是一次性看到全部轮次的函数调用,然后以第一阶段创作的叙事背景为主线,同时生成所有轮次的自然语言提问。这种"上帝视角"的生成方式确保了整个对话中存在自然的前后引用和逻辑衔接——就像一个作者先构思好整个故事再逐段写作,而不是每次只看着眼前一段往下写。
第四阶段是严格的质量把关,由"评判智能体"按照五项标准逐一检验:每轮用户提问是否与该轮的函数调用意图严格对应;参数值是否与环境配置一致;跨轮次是否有合理的状态演进;提问是否像真实用户的自然语言而非技术文档;特殊场景(如缺少某个工具、参数不明确需要追问)的结构是否正确体现。如果某条数据被拒绝,系统会进一步诊断问题出在用户提问的措辞上还是地面真实答案本身有误——前者可以通过重写修复,后者则直接丢弃这条数据。
第五阶段是可选的"对抗增强"步骤,专门为缺少某类工具或参数不完整的题型注入结构性的例外情况,强迫模型学会在工具不可用或信息不足时恰当地拒绝执行或请求澄清,而不是蒙混作答。
管理部门:活跃题库的动态生命周期
新题生成出来了,如何管理这个持续扩充的题库同样大有讲究。研究团队设计了一套双重控制机制。
在扩充侧,新生成的题目不会立即投入训练,而是先放在候选队列里,在每个训练轮次结束时才批量注入活跃题库。每次注入的量被严格限制在当前活跃题库大小的20%以内,避免一次性涌入太多新数据打乱训练的节奏,造成模型不稳定。
在淘汰侧,系统设置了三道"退休"机制。第一道是入门筛查:刚注入的新题会先经过一轮测试,如果初始得分低于门槛值,说明这道题对当前模型来说还是太难,直接淘汰。第二道是边界漂移驱逐:随着训练进行,某些题目可能从边界区漂移到了"已掌握区"或"暂时触不到区",这些题目也会被及时清出题库。第三道是容量上限控制:当题库超过最大容量时,按照每道题的奖励方差从低到高的顺序淘汰,保留最具学习价值的题目。此外,长期没有被抽取到参与训练的题目也会被标记为"过时数据"并清除,防止无效数据积压。
系统还有一条硬性保护规则:最初的400道人类标注的种子题永远不会被淘汰出去,它们是整个系统的锚点,确保生成的新题不会漂离真实数据的分布。
四、用400道题的效果打败17000道题的数据集
实验结果是整篇论文中最令人印象深刻的部分。研究团队在BFCL V3这个业界公认的多轮工具调用基准测试上进行了系统性评估,测试包含四类任务:基础多轮调用、缺少某个工具时的应对、参数信息不完整时的追问、以及长对话中的上下文维持。
研究团队将RODS与两条基准线进行了公平对比:三种方法都使用相同的400道种子训练题、相同的GRPO训练配置和相同的进度奖励函数,唯一的区别在于面对梯度信号枯竭时的应对策略。第一种是静态数据集训练(Static Dataset),完全依赖固定的400道题;第二种是EnvTuning,这是一种环境增强方法,不新增数据,但在模型答错时提供更丰富的反馈提示,帮助模型从同样的题目中榨取更多信号;第三种就是RODS。
以Qwen3-4B-Instruct模型为例,静态数据集训练的综合得分为50.00%,EnvTuning提升到50.50%,而RODS达到了56.00%——比静态训练高出整整6个百分点,比环境增强方法高出5.5个百分点。这个差距在四类子任务上均有体现,说明RODS的提升是全面的而非只对某种特定题型有效。
更值得关注的是与大规模离线数据集的对比。研究团队将RODS与FunReason-MT-4B进行了横向比较,后者是用17000道离线合成数据训练出来的同等规模模型,代表了当前大规模数据合成方案的最高水准。RODS用400道种子题加上训练过程中动态生成的最多400道补充题(活跃题库最多约800道),取得了56.00%的综合得分,而FunReason-MT-4B的得分是56.50%。换句话说,RODS用大约1/20的数据量,达到了几乎相同的训练效果。在"缺少功能"和"缺少参数"这两个子类上,RODS甚至反超了FunReason-MT-4B。
在泛化能力测试上,研究团队还在三个完全不同的测试集上评估了模型:BFCL V4(包含网络搜索和记忆管理两类全新任务)、τ²-bench(零售、航空、电信等真实业务场景)、以及ACEBench智能体测试集。基于RODS训练的模型在所有这些测试集上都稳定优于同等数据量下的对比方法,这表明通过结构化同构合成出来的数据确实能让模型学到可迁移的推理能力,而不只是记住了训练数据的表面特征。
为了验证边界瞄准本身的价值,而不只是"多一些数据"的价值,研究团队设计了一个关键消融实验:将"从边界区选种子题"替换为"从整个题库随机选种子题"。结果显示,随机选种子的版本综合得分下降了4.75个百分点,说明边界定位而非数据数量是RODS有效的根本原因。
研究团队还系统地研究了数据量与效果的关系,将活跃题库的最大容量从0(即纯静态)逐步扩大到50、100、200、400。结果显示,即使只增加50道边界合成题(相当于仅扩充12%的数据量),模型效果也有明显提升;随着容量增加,效果持续改善,但到200以后开始出现明显的边际递减效应,说明400道原始种子题所覆盖的边界空间大约在200道变体之后就基本被覆盖完了。
五、系统内部发生了什么——数据空间的动态演化
为了让读者理解RODS为什么有效,研究团队还展示了训练过程中数据空间的实时变化情况,这些数据图像直观地展现了系统的内部运作逻辑。
随着训练步数从0推进到800步,活跃题库中的任务数量经历了一个有趣的动态变化:原始的400道静态题目构成基础底盘,随着模型能力提升,其中越来越多的题目被掌握并"退休";与此同时,系统持续生成新的边界题目注入进来,累计生成了超过800道独特的任务。全程活跃题库的大小被控制在400道左右的上限范围内,既保证了训练数据的新鲜度,又避免了题库无限膨胀带来的管理困难。
刚被注入的新合成题目的平均得分分布表明,它们稳定地落在0.25到0.75的边界区间内,说明仿制流水线确实成功地将新题的难度控制在了对当前模型最有价值的区间。这不是偶然发生的,而是结构化同构设计的直接结果——通过保留种子题的API调用拓扑结构,新题自然继承了与种子题相近的难度等级。
六、换一个合成大脑,效果几乎不变
RODS的合成流水线需要一个外部大语言模型来驱动各个智能体(规划、执行、重写、评判等)。默认配置使用的是Qwen3-32B。一个合理的疑问是:RODS的效果是否严重依赖这个特定模型的质量?
研究团队用GLM-4.5-Air替换了Qwen3-32B作为合成大脑,其他所有设置保持不变,重新跑了一遍完整的训练流程。结果显示,综合得分从56.00%下降到55.25%,差距仅为0.75个百分点。这个结果很有说服力:两个模型能力有差异,但RODS框架的骨架设计——边界检测、结构同构、动态题库管理——对合成引擎的质量波动有很强的鲁棒性。这意味着RODS不是一个严格依赖某个特定大模型能力的方案,而是一个框架性的方法,可以插入不同的生成引擎使用。
有趣的是,两个合成引擎在子任务上呈现出互补的特点:Qwen3-32B在基础类和缺少功能类任务上表现更好,而GLM-4.5-Air在缺少参数和长上下文类任务上略胜一筹。这个观察提示了一个潜在的优化方向:用多个不同合成引擎的组合来覆盖更广的结构多样性。
七、消融实验揭示的关键依赖
除了前面提到的边界选种实验,研究团队还系统地拆解了系统的其他关键组件,通过逐一"拔掉"某个模块来量化其贡献。
去掉全局语义重写(即各轮提问独立生成,没有统一叙事背景)之后,综合得分下降了5.13个百分点,这是所有消融实验中下降幅度最大的。更直观的指标是质量评判通过率:有重写时约63%的生成数据通过质量检验进入训练,去掉重写后这个比率骤降至12%,意味着大量生成的数据因语义脱节而被淘汰,系统可用数据量急剧萎缩。
去掉叙事规划(规划智能体不再创作统一故事背景)之后,得分下降3.63个百分点,说明故事背景在引导跨轮次连贯性方面发挥了重要作用,即使不做最终的重写也能提供部分保护。
去掉反馈修复循环(执行失败时直接随机重试而不积累修复信号)之后,得分下降2.13个百分点,这个下降相对温和,但也说明有反馈的定向重试比盲目重试更高效。
在题库管理侧,禁用三层退休机制之后,得分下降3.38个百分点,说明允许已掌握的题目持续留在题库中会稀释有效梯度信号,模型的学习资源被浪费在已经不能带来进步的题目上。将动态刷新改为"只在Stage 3开始时生成一批固定题目之后不再更新",得分下降2.88个百分点,进一步证明持续跟踪能力边界而非一次性生成补充数据是RODS有效性的关键要素之一。
八、从连续进度奖励到二值奖励
研究团队还有一个与众不同的设计选择值得特别提及:用"进度奖励"而非简单的"对/错"来衡量每道题的质量。进度奖励是一个0到1之间的连续数值,由每轮对话中环境状态执行正确率与工具调用成功率的乘积平均得到,能细粒度地反映模型在每道题上的部分完成程度。
用二值对错替换连续进度奖励作为边界检测信号时,综合得分下降了3.25个百分点。这个差距直观地说明了进度奖励的价值:对于复杂的多轮任务,一个模型可能能正确完成3轮中的2轮,用二值奖励会把这种部分正确计为"错误",而进度奖励能精确记录这种中间状态,从而更准确地定位能力边界,筛选出更有价值的种子题。
九、这套方法的局限与未来方向
研究团队在论文中坦诚地指出了RODS当前的主要局限:整套系统依赖一个可以确定性执行并验证结果的模拟环境(用Python对象实现),这样才能保证合成出的数据是正确的。对于那些状态不透明的远程工具(比如通过网络调用的MCP服务器),当前的验证框架无法直接适用——因为你无法访问和控制这些外部服务的内部状态来验证执行结果。
研究团队表示,下一步将探索如何把模拟抽象层扩展到能够安全包装和交互有状态MCP端点的形式,让合成引擎能够在不直接访问底层内部状态的情况下捕获输入-观测动态。此外,多合成引擎集成的方向(用不同大模型分别合成不同类型的任务,然后集成到统一题库)也被列为值得探索的延伸方向。
说到底,RODS解决的是一个在AI训练领域普遍存在但之前缺乏系统化解决方案的问题:如何在训练过程中实时保持数据的"恰到好处"。这个方案的聪明之处在于它的零额外代价——所有用于判断题目价值的信息,都是训练过程本身必须计算的中间结果,RODS只是把这些信息重新利用了起来,不需要额外的标注人员、不需要额外的推理调用、也不需要手动设计课程安排。
归根结底,这项研究告诉我们一件事:在AI训练中,"在正确的地方投入资源"远比"投入更多资源"更重要。用精准瞄准边界的800道题,可以比用17000道随机分布的题取得相近甚至更好的效果——这对于那些数据稀缺、标注成本高昂的实际应用场景,是一个很有价值的方向性启示。
Q&A
Q1:RODS的"能力边界"是怎么判断的?
A:RODS利用强化学习训练本身已经计算好的奖励数据来判断边界。每道题在训练中会被跑16次推理,系统取这16次的平均进度奖励值:如果平均分在0.20到0.85之间,就认为这道题处于模型当前的能力边界——既不太简单(模型每次都对)也不太难(模型每次都错)。这种判断方式完全免费,不需要额外的计算开销。
Q2:RODS合成的题目如何保证多轮对话的逻辑连贯性?
A:RODS通过两个机制保证连贯性。首先,规划阶段会创作一个统一的叙事背景,比如"某用户想完成某项具体任务",让所有轮次的对话围绕同一个故事展开。其次,重写阶段一次性看到全部轮次的函数调用,再统一生成所有轮次的用户提问,而不是逐轮独立生成,这样能确保前后有自然的引用关系和逻辑演进。
Q3:RODS相比直接生成大规模数据集,成本上有什么差异?
A:RODS的合成计算成本大约等于训练本身的成本——训练用了8块A100 GPU跑约56小时,合成也用了同等规模的GPU同步运行。总成本约为896 GPU小时。相比之下,像FunReason-MT这类方案需要预先离线生成17000条数据,其合成成本在训练开始前就已大量投入,而且这17000条数据中很多在训练后期对模型来说已经没有学习价值。RODS的核心优势不在于绝对成本更低,而在于每一条数据的学习价值更高,最终用更少的有效数据量达到相近的训练效果。
