普林斯顿与北大合作,8块A100 GPU训练出的32B模型在数学性能上超越DeepSeek V3和o1-preview。这事儿在圈子里炸开了锅——小模型逆天改命的戏码,还真就这么上演了。
核心亮点有三:一是ReasonFlux框架,一套创新的分层LLM推理方法;二是ReasonFlux-32B模型,在MATH和AIME基准测试中表现惊人;三是三大技术支柱——结构化通用思维模板库、分层强化学习、Scaling思维模板。

事情得从这篇论文说起:https://arxiv.org/abs/2502.06772,开源项目在 https://github.com/Gen-Verse/ReasonFlux。来自普林斯顿和北大的华人团队,提出了一种叫ReasonFlux的分层LLM推理框架,核心理念是:通过Scaling思维模板来优化推理搜索空间。
结果呢?ReasonFlux-32B在MATH基准上准确率高达91.2%,比o1-preview高出6.7%;在AIME基准上解题率56.7%,直接把o1-preview甩开27%——注意,这还只是32B参数的小模型。
来看一个推理示例:同一道数学题,o1-mini从第二步就开始跑偏,而ReasonFlux在四步思考中步步精准,最终给出正确答案。这表现,足以称得上“数学大师”。
成功的背后是三大技术创新:
- 结构化通用思维模板库:约500个高层次思维模板,能泛化到类似或相关的问题。
- 分层强化学习:在思维模板序列上执行RL,不再死磕长思维链数据,让基础LLM学会规划最优模板轨迹。
- 全新的推理Scaling系统:推理过程中自适应调整思维模板,实现分层推理。
更惊喜的是,模板库已开源。
分层强化学习,掌控数学推理
LLM这两年风光无限,但在AIME、OlympiadBench、LiveCodeBench这类高难度推理任务上,还有明显短板。为了补上这一环,研究人员没少下功夫:思维树(ToT)、思维图(GoT)让模型探索多条路径;奖励模型引导方法则给每一步打分。但这些招数要么计算成本太高,要么依赖人工设计的搜索策略,泛化能力也有限。
检索增强生成(RAG)倒是能缓解幻觉、提高准确率,但在数学、编程这类复杂推理任务中,靠标准嵌入相似性搜索找模板?太难了,大规模文档下效果直线下滑。
正是在这个节骨眼上,普林斯顿和北大的团队拿出了ReasonFlux——分层LLM推理。它通过构建结构化思维模板库、对思维模板轨迹做分层强化学习、并设计全新的推理Scaling系统,显著提升了复杂推理能力。
研究贡献可以概括为四点:
- 提出了ReasonFlux框架,效果拔群。
- 构建了一个结构化且精炼的模板库,约500个思维模板,全部从高难度数学问题中提炼。
- 开发了基于高层次思维模板序列的分层强化学习,让LLM能自动生成最优模板轨迹,把复杂问题拆成一系列简单的子问题。
- 设计了一种新的推理Scaling系统,通过自适应调整思维模板实现分层推理——动态检索模板,实例化推理,高效求解。
ReasonFlux框架解析
结构化思维模板库
人类在解决复杂推理问题时常常借助外部资料——受此启发,研究人员精心打造了这个模板库。他们从多个来源广泛收集有挑战性的数学推理题,再利用LLM深入分析解题思路,总结策略、挖掘模式,最终得到约500个以解决方案为导向的高质量思维模板。每个模板都配有名称、标签、描述、适用范围、应用步骤和示例等关键信息。
举个例子,“类型三角代换”模板:名称一目了然;标签便于检索(如“三角代换”“无理函数优化”);描述里详细解释了何时使用(当问题中间出现根式且满足条件时),把无理表达式转化为三角函数表达式,简化求解;适用范围则明确界定了该模板能处理的问题类型——函数优化或值域问题、含特定根式的方程或不等式、与圆相关的几何问题等。有了这些元数据,模板库就能高效检索,为不同问题精准匹配最合适的模板。
分层强化学习:规划最优推理路径
有了模板库,下一步就是选对模板、用好模板。ReasonFlux采用分层强化学习来实现。
首先是基于结构的微调。利用模板库构建训练数据集,包含模板名称、标签、原理描述和适用范围(元组形式:T_nam, T_tag, T_des, T_sco)。在这个数据集上微调基础LLM,让模型深入理解每个模板的结构和用途——优化目标是让模型在给定模板名称和标签时,能正确生成描述和适用范围。微调后的模型记为πstruct。
接着是思维模板轨迹的偏好学习。基于πstruct,进一步训练它为输入问题规划高级思维模板轨迹Ttraj。给定问题x,πstruct先分析条件信息,识别核心数学概念和关系,然后配置一条轨迹Ttraj = {S1, S2, ..., SN},每个Si代表一个高级步骤,关联一个从模板库中检索到的模板名称。检索到的模板会针对具体问题进行实例化,为推理模型πinf提供细粒度指导。
如何评估轨迹质量?研究人员用一组与x相似的问题Xsim,让πinf在轨迹引导下解决这些问题,平均准确率作为奖励R(Ttraj)。这个奖励信号用于构建优化对,进一步优化πstruct——对每个输入问题x,采样多个不同轨迹并评估质量,通过损失函数让模型学会选择最优轨迹。
推理Scaling系统
经过分层强化学习优化后,模型被称为ReasonFlux。在此基础上,研究人员设计了全新的推理Scaling系统。
面对输入问题时,ReasonFlux先提取核心数学概念和关系,配置一条最优模板轨迹——注意,这条轨迹不是固定不变的,而是根据问题特点动态生成的。然后,根据轨迹中的步骤信息,从模板库检索最相关的思维模板。
通过分析推理过程中生成的中间结果,ReasonFlux能获得有价值的见解,从而调整轨迹——这很像人类检查部分结果后找到更高效解决方案的过程。检索到模板后,ReasonFlux会指示推理模型根据问题细节实例化每个模板,把抽象模板变成具体推理步骤。过程中,ReasonFlux不断评估中间结果,决定是否调整轨迹或检索替代模板。这种迭代反馈机制,让ReasonFlux能更高效地解决复杂问题。
实验结果
研究人员用Gemini-2.0从各类数学数据集的训练集中构建了约500个思维模板的结构化模板库。训练资源有限,他们选用Qwen2.5-32B-Instruct作为基础模型和推理模型,仅用8个NVIDIA A100 GPU——成本大大降低。
在基于结构的微调阶段,用了15K个样本进行训练;模板轨迹优化阶段,用了从MATH和自制数据集中收集的10K对轨迹。
评估基准选择了MATH、AIME 2024、AMC 2023、OlympiadBench和Gaokao En 2023。基线模型包括前沿LLM(GPT-4o、Claude、o1-preview、o1-mini)和开源推理模型(DeepSeek-Coder-v2-Instruct、Mathstral、NuminaMath-72B等)。
结果令人印象深刻:ReasonFlux-32B以32B参数量达到了新的最先进水平。MATH上91.2%,比o1-preview高6.7%;AIME 2024上56.7%,比o1-preview高27%,比DeepSeek-V3高45%,与o1-mini相当。OlympiadBench上63.3%,超过DeepSeek-V3 14%;Gaokao En 2023上83.6%,比o1-mini高7%。
值得注意的是,模板库主要由公开数据集构建,且所有评估使用同一套模板库——这充分证明了其泛化能力。
进一步实验发现,使用模板增强推理能显著提高不同基础模型的推理准确率。小规模LLM在模板引导下,准确率提升明显,甚至能超越较大规模LLM的直接推理表现。在推理过程中,ReasonFlux能根据问题复杂度自适应规划模板轨迹和交互轮数——复杂度越高,自动调整检索数量和轮数,有效平衡推理成本与性能。
在探索与利用的权衡方面,与Best-of-N和MCTS等策略相比,ReasonFlux在所有难度级别下都保持更低且更稳定的探索成本。这得益于结构化模板库对搜索空间的有效优化,以及模板的高质量和泛化能力。
当然,ReasonFlux也有局限性。模板库可能无法覆盖所有类型的复杂问题;处理极端复杂或全新领域问题时,推理能力或许还需提升。未来可以进一步扩展模板库覆盖范围,探索更高效的学习算法,将ReasonFlux应用到更多领域。
