普林斯顿北大首提分层RL推理，32B模型8卡A100超越DeepSeek V3和o1-preview_AI热点日报

普林斯顿北大首提分层RL推理，32B模型8卡A100超越DeepSeek V3和o1-preview

类型：热点整理2026-06-30

普林斯顿与北大合作，8块A100 GPU训练出的32B模型在数学性能上超越DeepSeek V3和o1-preview。这事儿在圈子里炸开了锅——小模型逆天改命的戏码，还真就这么上演了。核心亮点有三：一是ReasonFlux框架，一套创新的分层LLM推理方法；二是ReasonFlux-32B模型，

普林斯顿与北大合作，8块A100 GPU训练出的32B模型在数学性能上超越DeepSeek V3和o1-preview。这事儿在圈子里炸开了锅——小模型逆天改命的戏码，还真就这么上演了。

核心亮点有三：一是ReasonFlux框架，一套创新的分层LLM推理方法；二是ReasonFlux-32B模型，在MATH和AIME基准测试中表现惊人；三是三大技术支柱——结构化通用思维模板库、分层强化学习、Scaling思维模板。

8块A100，32B碾压DeepSeek V3、o1-preview！普林斯顿北大首提分层RL推理

事情得从这篇论文说起：https://arxiv.org/abs/2502.06772，开源项目在 https://github.com/Gen-Verse/ReasonFlux。来自普林斯顿和北大的华人团队，提出了一种叫ReasonFlux的分层LLM推理框架，核心理念是：通过Scaling思维模板来优化推理搜索空间。

结果呢？ReasonFlux-32B在MATH基准上准确率高达91.2%，比o1-preview高出6.7%；在AIME基准上解题率56.7%，直接把o1-preview甩开27%——注意，这还只是32B参数的小模型。

来看一个推理示例：同一道数学题，o1-mini从第二步就开始跑偏，而ReasonFlux在四步思考中步步精准，最终给出正确答案。这表现，足以称得上“数学大师”。

成功的背后是三大技术创新：

结构化通用思维模板库：约500个高层次思维模板，能泛化到类似或相关的问题。
分层强化学习：在思维模板序列上执行RL，不再死磕长思维链数据，让基础LLM学会规划最优模板轨迹。
全新的推理Scaling系统：推理过程中自适应调整思维模板，实现分层推理。

更惊喜的是，模板库已开源。

分层强化学习，掌控数学推理

LLM这两年风光无限，但在AIME、OlympiadBench、LiveCodeBench这类高难度推理任务上，还有明显短板。为了补上这一环，研究人员没少下功夫：思维树（ToT）、思维图（GoT）让模型探索多条路径；奖励模型引导方法则给每一步打分。但这些招数要么计算成本太高，要么依赖人工设计的搜索策略，泛化能力也有限。

检索增强生成（RAG）倒是能缓解幻觉、提高准确率，但在数学、编程这类复杂推理任务中，靠标准嵌入相似性搜索找模板？太难了，大规模文档下效果直线下滑。

正是在这个节骨眼上，普林斯顿和北大的团队拿出了ReasonFlux——分层LLM推理。它通过构建结构化思维模板库、对思维模板轨迹做分层强化学习、并设计全新的推理Scaling系统，显著提升了复杂推理能力。

研究贡献可以概括为四点：

提出了ReasonFlux框架，效果拔群。
构建了一个结构化且精炼的模板库，约500个思维模板，全部从高难度数学问题中提炼。
开发了基于高层次思维模板序列的分层强化学习，让LLM能自动生成最优模板轨迹，把复杂问题拆成一系列简单的子问题。
设计了一种新的推理Scaling系统，通过自适应调整思维模板实现分层推理——动态检索模板，实例化推理，高效求解。

ReasonFlux框架解析

结构化思维模板库

人类在解决复杂推理问题时常常借助外部资料——受此启发，研究人员精心打造了这个模板库。他们从多个来源广泛收集有挑战性的数学推理题，再利用LLM深入分析解题思路，总结策略、挖掘模式，最终得到约500个以解决方案为导向的高质量思维模板。每个模板都配有名称、标签、描述、适用范围、应用步骤和示例等关键信息。

举个例子，“类型三角代换”模板：名称一目了然；标签便于检索（如“三角代换”“无理函数优化”）；描述里详细解释了何时使用（当问题中间出现根式且满足条件时），把无理表达式转化为三角函数表达式，简化求解；适用范围则明确界定了该模板能处理的问题类型——函数优化或值域问题、含特定根式的方程或不等式、与圆相关的几何问题等。有了这些元数据，模板库就能高效检索，为不同问题精准匹配最合适的模板。

分层强化学习：规划最优推理路径

有了模板库，下一步就是选对模板、用好模板。ReasonFlux采用分层强化学习来实现。

首先是基于结构的微调。利用模板库构建训练数据集，包含模板名称、标签、原理描述和适用范围（元组形式：T_nam, T_tag, T_des, T_sco）。在这个数据集上微调基础LLM，让模型深入理解每个模板的结构和用途——优化目标是让模型在给定模板名称和标签时，能正确生成描述和适用范围。微调后的模型记为π_struct。

接着是思维模板轨迹的偏好学习。基于π_struct，进一步训练它为输入问题规划高级思维模板轨迹T_traj。给定问题x，π_struct先分析条件信息，识别核心数学概念和关系，然后配置一条轨迹T_traj = {S₁, S₂, ..., S_N}，每个S_i代表一个高级步骤，关联一个从模板库中检索到的模板名称。检索到的模板会针对具体问题进行实例化，为推理模型π_inf提供细粒度指导。

如何评估轨迹质量？研究人员用一组与x相似的问题X_sim，让π_inf在轨迹引导下解决这些问题，平均准确率作为奖励R(T_traj)。这个奖励信号用于构建优化对，进一步优化π_struct——对每个输入问题x，采样多个不同轨迹并评估质量，通过损失函数让模型学会选择最优轨迹。

推理Scaling系统

经过分层强化学习优化后，模型被称为ReasonFlux。在此基础上，研究人员设计了全新的推理Scaling系统。

面对输入问题时，ReasonFlux先提取核心数学概念和关系，配置一条最优模板轨迹——注意，这条轨迹不是固定不变的，而是根据问题特点动态生成的。然后，根据轨迹中的步骤信息，从模板库检索最相关的思维模板。

通过分析推理过程中生成的中间结果，ReasonFlux能获得有价值的见解，从而调整轨迹——这很像人类检查部分结果后找到更高效解决方案的过程。检索到模板后，ReasonFlux会指示推理模型根据问题细节实例化每个模板，把抽象模板变成具体推理步骤。过程中，ReasonFlux不断评估中间结果，决定是否调整轨迹或检索替代模板。这种迭代反馈机制，让ReasonFlux能更高效地解决复杂问题。

实验结果

研究人员用Gemini-2.0从各类数学数据集的训练集中构建了约500个思维模板的结构化模板库。训练资源有限，他们选用Qwen2.5-32B-Instruct作为基础模型和推理模型，仅用8个NVIDIA A100 GPU——成本大大降低。

在基于结构的微调阶段，用了15K个样本进行训练；模板轨迹优化阶段，用了从MATH和自制数据集中收集的10K对轨迹。

评估基准选择了MATH、AIME 2024、AMC 2023、OlympiadBench和Gaokao En 2023。基线模型包括前沿LLM（GPT-4o、Claude、o1-preview、o1-mini）和开源推理模型（DeepSeek-Coder-v2-Instruct、Mathstral、NuminaMath-72B等）。

结果令人印象深刻：ReasonFlux-32B以32B参数量达到了新的最先进水平。MATH上91.2%，比o1-preview高6.7%；AIME 2024上56.7%，比o1-preview高27%，比DeepSeek-V3高45%，与o1-mini相当。OlympiadBench上63.3%，超过DeepSeek-V3 14%；Gaokao En 2023上83.6%，比o1-mini高7%。

值得注意的是，模板库主要由公开数据集构建，且所有评估使用同一套模板库——这充分证明了其泛化能力。

进一步实验发现，使用模板增强推理能显著提高不同基础模型的推理准确率。小规模LLM在模板引导下，准确率提升明显，甚至能超越较大规模LLM的直接推理表现。在推理过程中，ReasonFlux能根据问题复杂度自适应规划模板轨迹和交互轮数——复杂度越高，自动调整检索数量和轮数，有效平衡推理成本与性能。

在探索与利用的权衡方面，与Best-of-N和MCTS等策略相比，ReasonFlux在所有难度级别下都保持更低且更稳定的探索成本。这得益于结构化模板库对搜索空间的有效优化，以及模板的高质量和泛化能力。

当然，ReasonFlux也有局限性。模板库可能无法覆盖所有类型的复杂问题；处理极端复杂或全新领域问题时，推理能力或许还需提升。未来可以进一步扩展模板库覆盖范围，探索更高效的学习算法，将ReasonFlux应用到更多领域。

来源：https://www.53ai.com/news/LargeLanguageModel/2025021214953.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。