智能体并行推理大脑告别单线程思维进化
当大语言模型在文本生成的长度与流畅度上取得显著进展时,一个更为根本的挑战逐渐凸显:面对需要多路径探索、自我验证、线索整合与决策的复杂推理任务时,传统的链式思维(Chain-of-Thought)方法开始显现出其局限性。它容易固守早期判断,思维发散性不足,自我纠错能力有限,并且其顺序生成的模式存在固有的效率瓶颈。
北京通用人工智能研究院(BIGAI)语言交互实验室(NLCo)的最新研究成果——Native Parallel Reasoner(NPR,原生并行推理器),正是为了突破这一瓶颈而生。其核心目标是让AI智能体在一次思考过程中,能够同时生成并维护多条候选推理路径,在关键决策点进行智能“分叉”与“聚合”,最终像完成拼图一样,综合所有线索得出最优解。
尤为关键的是,NPR的突破并不仅限于“并行生成的工程技巧”。它创新性地提出了一套“自蒸馏 + 并行强化学习”的三阶段训练范式,并配套了专用的并行推理引擎。其深远意义在于,旨在将并行推理从一种外部施加的“策略”,转变为模型内生的、如同本能般的“原生认知能力”。

这篇题为《Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning》的论文已被ICML 2026主会接收。论文的核心作者包括北京通用人工智能研究院的研究员吴桐、刘洋、白骏,通讯作者为贾子夏研究员和实验室主任郑子隆。
业界对语言智能体的期待,正从“能够进行线性思考”的单一思维链,升级到“能够进行多维深度推理”的层次。未来的高级人工智能,需要具备同时探索多条思考路径的能力——这类似于经典的MapReduce思想:分解任务、并行处理、再聚合结果。然而,将这种“思维分身术”内化到单一智能体中,面临着三重核心挑战。
背景与痛点:为什么我们迫切需要并行推理?
首先,是算法框架与硬件架构的错配。现有的推理引擎和主流强化学习算法,难以原生支持“分支与聚合”的复杂操作。推理引擎调度并行分支的效率低下;而常用的强化学习技术往往会截断或削弱那些触发并行结构的特殊词元的梯度,导致模型难以学会精确的并行控制逻辑。
其次,是早期并行机制的低效性。先前的一些尝试多依赖于手工设计的分治规则,无法有效复用共享的计算状态(如KV缓存),导致每个分支都需要重复计算公共部分,使得时间复杂度急剧上升,难以满足实时或大规模部署的效率要求。
最后,是对强监督蒸馏数据的过度依赖。像Multiverse这类方法虽然实现了并行输出,但高度依赖强教师模型提供的示例。学生模型仅仅是在模仿教师的串行思维拓扑,并将其“强行塞入”并行格式中,结果是将教师的思维局限也一并继承,难以通过自举(Bootstrapping)方式扩展自身的智能边界,形成了新的“能力天花板”。
NPR的核心理念:将“并行性”升维为模型的原生能力
NPR的关键创新在于“原生”二字。研究团队致力于在零外部并行轨迹监督的条件下,探索一条让模型自我进化出并行推理能力的路径。其整体框架是一个渐进式的三阶段训练范式,旨在让模型从“学会用并行格式书写”,逐步过渡到“在计算图层面真正执行并行推理”。
三阶段训练范式:从“掌握并行形式”到“具备并行思维”
阶段一:并行格式学习——首先学会“如何写成并行结构”。这一阶段不追求真正的并行计算,而是让模型先掌握并行推理的表达范式,例如如何标记分支起点、组织多条候选路径、定义最终的聚合节点。
阶段二:自蒸馏——内化“并行思考逻辑”,摆脱对外部教师的依赖。在具备并行表达能力后,NPR通过自蒸馏技术,让模型用自己的生成结果反过来训练自己。通过严格的筛选与沉淀,模型逐步内化“多分支探索-相互印证-汇总收敛”的内在推理规律,而非简单模仿他人的思维局限。
阶段三:并行感知强化学习——从“模仿并行格式”迈向“执行并行计算”。这是实现质变的关键一跃。利用并行感知的强化学习算法,模型学习在何时进行分叉、分叉出多少条路径、如何在聚合点进行比较与合并。这使得并行不再仅仅停留在文本表面,而真正成为推理过程中可执行的控制逻辑,将“并行性”从一种工程技巧推进到模型的原生能力层面。
如下图所示,经过三阶段训练,NPR在复杂推理任务上的准确率从约17%持续爬升至50.4%;与传统顺序推理方式相比,更实现了高达约4.6倍的生成加速。

NPR具体实现细节
NPR训练范式详解
第一阶段:格式遵循的强化学习(NPR-ZERO)
目标是在没有任何外部并行示例的情况下,让模型学会生成结构化的并行格式(如使用
第二阶段:拒绝采样与并行预热(NPR-BETA)
目标是将第一阶段的“格式化产物”转化为高质量的训练数据,并使模型在并行语义理解上稳定下来。方法是对NPR-ZERO的输出进行拒绝采样,并应用严格的筛选器(必须同时满足“格式完全合规”与“答案绝对正确”),保留高质量的并行推理轨迹用于冷启动的并行监督微调。同时,引入并行注意力掩码与专用的并行位置编码,让模型内部能够支持并行分支的独立计算,并实现KV缓存的重用以避免重复计算带来的开销。
第三阶段:原生并行强化学习(PAPO)
目标是在并行执行引擎上,使用强化学习直接优化并行分支策略,使其不仅会“书写”并行格式,也会“执行”并行计算。方法上提出了并行感知策略优化算法(Parallel-Aware Policy Optimization, PAPO),对传统强化学习语义进行了专门修改:使用并行Rollout保证推理结构的正确性、进行批次层级的优势归一化以稳定训练、保留触发并行结构的特殊词元的梯度流,并放弃重要性采样以维持稳定的同策略梯度更新。PAPO能够直接在并行计算图内部优化分支策略,从试错中学会有效的问题拆解与结果合并。

关键技术细节剖析
1. 自蒸馏与严格筛选机制
从NPR-ZERO生成大量候选轨迹后,采用两条硬性规则进行筛选:答案正确性、结构并行性。只有同时满足这两项高标准的高质量样本才会被用于后续训练,这显著减少了数据噪声,保证了训练语料的并行规范性与模型的可学习性。
2. 并行注意力掩码与并行位置编码
为了在单次前向传播中同时处理多条推理路径,NPR采用了类似Multiverse风格的并行注意力掩码与专门设计的并行位置编码。这保证了不同分支在计算上互相隔离,但同时能共享上下文的KV缓存,从而实现高效的KV缓存重用,避免每条分支重复计算上下文带来的巨大代价。编码还允许通过特定的标签词元来明确标明分支、步骤等元信息,便于推理引擎解析。
3. 并行感知策略优化(PAPO)算法设计
在并行语义下直接套用经典PPO等算法会遇到诸多问题。PAPO的主要设计包括:使用NPR-Engine产生合法的并行轨迹;在训练前剔除格式违规的样本;采用批次级优势归一化来稳定优势估计;为防止标记并行结构的特殊标签被错误裁剪,在词元级别保留了完整的梯度流;同时放弃重要性采样,采用严格的同策略优化目标,以避免策略更新中的不稳定性。

AI基础设施工程化改进:NPR-Engine
实验证明,将并行语义用于生产环境的并行强化学习训练,会暴露出大量的底层工程问题。论文在推理引擎层面做了几项关键改进:引入预算感知的KV回收机制,避免内存泄漏;采用分支感知的词元累积策略,防止生成长度失控;在分支展开前进行格式预检,快速拒绝非法分支以保证生成的确定性。这些工程改进是稳定进行大规模并行强化学习训练、最终获得具备并行思考能力智能体的重要前提。
主要实验与结论
研究团队在AIME24/25、HMMT25、OlympiadBench等八个具有挑战性的数学与逻辑推理基准上进行了全面评测。
训练数据优势: 使用自行提炼的高质量数据集(NPR-BETA阶段的ORZ-8k)替换Multiverse所依赖的训练语料后,模型性能获得了显著且一致的提升。例如,在AIME24上从46.7分提升至50.8分,在ZebraLogic上从60.2分提升至76.1分。总体平均得分从50.1分提升至59.0分。
并行监督微调的优势: 从传统的顺序监督微切换至并行监督微调,能显著提升模型性能。顺序微调会引入较强的步骤间依赖性先验,限制了任务分解的灵活性。而并行微调使模型能够接触结构上真正并行的轨迹,从而实现更独立、更灵活的子问题探索。整体性能从58.2分提升至59.0分。
并行强化学习的优势: 在并行微调的良好基础上,进一步应用并行强化学习(PAPO)能获得系统性的性能飞跃。例如,AIME24从57.1分提升至63.3分,HMMT25从26.3分提升至30.8分。总体平均得分从62.0分提升至65.0分。

一个关键发现是并行触发率的一致性。Multiverse-32B模型在不同数据集上的并行率差异显著,表明其并行推理的采用高度依赖数据集本身的特性。相比之下,NPR模型在所有八个数据集上均达到了100%的并行触发率。这意味着端到端的NPR训练流程能够更可靠地将并行推理塑造为模型的默认问题解决模式,其应用不受数据集领域或复杂性的影响。

在推理效率方面,NPR在所有基准测试中均取得了最佳表现,始终优于Multiverse和传统的自回归基线模型。值得注意的是,其加速比随着任务难度的增加而显著增大:在较难的AIME25上达到4.6倍加速,在相对较易的AMC23上为2.9倍。这表明当问题需要更深入、更广泛的解空间探索时,NPR的并行优势愈发明显。

案例解析
论文展示了具体的并行解法示例,其典型模式为:先并行产生若干独立的解题计划(


结语
这项研究提出了一个简洁且可扩展的框架,用于构建无需依赖外部教师模型、即可自主学习自适应问题分解与并行规划的原生并行推理器。通过将自提炼的并行微调与智能体并行强化学习相结合,NPR能够生成真正的、非模拟的并行推理策略。
在八个权威推理基准上的实验表明,该方法相比现有前沿方案在性能上均有显著改进。深入分析进一步证明,该方法能显著加速推理过程、增强测试时的可扩展性,并且有效避免了“伪并行”行为。案例研究生动展示了模型如何根据问题难度动态调整其并行粒度,实现结构化的探索和稳健的验证。这些结果表明,原生并行推理是实现更通用、更可扩展人工智能的一个极具前景的研究方向。
相关攻略
由大语言模型驱动的多智能体系统,正从实验室原型快速演进为支撑复杂任务的关键基础设施。在软件工程、科学探索、流程自动化及团队协作等多个领域,由智能体团队协同完成任务已成为现实。当前,一个显著的趋势是:智能体生态的供给与真实系统的部署规模,正在同步经历爆发式增长。 智能体市场的品类与数量日益丰富,而实际
许多人可能并未意识到,自己早已身处多智能体协作技术带来的变革之中。 电商大促期间,仓库中并非仅有一台机器人在运作,而是由一整队机器人协同完成分拣、运输、避障与货物交接。自动驾驶技术面临的真正挑战,也不仅仅是教会一辆车如何行驶,更是要让众多车辆在同一条道路上实现高效、安全的协同。现实世界中的复杂任务,
手握最强大的模型Mythos,Anthropic却选择将其锁入保险柜。 原因在于,这个模型能自主发现软件漏洞,效率之高、数量之多,连其创造者都感到不安,最终只开放给少数机构进行测试。 此事在安全圈内引发了轩然大波。许多人开始第一次严肃地思考:当AI能够规模化地挖掘漏洞时,数字世界的安全格局将发生怎样
Markdown以简洁语法降低输出成本与认知负担,其统一规则便于生成稳定结构,并具备跨平台适配性,在多种场景中无缝渲染。该格式聚焦内容、弱化机械感,成为平衡成本、功能与兼容性的高效选择。
对于金融分析师、市场研究员和生命科学专家而言,繁杂枯燥的资料搜集与交叉比对,向来是消耗核心精力的效率黑洞。好消息是,这一局面正被谷歌最新升级的自动化研究工具所改写。此次升级的核心突破,在于其能够将公开网络信息与企业内部的私密数据库无缝整合,直接生成带有原生数据可视化图表、且完全标注信息来源的专业级分
热门专题
热门推荐
在使用Safari浏览器时,自动填充功能确实能极大提升效率。但随着时间推移,其中可能积累大量过时地址、失效密码,甚至无意保存的敏感内容。这些残留记录不仅影响使用体验,更可能成为隐私泄露的隐患。本文将系统介绍在Mac上彻底清理Safari自动填充记录的多种实用方案,帮助您有效管理浏览器数据。 一、通过
你是否遇到过这样的困扰:电脑明明处于空闲状态,风扇却突然高速运转,硬盘指示灯频繁闪烁,任务管理器显示CPU或磁盘占用率异常飙升?这种“系统看似休息,硬件却异常忙碌”的现象,很可能源于Windows系统内置的“自动维护”功能在后台悄然运行。该功能的设计初衷是好的,旨在利用系统空闲时间自动执行磁盘碎片整
如果你在使用Windows 11时,感觉屏幕上的文字、图标或按钮有些模糊不清,看久了眼睛容易疲劳,这可能不是你的视力问题,而是系统默认的色彩搭配对比度不够。为了让界面元素更醒目、更容易识别,Windows 11内置了一个非常实用的功能——高对比度模式。它通过大幅强化前景与背景的颜色差异,能显著提升屏
当你的Mac出现运行卡顿、风扇噪音增大或应用程序启动缓慢时,很可能是因为Spotlight索引服务正在后台占用大量系统资源。Spotlight作为macOS内置的搜索工具,虽然方便,但其持续的索引过程确实可能影响性能。本文将详细介绍五种有效管理Spotlight的方法,包括彻底禁用、精准控制索引范围
当您在 macOS 上遇到 Microsoft Teams 运行缓慢、界面显示错误或登录失败等问题时,不必立即归咎于网络或系统故障。一个常见且高效的解决方案是清理应用程序的本地缓存文件。这些缓存数据在长期使用后可能损坏或过时,从而影响软件性能。本文将为您提供三种在 Mac 上安全清理 Teams 缓





