DeepSeek强化学习与通用人工智能发展路径深度解析

首页

热心网友

转载

2026-05-16

在众多让DeepSeek脱颖而出的因素中，一个关键创新点在于其彻底摒弃了传统的监督微调（SFT），转而采用大规模强化学习（RL）。这一转变不仅让模型的推理能力实现了质的飞跃，更证明了强化学习在解锁大语言模型深层推理潜力方面，拥有令人瞩目的前景。

近年来，围绕强化学习与大语言模型的前沿研究层出不穷。在近期举办的AI智能体推理与决策研讨会（AIR 2025）上，来自伦敦大学学院、加州大学伯克利分校、普林斯顿大学、华盛顿大学、卡内基梅隆大学、Meta、华&为等机构的顶尖学者与工程师齐聚一堂，共同探讨了几个核心议题：AI系统如何模拟类人的推理与决策过程？最新的算法与框架如何支持在不确定性下做出稳健决策？又该如何确保AI的决策过程合乎道德、透明且公正？

从这些前沿讨论中，我们不难窥见DeepSeek技术路线的影子。例如，华盛顿大学Hanna Hajishirzi教授团队在2023年提出的工作，就系统阐述了大语言模型推理的开放训练方法，强调从预训练模型到最终模型需经历指令微调、偏好微调以及基于可验证奖励的强化学习三个阶段——而这正是DeepSeek所采用的路径。

Meta GenAI的田渊栋教授则系统梳理了应对大语言模型局限性的现有方案。除了众所周知的Scaling Law（规模定律），另一种思路是“测试时扩展”，即结合更大的模型、工具或思维链，运用不同策略来寻找比单纯大模型更优的解决方案。田教授也分享了通过梯度上升训练神经网络以统一符号结构与神经表示的研究，尽管该方法尚处早期，其未来能否成为主流仍有待观察。

俄亥俄州立大学的Huan Sun教授从“隐式推理”的角度出发，分析了数据集中的原子事实与推断事实，并提出了一个反直觉的发现：模型的泛化速度与绝对数据量关系不大，反而与关键数据分布——特别是推断事实与原子事实的比例——高度相关，比例越高，泛化越快。

与此同时，作为主流推理能力试金石的“AI for Math”领域也成果丰硕。普林斯顿大学金驰教授团队开发的Goedel-Prover开源大模型，通过将自然语言数学问题转化为形式语言并生成证明，在自动定理证明领域达到了当前最佳性能水平。

更不乏贴近实用的AI智能体研究。卡内基梅隆大学的Graham Neubig教授团队提出了一种混合智能体方案，能够自主交替执行网页浏览与API调用操作，并在每一步灵活选择与人类沟通、生成自然语言、执行Python代码或进行网页浏览。

以下，我们将摘取本次会议中几位讲者的核心观点，一窥大模型推理训练的前沿图景。

一、DeepSeek的语言模型推理开放训练方法

华盛顿大学的Hanna Hajishirzi教授探讨了语言模型推理的开放训练方法。其团队2023年的论文指出，从预训练模型发展到最终强大的推理模型，需要经历三个阶段：指令微调、偏好微调，以及具有可验证奖励的强化学习。有趣的是，DeepSeek后来也采用了几乎相同的方法。

首先是指令微调，也称为监督式微调。核心思想是给预训练模型输入各种任务指令，通过微调教会它遵循指令。早期工作主要关注自然语言处理任务，而2023年引入的“自我指导”框架，则让模型学会合成生成更多数据，用于自身的监督微调。这一范式催生了Alpaca、Vicuna等知名模型。

接下来是偏好微调。这个阶段的关键在于数据整理与混合。一个常见的挑战是，当为了优化某项特定技能而大量增加某类数据时，模型在其他任务上的表现可能会下降。例如，添加过多数学推理数据可能导致知识回忆能力下滑。因此，寻找最佳的数据混合比例是构建优秀微调模型的重要一步。

那么，什么样的数据才能真正助力推理呢？以一道数学题为例，仅仅提供问题和最终答案是不够的。真正有价值的是包含逐步推理过程的数据。这种“思维链”数据能揭示模型的思考路径，便于发现中间错误，但人工标注成本极高且缺乏多样性。

为此，研究团队采用了混合数据策划方案，结合现有资源与合成数据生成。他们让模型扮演不同的用户角色来生成问题，例如“化学动力学研究员”或“五岁小孩”，以此增加问题的多样性。通过让GPT-4o等大模型为这些问题生成思维链，并采用多数投票机制筛选高质量数据，他们构建了规模可观且质量可控的推理数据集。实验表明，加入这类合成数据后，模型在GSM8K等高年级数学问题上的表现得到了显著提升。

在偏好微调阶段，目标是让模型学会区分对同一提示的不同回复中，哪个更符合人类偏好。通常使用基于强化学习的方法来优化一个受人类偏好启发的奖励函数。这里存在两种主流算法：PPO和DPO。研究发现，PPO在效果上通常优于DPO，但其实现更复杂，对计算资源要求更高；而DPO则更简单高效。

团队在构建自己的模型时，对偏好数据的选择极为谨慎：混合使用了监督微调阶段的提示、专注于推理领域的新提示，以及一些领域外的提示。他们让GPT-4o等大模型作为评判，从帮助性、指令遵循性等多个维度对回复进行排序。经过大量实验确定最佳数据混合比例与超参数后，即使使用改进后的DPO算法，也取得了优异效果。

最后阶段是“具有可验证奖励的强化学习”。其核心思想是使用一个极其简单的规则作为奖励：如果模型输出与标准答案等价，则奖励为1，否则为0。这种方法特别适合数学推理等任务，因为为复杂问题标注完整思维链很难，但验证最终答案相对容易。实验发现，当基础模型能力更强时，这种强化学习带来的提升更为显著，这与DeepSeek V3的观察一致。团队后续尝试用GRPO算法替代PPO，并在数学推理上看到了进一步的提升。

二、领悟的Transformer是隐式推理器

俄亥俄州立大学的Huan Sun教授探讨了从隐式推理的“领悟”现象到基于验证器的测试时扩展。

什么是隐式推理？简单说，就是希望模型在内部进行多跳推理（例如回答“奥巴马妻子的生日”），而无需显式输出中间步骤。虽然思维链目前很流行，但隐式推理同样重要，因为它是大规模预训练的默认模式，且可能让模型在信息压缩与整合上更强大。

为了深入研究，团队使用合成数据进行了受控实验。数据集中包含两种事实：“原子事实”和“推断事实”。模型的目标是从训练数据中归纳出潜在规则，并应用于新的多跳查询。

研究有几个关键发现。首先，模型确实能学会隐式推理，但往往需要在“过拟合”训练数据之后，再经过一段长时间的训练，才能实现完美的分布内泛化，这段延迟期被称为“阻塞期”。其次，泛化速度与绝对数据量无关，而与“推断事实”和“原子事实”的比例高度相关，比例越高，泛化越快。

为了理解“领悟”过程中模型内部发生了什么，团队使用了机制可解释性技术进行分析。他们发现，在“阻塞期”，模型内部逐渐形成了专门的“泛化电路”。例如，对于组合性任务，模型底层会并行检索两个实体的属性，上层则进行比较操作。分析表明，在“领悟”发生前，模型主要依赖“记忆化电路”直接关联输入与输出；而在后期，更高效的“泛化电路”被激发出来，取代了前者。

那么，为什么模型并不总能实现分布外的泛化呢？一个根本原因可能在于Transformer架构的非递归设计，限制了跨层间的记忆共享能力。实验也表明，通过在模型不同部分共享参数，可以在一定程度上解锁更好的泛化性能。

三、统一符号结构与神经网络表示

Meta GenAI的田渊栋教授分享了迈向神经与符号决策统一框架的思考。

当前大语言模型存在诸多局限，解决路径大致有三：一是投入更多数据和算力；二是利用“测试时扩展”，即结合工具或思维链；三是探索统一符号与神经表示的理论框架。田教授重点介绍了后两种路径。

在工具使用方面，以旅行规划为例，模型可以先将用户需求转化为符号形式，结合外部信息构成一个优化问题，用专门的求解器解决，再将符号结果转译回自然语言。这种方法能在几秒内提供有保证的正确方案。进一步的研究让智能体学会主动提出澄清性问题，以更高效地理解用户模糊需求。

在思维链方面，团队提出了“Searchformer”模型。其核心是利用A*等组合求解器的搜索轨迹作为思维链来训练模型。研究发现，这种“搜索增强”模型比仅学习最终答案的模型更高效，只需十分之一的数据和参数量就能达到相近性能。在此基础上，通过强化学习微调，模型还能生成比原始A*更短的搜索轨迹，且效果更好。

后续的“DualFormer”研究则尝试通过随机丢弃思维链中的部分标记来训练模型，最终得到了一个“双模式”模型。它能根据第一个生成标记是“搜索开始”还是“计划”，自动在“快速模式”和“慢速模式”间切换，且在两种模式下都优于单一模式的专用模型。有趣的是，类似的行为在DeepSeek等先进模型中也存在，这可能是训练数据结构的副产品。

四、基于API的网络智能体

卡内基梅隆大学的Graham Neubig教授展示了其“超越浏览：基于API的网络智能体”的研究。

传统的网页浏览智能体基于无障碍功能树操作，在复杂网页上导航和填写表单面临挑战。而API为机器与网络服务提供了直接、高效的交互接口。许多网站其实已提供API，若能恰当利用，可大幅简化任务。

研究团队构建了一个基于API的智能体，它能够读取API文档并执行调用。实验表明，对于API支持良好的网站（如GitLab），智能体性能显著提升。然而，并非所有网站都有完善API，因此完全抛弃浏览并不现实。

于是，团队提出了“混合智能体”方案。它在每一步动态选择操作：如果当前页面有足够好的API，就调用API；否则，则退回传统的浏览模式。实验证明，这种混合策略在多个网站类别上取得了最佳性能。研究也指出，API的质量至关重要，手动为API覆盖差的网站补充少量API，就能让智能体性能翻倍。

未来的方向包括如何自动为网站生成合适的API，以及如何从海量API端点中高效检索出所需的部分。

五、AI新前沿：形式化数学推理

加州大学伯克利分校的Dawn Song教授探讨了形式化数学推理这一AI新前沿。

形式化数学指用精确的数学语言描述定理和证明，可由计算机验证。AI在其中可发挥关键作用，例如自动化“证明搜索”和“自动形式化”。尽管社区已取得显著进展，如AlphaGeometry 2在IMO几何题上接近金牌水平，但仍面临诸多挑战。

首要挑战是数据稀缺。形式化证明的数据量远少于一般代码训练数据。解决路径包括：利用AI将海量非形式化数学材料“自动形式化”为形式陈述；以及通过“神经猜想”生成合成数据，即让模型生成猜想，再由证明器验证，形成数据闭环。

算法上也有大量开放性问题：如何实现大规模、高保真的自动形式化？如何更高效地进行证明搜索？如何让模型学会利用数学知识的层次结构进行抽象？以及如何将专家型的深度与通才型的广度相结合？

形式化数学AI的应用前景广阔。一是辅助数学家，通过开发更好的工具融入研究流程，甚至实现全球数学家与AI的大规模协作，攻克重大难题。二是在代码生成与验证领域，实现“可验证的代码生成”，即同时生成代码、其形式化规范以及代码符合规范的证明，从根本上提升生成代码的正确性与安全性。

六、Goedel-Prover：自动定理证明领域的开源模型

普林斯顿大学的金驰教授介绍了其团队开发的开源自动定理证明模型Goedel-Prover，该模型在多项基准测试中达到了当前最佳性能。

评估此类模型的核心基准之一是MiniF2F数据集，包含IMO、AIME等各类高难度数学问题。证明系统主要分两类：一次性生成完整证明的“整体生成”模型，以及逐步搜索的“树搜索”模型。Goedel-Prover属于前者。

在MiniF2F的测试中，Goedel-Prover在相同的采样预算下，准确率比之前的SOTA模型（如DeepSeek Prover）高出约7个百分点。在极具挑战性的PutnamBench竞赛问题集上，它也以更少的计算资源解决了最多的问题，排名第一。

取得这些成果的关键，在于解决了形式化数学领域最大的瓶颈——数据稀缺。开源社区可用的形式化证明数据极少。团队的方法是双管齐下：

首先，通过“自动形式化”扩充形式化问题陈述。他们训练了一个专门的“形式化器”模型，将大量高质量的非形式化数学问题转化为形式语言，并经过严格的语法检查和由多个大模型裁判的“语义一致性”投票，最终获得了超过100万条可靠的形式化陈述。

其次，通过“迭代训练”扩充形式化证明。从一个基础模型开始，让其对已有的形式化陈述生成证明，然后用Lean编译器验证，将验证通过的证明加入训练集，用于训练下一代模型。如此循环，证明数据像滚雪球一样增长，模型性能也随之持续稳定提升。

Goedel-Prover的成功表明，通过系统性地解决数据问题，即使是相对简洁清晰的算法方案，也能在自动定理证明这一挑战性领域推动性能边界。

来源:https://www.leiphone.com/category/academic/ofxrKWlKGmoYUr4C.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：百度云企业级大模型应用落地产业实践与对话下一篇：百川智能联合创始人谢剑离职内幕与未来动向