强化学习应用之处将迎来更多李世石时刻_AI热点日报

强化学习应用之处将迎来更多李世石时刻

类型：热点整理2026-06-29

强化学习（RL）到底在多大程度上改变了AI格局？这个问题，如今有了更清晰的答案。作为LLM训练的关键方法论，RL已经不是新鲜概念——它的灵感最早能追溯到AlphaGo、AlphaStar和OpenAI的Dota Five，这些系统通过自我博弈掌握了围棋、星际争霸、Dota2这类极其复杂的游戏。但真

强化学习（RL）到底在多大程度上改变了AI格局？这个问题，如今有了更清晰的答案。

作为LLM训练的关键方法论，RL已经不是新鲜概念——它的灵感最早能追溯到AlphaGo、AlphaStar和OpenAI的Dota Five，这些系统通过自我博弈掌握了围棋、星际争霸、Dota2这类极其复杂的游戏。但真正让行业沸腾的，是最近一系列将RL与LLM深度结合的突破性进展。

在可以 RL 的地方，将迎来更多「李世石时刻」

Kimi和DeepSeek，各自找到了那把钥匙

先说Kimi。在RL-LLM这条路上，他们的团队找到了一种出人意料的简单而有效的框架。结果是k1.5——一个满血版的多模态模型，水平直接对标o1。

数据不会骗人：在short-CoT模式下，k1.5在数学、代码、视觉多模态和通用能力上，大幅超越了GPT-4o和Claude 3.5 Sonnet；而在long-CoT模式下，它已经追平了OpenAI o1正式版的水平。这个成绩放在一年前，几乎不可想象。

另一边，DeepSeek走的路线略有不同。他们借鉴了Alpha-Zero的核心理念，直接跳过人工构造的监督微调（SFT），从零开始做RL，效果同样惊人。

有意思的是，这两支国内顶尖团队的技术报告选择了同一天发布，而各自的思路竟然在底层逻辑上形成了完美的相互验证。有网友形容：这一幕就像诸葛亮和周瑜相视一笑，摊开掌心——都写着一个“火”字。

细看之下，Kimi的做法更具新意。他们采用了类似AlphaGo-Master的思路，利用提示工程生成的CoT轨迹，做了一轮轻量级的SFT预热。这个策略的巧妙之处在于：既保留了模型自由探索的空间，又给了它一个相对高效的起点。

o1复现路上，坑比想象的多

从o1出现的那一刻起，业内就有无数团队试图复现它的路线。相关的观点和尝试非常多，以至于有人专门建了仓库来收集论文和博客（参考：Awesome-LLM-Strawberry）。其中，关于过程奖励模型（PRM）与蒙特卡洛树搜索（MCTS）的技术路径，一度被寄予厚望。

但当越来越多从业者真正下场去复现时，这条路慢慢展露了它的艰难。

问题出在三个地方。第一是训练数据——公开数据集往往只记录正确的答案和路径，但缺失了作者推导过程中的思考脉络，尤其是那些最终被证伪的尝试和失败的总结。没有这些“反面教材”，模型很难学到真正的推理能力。第二，对大多数基座模型来说，自我批评（Self-Critic）本身就是一个极高的门槛。能做好自我审视、发现逻辑漏洞，这需要模型本身已经具备相当高的认知水平。第三，真正实现树搜索时，那些工程细节和操作复杂度，远非一篇paper能概括完的。

所以当许多人陷入MCTS的泥潭时，Kimi团队的研究作者 @Flood Sung 在知乎上分享了一段非常关键的思考（原文见知乎专栏）：

原来并不需要把AlphaGo的MCTS直接搬到LLM上。真正重要的，是让模型能够自行搜索。o1并没有限制模型如何思考，任何结构化的框架反而会束缚能力。我们要做的，是让模型像人一样自由思考。

这段话点出了几个核心方向：

训练LLM通过RL做题，前提是必须有精确的Reward信号；
不要用结构化方法限制模型——这种限制最终只会封住模型的上限，得让模型自己去探索思考范式；
思考天然包含搜索过程，那就允许模型犯错，让它在试错中进化。

更令人惊喜的是，Kimi在实际训练中发现了一个关键现象：随着训练提升performance，模型生成的token数也在不断增加。这意味着，长链式的CoT（思维链）本身是在RL训练过程中自发涌现的，而不是依靠人工构造的。

有位行业观察者对此总结得很到位：无论是Kimi还是DeepSeek的报告，都证明了同一件事——长的CoT是可以自己涌现出来的。这直接解决了一个巨大的假设性问题——大量长CoT数据从哪儿来？现在答案很清楚了：让模型自己去生成、去演化。

从这个角度看，Kimi和DeepSeek几乎同时宣告了一个阶段的结束——因为最大的秘密已经不存在了。大道至简：给AI一个可以衡量的目标，然后给它空间自己去探索，最后用RL反复迭代。没有高深的花活。

没有MCTS，没有PRM，那Kimi用了什么？

Kimi构建的RL框架里，没有复杂的蒙特卡洛树搜索，没有价值函数，也没有过程奖励模型。取而代之的，是一套名为Partial Rollouts的创新技术。

Partial Rollouts的核心思路很直白：在训练过程中，允许模型复用之前已经生成的轨迹片段，而不是每次都从头开始生成新轨迹。这种方式极大地节省了计算资源，同时提升了训练效率。说白了，这是让Scaling变得更加经济的技巧。

此外，k1.5的技术报告中还包含了long2short技术，以及训练推理混合部署框架。前者通过模型合并、DPO（Direct Preference Optimization）等方法，把长链思维模型里学到的高级推理模式，迁移到短链思维模型中。后者则让资源共享和管理变得更高效，同时拉高了整体训练和推理性能。由于篇幅限制，这部分展开讲太多会超纲，建议有兴趣的直接读原报告（Kimi k1.5技术报告）。

「李世石时刻」越来越频繁了

从2024年下半年开始，Kimi明显把重心倾斜到了通往AGI的技术路径上。k1.5已经是他们连续第三个月推出k系列强化学习模型的升级版。新春佳节之际，各家模型捷报频传，这些技术迭代很快就会转化为用户可感知的产品。

真格基金管理合伙人戴雨森在评论k1.5的那组数据时，说了一句深得我心的话：

看到Kimi k1.5这一组数据的时候，我的第一反应是：we are running out of benchmarks。在short-CoT模式下，Kimi k1.5的数学、代码、视觉多模态和通用能力，大幅超越了全球范围内短思考SOTA模型GPT-4o和Claude 3.5 Sonnet的水平。这在一年前绝对是难以想象的。同时k1.5在Long-CoT下的表现，更加让我们看到There is no wall，RL还可以走很远。

我们正一步步朝着AGI与ASI迈进。接下来，会在更多领域频繁看到AI超越人类的「李世石时刻」——就像那个经典的场景：一开始大家觉得“呵呵，AI和猴子一样聪明呢，真逗”，然后马上变成“我擦，发生了什么？”

这就是RL的力量。当一个领域找到可以衡量的目标、可以反复试错的闭环时，AI超越人类的速度会远超想象。而在那一刻之后，我们能做的，是适应这种节奏，并思考下一个问题：怎么把这些能力更高效地变成生产力，真正普惠到每个人。

新时代需要新范式。这个游戏的通关答案，恐怕不止于让模型更加“聪明”，更在于如何让这股能量真正落地。

来源：https://www.53ai.com/news/LargeLanguageModel/2025012390617.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。