游乐游手机版
首页/AI热点日报/热点详情

强化学习应用之处将迎来更多李世石时刻

类型:热点整理2026-06-29
强化学习(RL)到底在多大程度上改变了AI格局?这个问题,如今有了更清晰的答案。 作为LLM训练的关键方法论,RL已经不是新鲜概念——它的灵感最早能追溯到AlphaGo、AlphaStar和OpenAI的Dota Five,这些系统通过自我博弈掌握了围棋、星际争霸、Dota2这类极其复杂的游戏。但真

强化学习(RL)到底在多大程度上改变了AI格局?这个问题,如今有了更清晰的答案。

作为LLM训练的关键方法论,RL已经不是新鲜概念——它的灵感最早能追溯到AlphaGo、AlphaStar和OpenAI的Dota Five,这些系统通过自我博弈掌握了围棋、星际争霸、Dota2这类极其复杂的游戏。但真正让行业沸腾的,是最近一系列将RL与LLM深度结合的突破性进展。

在可以 RL 的地方,将迎来更多「李世石时刻」

Kimi和DeepSeek,各自找到了那把钥匙

先说Kimi。在RL-LLM这条路上,他们的团队找到了一种出人意料的简单而有效的框架。结果是k1.5——一个满血版的多模态模型,水平直接对标o1。

数据不会骗人:在short-CoT模式下,k1.5在数学、代码、视觉多模态和通用能力上,大幅超越了GPT-4o和Claude 3.5 Sonnet;而在long-CoT模式下,它已经追平了OpenAI o1正式版的水平。这个成绩放在一年前,几乎不可想象。

另一边,DeepSeek走的路线略有不同。他们借鉴了Alpha-Zero的核心理念,直接跳过人工构造的监督微调(SFT),从零开始做RL,效果同样惊人。

有意思的是,这两支国内顶尖团队的技术报告选择了同一天发布,而各自的思路竟然在底层逻辑上形成了完美的相互验证。有网友形容:这一幕就像诸葛亮和周瑜相视一笑,摊开掌心——都写着一个“火”字。

细看之下,Kimi的做法更具新意。他们采用了类似AlphaGo-Master的思路,利用提示工程生成的CoT轨迹,做了一轮轻量级的SFT预热。这个策略的巧妙之处在于:既保留了模型自由探索的空间,又给了它一个相对高效的起点。

o1复现路上,坑比想象的多

从o1出现的那一刻起,业内就有无数团队试图复现它的路线。相关的观点和尝试非常多,以至于有人专门建了仓库来收集论文和博客(参考:Awesome-LLM-Strawberry)。其中,关于过程奖励模型(PRM)与蒙特卡洛树搜索(MCTS)的技术路径,一度被寄予厚望。

但当越来越多从业者真正下场去复现时,这条路慢慢展露了它的艰难。

问题出在三个地方。第一是训练数据——公开数据集往往只记录正确的答案和路径,但缺失了作者推导过程中的思考脉络,尤其是那些最终被证伪的尝试和失败的总结。没有这些“反面教材”,模型很难学到真正的推理能力。第二,对大多数基座模型来说,自我批评(Self-Critic)本身就是一个极高的门槛。能做好自我审视、发现逻辑漏洞,这需要模型本身已经具备相当高的认知水平。第三,真正实现树搜索时,那些工程细节和操作复杂度,远非一篇paper能概括完的。

所以当许多人陷入MCTS的泥潭时,Kimi团队的研究作者 @Flood Sung 在知乎上分享了一段非常关键的思考(原文见 知乎专栏):

原来并不需要把AlphaGo的MCTS直接搬到LLM上。真正重要的,是让模型能够自行搜索。o1并没有限制模型如何思考,任何结构化的框架反而会束缚能力。我们要做的,是让模型像人一样自由思考。

这段话点出了几个核心方向:

  • 训练LLM通过RL做题,前提是必须有精确的Reward信号;
  • 不要用结构化方法限制模型——这种限制最终只会封住模型的上限,得让模型自己去探索思考范式;
  • 思考天然包含搜索过程,那就允许模型犯错,让它在试错中进化。

更令人惊喜的是,Kimi在实际训练中发现了一个关键现象:随着训练提升performance,模型生成的token数也在不断增加。这意味着,长链式的CoT(思维链)本身是在RL训练过程中自发涌现的,而不是依靠人工构造的。

有位行业观察者对此总结得很到位:无论是Kimi还是DeepSeek的报告,都证明了同一件事——长的CoT是可以自己涌现出来的。这直接解决了一个巨大的假设性问题——大量长CoT数据从哪儿来?现在答案很清楚了:让模型自己去生成、去演化。

从这个角度看,Kimi和DeepSeek几乎同时宣告了一个阶段的结束——因为最大的秘密已经不存在了。大道至简:给AI一个可以衡量的目标,然后给它空间自己去探索,最后用RL反复迭代。没有高深的花活。

没有MCTS,没有PRM,那Kimi用了什么?

Kimi构建的RL框架里,没有复杂的蒙特卡洛树搜索,没有价值函数,也没有过程奖励模型。取而代之的,是一套名为Partial Rollouts的创新技术。

Partial Rollouts的核心思路很直白:在训练过程中,允许模型复用之前已经生成的轨迹片段,而不是每次都从头开始生成新轨迹。这种方式极大地节省了计算资源,同时提升了训练效率。说白了,这是让Scaling变得更加经济的技巧。

此外,k1.5的技术报告中还包含了long2short技术,以及训练推理混合部署框架。前者通过模型合并、DPO(Direct Preference Optimization)等方法,把长链思维模型里学到的高级推理模式,迁移到短链思维模型中。后者则让资源共享和管理变得更高效,同时拉高了整体训练和推理性能。由于篇幅限制,这部分展开讲太多会超纲,建议有兴趣的直接读原报告(Kimi k1.5技术报告)。

「李世石时刻」越来越频繁了

从2024年下半年开始,Kimi明显把重心倾斜到了通往AGI的技术路径上。k1.5已经是他们连续第三个月推出k系列强化学习模型的升级版。新春佳节之际,各家模型捷报频传,这些技术迭代很快就会转化为用户可感知的产品。

真格基金管理合伙人戴雨森在评论k1.5的那组数据时,说了一句深得我心的话:

看到Kimi k1.5这一组数据的时候,我的第一反应是:we are running out of benchmarks。在short-CoT模式下,Kimi k1.5的数学、代码、视觉多模态和通用能力,大幅超越了全球范围内短思考SOTA模型GPT-4o和Claude 3.5 Sonnet的水平。这在一年前绝对是难以想象的。同时k1.5在Long-CoT下的表现,更加让我们看到There is no wall,RL还可以走很远。

我们正一步步朝着AGI与ASI迈进。接下来,会在更多领域频繁看到AI超越人类的「李世石时刻」——就像那个经典的场景:一开始大家觉得“呵呵,AI和猴子一样聪明呢,真逗”,然后马上变成“我擦,发生了什么?”

这就是RL的力量。当一个领域找到可以衡量的目标、可以反复试错的闭环时,AI超越人类的速度会远超想象。而在那一刻之后,我们能做的,是适应这种节奏,并思考下一个问题:怎么把这些能力更高效地变成生产力,真正普惠到每个人。

新时代需要新范式。这个游戏的通关答案,恐怕不止于让模型更加“聪明”,更在于如何让这股能量真正落地。

来源:https://www.53ai.com/news/LargeLanguageModel/2025012390617.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。