大模型之后，强化学习是智能体的未来方向_AI热点日报

大模型之后，强化学习是智能体的未来方向

类型：热点整理2026-06-29

聊聊近期听到的一期非常有价值的播客——四十二章经邀请到在Meta工作了七年的应用强化学习组负责人朱哲清Bill。这位斯坦福强化学习专业博士、如今正在Agent领域创业的专家，提出了一个相当反主流的核心观点： “LLM只是一个翻译官，真正的Agent核心应该是RL。” 等等，这究竟意味着什么？ 202

聊聊近期听到的一期非常有价值的播客——四十二章经邀请到在Meta工作了七年的应用强化学习组负责人朱哲清Bill。这位斯坦福强化学习专业博士、如今正在Agent领域创业的专家，提出了一个相当反主流的核心观点：

“LLM只是一个翻译官，真正的Agent核心应该是RL。”

等等，这究竟意味着什么？

2024年，GPT-4掀起的Agent热潮大家有目共睹：Claude、GPTs、Copilot……几乎所有大型科技公司都在用LLM构建Agent。但Bill却认为这个方向可能走偏了？更令人惊讶的是，他利用自己独特的技术路线，仅用不到1万美金就训练出一个在电商领域超越GPT-4的Agent。

这背后到底隐藏着怎样的奥秘？

LLM之后，Agent的未来是RL！

当前Agent的痛点

要理解Bill的观点，我们首先要问自己一个问题：现在的Agent真的具备“思考”能力吗？

播客中给出了一个非常生动的类比：想象你走进一座复杂的迷宫。如果是人类，会怎么做？分析当前位置、尝试不同路径、记住死胡同、总结经验教训。但现在的LLM Agent呢？它就像一个只会背诵地图的人——能描述每个路口的样子，能列举所有可能的路径，但无法从错误中学习，更无法优化自身的策略。

所以你会发现：Agent常常重复同样的错误，面对新场景时手足无措，效率始终难以提升。这些问题的根源，在于它缺乏真正的学习能力。

平行宇宙思维

那么RL是如何解决这个问题的？这里有一个有趣的概念：平行宇宙。

想象你在玩《王者荣耀》，每次决策都能预知未来5分钟会发生什么——往这边走会被抓，往那边走能拿龙，支援上路能赢团战。这正是RL的核心能力：并行模拟多个未来，评估每个决策的收益，选择最优的行动路径。

类似的成功案例并不少见：AlphaGo在没有人类棋谱的情况下，通过自我对弈达到了超越人类的水平；DeepSeek-R1最新的模型，没有PRM（过程奖励），没有MCTS（蒙特卡洛），Zero模型直接上RL，就训练出了推理能力。这种“自我博弈”的范式，才是Agent真正突破的方向。

“翻译官”LLM

那是不是说LLM就毫无价值了？恰恰相反。Bill提出了一个绝妙的比喻：LLM就像一个出色的“翻译官”。

想象你是一个天才的围棋选手，但只会下棋，不会表达。你需要有人帮你理解对手的意图，帮你传达想法。这就是LLM的完美定位：输入端，将人类语言转化为RL能够理解的抽象状态；输出端，将RL的决策转化为人类可以理解的语言。两者各司其职，而非让LLM包揽一切。

最后

Bill预测，2025年会出现三个重要趋势：专业领域的Agent将达到专业人士水平，训练成本会进一步降低，应用场景将持续扩大。但更重要的是，这条技术路线给我们带来了一个全新的视角：真正的AI智能体，应该像人类一样——会在“平行宇宙”中规划，会从经验中学习，会不断优化决策。也许，我们之前对Agent的想象，确实需要刷新一下了。

来源：https://www.53ai.com/news/finetuning/2025012373602.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。