游乐游手机版
首页/AI热点日报/热点详情

大模型之后,强化学习是智能体的未来方向

类型:热点整理2026-06-29
聊聊近期听到的一期非常有价值的播客——四十二章经邀请到在Meta工作了七年的应用强化学习组负责人朱哲清Bill。这位斯坦福强化学习专业博士、如今正在Agent领域创业的专家,提出了一个相当反主流的核心观点: “LLM只是一个翻译官,真正的Agent核心应该是RL。” 等等,这究竟意味着什么? 202

聊聊近期听到的一期非常有价值的播客——四十二章经邀请到在Meta工作了七年的应用强化学习组负责人朱哲清Bill。这位斯坦福强化学习专业博士、如今正在Agent领域创业的专家,提出了一个相当反主流的核心观点:

“LLM只是一个翻译官,真正的Agent核心应该是RL。”

等等,这究竟意味着什么?

2024年,GPT-4掀起的Agent热潮大家有目共睹:Claude、GPTs、Copilot……几乎所有大型科技公司都在用LLM构建Agent。但Bill却认为这个方向可能走偏了?更令人惊讶的是,他利用自己独特的技术路线,仅用不到1万美金就训练出一个在电商领域超越GPT-4的Agent。

这背后到底隐藏着怎样的奥秘?

LLM之后,Agent的未来是RL!

当前Agent的痛点

要理解Bill的观点,我们首先要问自己一个问题:现在的Agent真的具备“思考”能力吗?

播客中给出了一个非常生动的类比:想象你走进一座复杂的迷宫。如果是人类,会怎么做?分析当前位置、尝试不同路径、记住死胡同、总结经验教训。但现在的LLM Agent呢?它就像一个只会背诵地图的人——能描述每个路口的样子,能列举所有可能的路径,但无法从错误中学习,更无法优化自身的策略。

所以你会发现:Agent常常重复同样的错误,面对新场景时手足无措,效率始终难以提升。这些问题的根源,在于它缺乏真正的学习能力。

平行宇宙思维

那么RL是如何解决这个问题的?这里有一个有趣的概念:平行宇宙。

想象你在玩《王者荣耀》,每次决策都能预知未来5分钟会发生什么——往这边走会被抓,往那边走能拿龙,支援上路能赢团战。这正是RL的核心能力:并行模拟多个未来,评估每个决策的收益,选择最优的行动路径。

类似的成功案例并不少见:AlphaGo在没有人类棋谱的情况下,通过自我对弈达到了超越人类的水平;DeepSeek-R1最新的模型,没有PRM(过程奖励),没有MCTS(蒙特卡洛),Zero模型直接上RL,就训练出了推理能力。这种“自我博弈”的范式,才是Agent真正突破的方向。

“翻译官”LLM

那是不是说LLM就毫无价值了?恰恰相反。Bill提出了一个绝妙的比喻:LLM就像一个出色的“翻译官”。

想象你是一个天才的围棋选手,但只会下棋,不会表达。你需要有人帮你理解对手的意图,帮你传达想法。这就是LLM的完美定位:输入端,将人类语言转化为RL能够理解的抽象状态;输出端,将RL的决策转化为人类可以理解的语言。两者各司其职,而非让LLM包揽一切。

最后

Bill预测,2025年会出现三个重要趋势:专业领域的Agent将达到专业人士水平,训练成本会进一步降低,应用场景将持续扩大。但更重要的是,这条技术路线给我们带来了一个全新的视角:真正的AI智能体,应该像人类一样——会在“平行宇宙”中规划,会从经验中学习,会不断优化决策。也许,我们之前对Agent的想象,确实需要刷新一下了。

来源:https://www.53ai.com/news/finetuning/2025012373602.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。