朱哲清解析RL智能体架构：AI产品的骨骼与神经设计

首页

热心网友

转载

2026-05-16

在Pokee.ai正式内测之前，我们其实已经提前感受了这款智能体的能力。一次电话会议邀约时，对方在微信上轻描淡写地说：“你发我邮件就行，我的Agent能自动生成日程表。”

说这话的人是朱哲清，知乎和小红书上的活跃分享者，也是强化学习领域一颗备受瞩目的新星。他和团队在2023年12月开源了强化学习框架Pearl，上线首日就在GitHub上斩获540颗星，如今已升至2.8k。

时间拨回2016年，AlphaGo击败李世石的那个夜晚，当时还是杜克大学学生的朱哲清，捧着手机静坐在校园教堂前。那一刻他意识到，AI已不再局限于实验室，正大步迈向真实世界。他由此踏入强化学习的大门，并成为其坚定的信徒，即便在这一技术路径跌入最低谷时也未曾动摇。

此后，他在Meta带领一度边缘化的强化学习团队逆势突围，将技术成功部署于广告竞价、推荐系统等核心业务，每年为公司创造数亿美元的价值。然而，升任至E7级别后，一个根本性问题始终萦绕在他心头：面对纷繁复杂的现实问题，是否存在一条真正通用的强化学习路径，能打造出普适的智能体？

怀揣这个疑问，半年多前，他结束了七年半的Meta生涯，投身AI Agent创业。创业维艰，他坦言这半年几乎无休。团队仅四人，却从模型架构、自动化训练、部署，到基础设施和产品，一手包办，最终在四月的最后两天推出了内测版Pokee.ai。

借此机会，《AI产品十人谈》系列对话朱哲清，深入探讨了他对强化学习与智能体的思考、探索与实践。谈及创业，这位一向冷静的研究者也难掩激动，正如他在知乎上所写：这波AGI的浪潮真的很大，亲自踏浪才不会后悔。

以下为对话实录，内容经过不改变原意的编辑整理。

一个坚定的RL信仰者与他的ASI野心

AI科技评论：从你的学术背景和工作经历来看，你一直在深耕强化学习。最早是什么契机让你接触这个领域的？

朱哲清：我接触得很早，大概在2016年，本科二年级的时候。那时就开始学习和研究一些偏规划方向的强化学习内容。

李世石与AlphaGo的那场对决，影响非常深远。当时我正在上一门关于强化学习的AI课程，比赛之后，这门课突然爆满。可以说，那是强化学习第一次真正走入大众视野的高光时刻，AI在围棋上战胜人类，彻底改变了人们的认知。随后几年，AlphaStar在《星际争霸》等复杂游戏中的突破，也让更多人关注RL。但很快，我也亲身经历了这个领域的“冷却期”。

当我正式步入职场后，发现强化学习的热度急转直下。原因很现实：RL始终难以跳出“游戏环境”的舒适区。它的训练强烈依赖精心构建的环境和明确的反馈机制，而这在真实世界中极难复现。围棋、电子游戏规则清晰，反馈路径明确。但现实任务，比如搜索排序、内容推荐，其反馈往往不是人为预设好的，这就使得我们很难构建出合适的训练环境来承接RL的策略优化过程。即便是AlphaGo的核心成员Da vid Silver，之后尝试将技术迁移到现实世界，最终也不得不退回数学证明这类反馈机制更明确的任务。

所以，AlphaGo之后虽有一波热潮，但因落地艰难，热度很快消退。真正将RL重新拉回人们视野的，其实是RLHF的兴起。从2017、2018年到2022年之前，RL基本处于低谷。那时的主流观点认为，Transformer似乎能解决一切，算法不再重要，数据和模型规模才是关键，RL仿佛已经“过时”了。

但我没有放弃，始终坚信RL的价值在于找到正确的落地路径。在Meta的那几年，我见证了整个RL团队从高峰走向边缘，从二十几人缩减到三人，公司甚至考虑解散团队。就在那个时间点，我主动请缨：“把这个团队交给我试试。如果做不好，怎么处理我都行。但如果我带起来了，请给我发展的空间。”

就这样，我从三个人开始，一步步将团队重新带回十几人的规模。可以说，我完整经历了RL从爆发、低谷到新一轮复苏的全过程，而且我们的“复苏”甚至比RLHF重新火起来还要早一些。

AI科技评论：你如此坚信RL的理由是什么？

朱哲清：核心原因很简单：单靠“预测”不足以解决复杂任务。举个例子，假如你要做一个关于“人工智能与强化学习”的专题报道，需要写三四篇文章。有两种展开方式。

第一种是“走到哪算哪”：不设定清晰终点，写一篇预测下一篇，路径发散。

第二种是“目标驱动”：明确目标是让读者理解RL的重要性。基于此，你会倒推：先列举RL的应用案例，再引申其现实价值，最后讨论其独特优势。

这两种思维路径本质不同。后者——以目标为导向、倒推任务路径，才是人类解决复杂问题的典型模式。你不可能靠随机推进来系统完成一个复杂项目。

强化学习的本质优势就在于此：它的思维结构是围绕“目标驱动”构建的。只有围绕明确目标，不断调整策略、规划路径，才能真正攻克复杂问题。

所以当时我就认定，即使未来模型再大、数据再多，如果缺乏明确的目标驱动和基于奖励机制的主动规划执行能力，就永远无法真正完成复杂任务。这就是我坚持RL的底层逻辑。

AI科技评论：所以你在Meta证明了这份坚持是正确的？

朱哲清：接手前，RL团队同时对接多个项目，只做咨询类工作，成果少，地位边缘。我接手后做了一个果断决定：只保留一个项目，集中所有资源，把它做到真正有说服力、有价值。结果就是，我们为公司带来了一个年收入潜力超过5亿美元的应用点。

AI科技评论：你觉得关键做对了什么？

朱哲清：这背后有个前提，就是你自身必须对RL有非常深刻的认知，不仅要懂算法，更要能将其落地到复杂、真实的应用场景中。

我们确实看到RL算法出现通用性迹象，但距离一个真正一以贯之的通用RL框架还很远。我们追寻的目标是，打造一种能用RL逻辑从头到尾贯穿的通用智能体。无论面对什么任务，只要丢给它，就能自主规划、自主解决。

这其中更本质的问题是：面对众多不同类型的问题，是否存在一种真正通用的RL路径？这是我在2024年10月离开Meta前，团队一直在探索的核心议题。

AI科技评论：所以你一直在寻找一种底层通用、能大范围解决问题的RL框架？

朱哲清：因为RL本身有很多天然限制，比如离线学习问题。你可以从数据集中学到东西，但离线数据与真实环境差异巨大。离线学到的策略如何安全高效地应用到线上？差异如何修正？线上运行后，如何持续收集新数据、不断优化，同时避免性能退化？

所有这些问题，如果每次都靠单独的技巧和特殊设定去解决，就永远不可能有真正通用的方法。所以我们想要的是一整套统一的结构性解决方案。从我的角度看，RL是一个被严重低估、也未被充分开发的方向，目前大多仍扮演“辅助工具”的角色。

无论是OpenAI的RLHF，还是DeepMind的一些模型，大多是在已有预训练模型基础上进行增强，让它在某个维度上“更好”。所以目前的RL更多是一种“增强器”，而非主角。

AI科技评论：你认为它尚未成为“主导智能”的那部分技术。

朱哲清：从个人理解看，当前这波AI已经达到了“近人类级别智能”的80%到90%。虽然AGI概念模糊，但我们可以先不定义它。那么下一步呢？很多人谈的是“超人类智能”。真要往这个方向走，强化学习是绕不开的路径。

因为大型语言模型最擅长的是知识回忆和模仿，它能提出建议、生成文本，但缺乏“结构化解决问题”的能力，即没有“主动性”或“目标驱动性”。而RL的本质就是解决目标导向的问题。你不能靠“模仿”去解决从未见过的复杂任务。你需要策略、目标、反馈机制，需要在未知环境中自主探索和优化。这才是真正的智能。

而且，现在很多程序员、算法工程师的基础工作，包括模型微调、推理部署，很快都会被AI自动化工具替代。甚至连预期管理、内容生成类工作，也会被“会表达、会规划”的AI接管。这意味着，下一代智能突破口的研发，是最值得投入时间的事。

这也是我选择离开Meta创业的原因。我们现在做的，不只是工具产品，而是在构建一个“能力系统”。先通过工具加规划接近智能体的标准，再逐步扩展其工具库、操作空间和决策深度。目标不是像人一样完成任务，而是超越人类在某些任务中的策略选择和规划能力。

这就是我所理解的“通向超人类智能”的路径。

什么才是下一代的Agent？

AI科技评论：谈谈你的AI Agent产品Pokee.ai吧。

朱哲清：Pokee.ai是一款具备强执行力的通用AI智能体。它不止于“生成内容”，而是一个能真正动手完成复杂任务的智能执行体。你只需用自然语言下达指令，比如“生成一组社交媒体内容并发布”，Pokee.ai就能在无需任何脚本配置的前提下，自动调用合适工具，完成从内容创作、图片生成、格式适配到平台发布的全过程。

这种执行力不止于社媒。我们的工程团队已用它自动生成Zoom会议纪要，也能通过一句“搭建一个AI Agent网站”，让它自动创建GitHub仓库，编写HTML+JS页面，并发布到GitHub Pages，全程无需开发者手动介入。

此外，Pokee.ai还能在商业场景提升效率。比如安排团队会议，只需告诉它“周五开个关于AI Agent市场趋势的会”，它就会完成调研、搜图、制作幻灯片、安排日程、发送日历邀请并附上资料链接。原本需要几小时的工作，现在几分钟就能搞定。

更关键的是，在对比实验中，面对成千上万的工具，Pokee.ai保持了超过97%的执行准确率。而其他基于LLM的智能体在工具数超过500时，性能就会显著下降。Pokee.ai的优势在于其可扩展性和稳定性，无论工具数量如何增长，其响应成本几乎不变，这使其成为真正有机会覆盖全网服务的智能体架构。

未来，我们也会开放API和SDK，让每个团队、每位开发者都能拥有属于自己的Pokee智能体，用最自然的方式指挥最复杂的任务。

AI科技评论：听起来你做的AI智能体，不只是工程产品，更像是在研究“下一代智能体”。

朱哲清：是的，我们团队一直是两条腿走路。一方面是做“早期产品”——即用户能体验到的智能体系统，它可以帮你规划、执行任务，有清晰的人机交互流程，也支持外部应用落地。这部分要服务好市场，满足用户期待，不能偏离“智能体该有的样子”。

另一方面，我个人把很大一部分精力投在了研究上。现在的很多核心代码，包括RL训练、模型结构设计，都是我亲自写的。我大概一半时间花在技术产品、商业和团队沟通上；另一半全在研究。

我们一直在推进，也是团队最重要、我个人最长期关注的目标是：到底有没有一套通用的RL结构，能够横跨多个场景，真正做出“具身智能体”？

AI科技评论：所以你们一开始其实是先做一个技术落地证明？

朱哲清：对，刚开始做Pokee.ai时，核心目标是先证明这个技术能打硬仗。那时无论是投资人还是业界，对“RL+智能体”到底意味着什么，其实都很模糊。甚至连“智能体”具体指什么，很多人都搞不清楚。和投资人聊时，他们常反复问：“你这个技术方向到底在做什么？”、“智能体能落地成什么样？”、“你们打算怎么实现？”

所以我们公司成立两个月内，就完成了一个电商场景下的智能体系统落地：我们把SDK、API、GraphQL、命令行全都接入了智能体系统，覆盖ToB和ToC两侧。这个项目两个月内就完成了，完成度很高。对比来看，别人可能要花一年才能做出的产品，我们在短时间内做得功能更全、更稳定。这本身就是很强的技术证明。

但我们没有止步。很快意识到，要证明智能体真正“通用”，仅靠几十上百个工具远远不够。于是我们迅速扩展到上千、上万个工具级别的调用能力，专门训练和验证智能体是否具备普适性的规划和调度能力。

AI科技评论：目前你们用的模型是什么样的？是完全自研的吗？

朱哲清：我们没有使用任何开源机构的模型，所有模型都是完全自主训练的。

我们的架构是这样的：有一个小型语言模型作为人机交互界面，相当于“UI层”，用于理解用户指令和上下文。但真正的“决策逻辑”和“行动执行”部分，全部基于我们自研的强化学习结构完成。

AI科技评论：为什么一定要自己预训练语言模型？是觉得现成的大模型不好用吗？

朱哲清：其实我们做的并不是一个语言模型。我们的强化学习模型本质上是为决策设计的，而不是用来生成自然语言的。现在很多人的做法是直接套用别人的大语言模型，然后在外面加一层RL层去控制调用。这种方式乍看效率高，但我们评估发现，用“壳”套语言模型来做智能体，无法达到商用级别的精度和鲁棒性。

首先是成本，我们自研模型的成本大概是同等规模语言模型的十分之一。其次，从设计哲学上说，我们认为当前语言模型在“决策建模”上存在本质问题。比如，大模型做决策通常是“逐词生成”的过程。但如果你在进行一个复杂、多步、有规划的任务决策，那根本就不应该是这种结构。我们认为从底层逻辑上，这种设计就不对。

所以我们重构了整个系统，它不是语言生成驱动的，而是由强化学习驱动的结构化决策系统。

AI科技评论：那现在很多人可能做得比“纯套壳”更多一点，会尝试对LLM做后训练，比如基于RL做定制优化，你怎么看？

朱哲清：也不能说完全不可取，在某些场景确实比“直接套壳”要强。但关键问题是，后训练的目标是什么？你到底要解决什么问题？你得从头解构这个系统，只有把整个系统逻辑重新定义并重建，才有可能做出一个真正“决策能力强”的智能体。

现在大家做RL时，都默认是在语言模型架构上训练LLM，这会把问题想得太狭窄。我们选择跳出这种范式，用自己的方式去重构决策架构，并借助RL解决真正核心的规划与执行问题。

AI科技评论：如果是大模型公司自己来做智能体，会不会更有优势？

朱哲清：这要看你想做的智能体是什么类型。如果你定义的智能体只是处理语言相关任务，比如整理、检索、总结、推理，那么大型语言模型公司确实有很大优势，因为他们在语言理解和生成上积累深厚。

但如果你定义的智能体是能在真实世界中行动、调用工具、与环境交互的那种，那么单纯依赖语言模型就不够了。因为这时，智能体的决策空间、动作层、状态层，已经完全超出了文字表述，涉及复杂环境建模、工具链调用、状态变更，这些与语言的直接关系并不大。

举个例子：如果你要做供应链管理智能体，处理仓库、运输、库存的路径规划，状态是网状图，不是文字。那么你的智能体需要理解和操作复杂结构化数据，而不仅仅是生成几段自然语言。在这种情况下，大模型公司在语言方面的积累优势就不明显了。所以，谁有优势，取决于你定义的智能体是哪种类型。

AI科技评论：那你觉得，未来有没有可能出现一种真正“通用”的智能体？比如它既能做供应链优化，也能处理日常生活任务？

朱哲清：我认为不会存在一个单一的“超级智能体”来做所有事情。更可能出现的是一种分层结构：顶层有一个统一调度的总控智能体，它根据用户输入分配任务给专业的垂类或服务方智能体，各自处理特定领域问题，比如供应链、内容创作、信息检索等。

现在大家说的“多智能体系统”，其实跟学术界的定义还有点差距。真正学术意义上的多智能体，指的是多个智能体之间要么有通信协调，要么是互相竞争或协作去共同完成复杂任务。目前市面上的“多智能体”，更多是简单的任务分工。但这种多体结构，确实是未来实现通用智能体的重要路径。

如果这样发展下去，未来的形态可能是：用户不再需要手动使用各种App或工具。只需要给系统输入一个自然语言指令或目标，比如“帮我完成这个项目”、“帮我制定旅行计划”。后台有一整套分布式、模块化的智能体体系，自动完成从信息检索、决策规划到实际执行的全部步骤。

就像今天的互联网，前端是浏览器，后端是各种网页和应用。未来的智能体体系，就是一个没有界面的“无形互联网”。用户只需要给出目标，无需关注工具细节和操作过程。

AI科技评论：在智能体的终极形态下，浏览器可能会被取代吗？

朱哲清：浏览器在今天可以理解为人与互联网交互的一种通用前端。但如果未来智能体直接与其他智能体对接、交互，那么人作为中介、通过浏览器访问网站的过程就失去意义了。

长期来看，浏览器这种前端形态可能会消失，因为未来网络中的接口将主要是智能体对智能体的接口。人不再需要直接面对网页或APP界面，而是通过自己的智能体发出需求，由智能体与其他智能体进行交互和任务协作。

所以，未来互联网可能是以智能体交互为核心的新网络体系，而不是依靠前端浏览器来组织信息。

AI科技评论：那未来智能体之间的接口，主要是依靠MCP来完成吗？

朱哲清：也不一定。虽然我们也会支持MCP，但MCP是不是最后统一的标准，目前还不好说。但可以肯定的是，MCP起到了推动作用——至少让大家有了一套可以使用的基础接口，不至于完全没有标准。

未来我们也会提供自己的更简化版接口，希望把智能体之间的连接做得更轻量、更无感、更通用，而不仅仅是基于现在MCP这种复杂模式。

AI科技评论：在你看来，智能体到底是什么？你有自己的定义吗？

朱哲清：我的理解是这样的：智能体的核心在于“感知”和“执行”。如果一个智能体不能自主执行，或者说它做完一件事后，对环境没有产生任何实际变化，那么在我看来，它只是一个生成型智能体，而不是真正的执行型智能体。

举个简单例子：如果你写了一篇文章，但它既没有发表，也没有被人阅读，没有后续交互，那它就只是一个生成行为。但如果你写完文章后，自主决策在哪个平台发布，发布后根据用户反馈不断调整优化，使得账号粉丝数、曝光量发生变化——那么你的行为就对世界产生了不可逆的影响。

所以，一个真正的智能体，必须满足两个标准：它的行为必须能对环境产生实际的、不可逆的影响，并且要能自主规划并执行任务。如果一个系统只是生成内容，真正决策和执行还是靠人来完成，那么它在我这里就不算是真正意义上的智能体。

比如说，用户只要说“帮我运营我的公众号”，智能体自己去检索工具、规划路径、完成执行，用户无需知道有哪些工具、也无需干预具体步骤。这才是我们理解的下一代智能体的形态。

来源:https://www.leiphone.com/category/ai/vwGwJe9UAAQ6HRCJ.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：ICLR 2025 顶尖科学家关注的十大人工智能趋势下一篇：DeepSeek与面壁智能大模型技术路径深度解析