朱哲清解析RL智能体架构:AI产品的骨骼与神经设计
在Pokee.ai正式内测之前,我们其实已经提前感受了这款智能体的能力。一次电话会议邀约时,对方在微信上轻描淡写地说:“你发我邮件就行,我的Agent能自动生成日程表。”
说这话的人是朱哲清,知乎和小红书上的活跃分享者,也是强化学习领域一颗备受瞩目的新星。他和团队在2023年12月开源了强化学习框架Pearl,上线首日就在GitHub上斩获540颗星,如今已升至2.8k。
时间拨回2016年,AlphaGo击败李世石的那个夜晚,当时还是杜克大学学生的朱哲清,捧着手机静坐在校园教堂前。那一刻他意识到,AI已不再局限于实验室,正大步迈向真实世界。他由此踏入强化学习的大门,并成为其坚定的信徒,即便在这一技术路径跌入最低谷时也未曾动摇。
此后,他在Meta带领一度边缘化的强化学习团队逆势突围,将技术成功部署于广告竞价、推荐系统等核心业务,每年为公司创造数亿美元的价值。然而,升任至E7级别后,一个根本性问题始终萦绕在他心头:面对纷繁复杂的现实问题,是否存在一条真正通用的强化学习路径,能打造出普适的智能体?
怀揣这个疑问,半年多前,他结束了七年半的Meta生涯,投身AI Agent创业。创业维艰,他坦言这半年几乎无休。团队仅四人,却从模型架构、自动化训练、部署,到基础设施和产品,一手包办,最终在四月的最后两天推出了内测版Pokee.ai。
借此机会,《AI产品十人谈》系列对话朱哲清,深入探讨了他对强化学习与智能体的思考、探索与实践。谈及创业,这位一向冷静的研究者也难掩激动,正如他在知乎上所写:这波AGI的浪潮真的很大,亲自踏浪才不会后悔。
以下为对话实录,内容经过不改变原意的编辑整理。
一个坚定的RL信仰者与他的ASI野心
AI科技评论:从你的学术背景和工作经历来看,你一直在深耕强化学习。最早是什么契机让你接触这个领域的?
朱哲清:我接触得很早,大概在2016年,本科二年级的时候。那时就开始学习和研究一些偏规划方向的强化学习内容。
李世石与AlphaGo的那场对决,影响非常深远。当时我正在上一门关于强化学习的AI课程,比赛之后,这门课突然爆满。可以说,那是强化学习第一次真正走入大众视野的高光时刻,AI在围棋上战胜人类,彻底改变了人们的认知。随后几年,AlphaStar在《星际争霸》等复杂游戏中的突破,也让更多人关注RL。但很快,我也亲身经历了这个领域的“冷却期”。
当我正式步入职场后,发现强化学习的热度急转直下。原因很现实:RL始终难以跳出“游戏环境”的舒适区。它的训练强烈依赖精心构建的环境和明确的反馈机制,而这在真实世界中极难复现。围棋、电子游戏规则清晰,反馈路径明确。但现实任务,比如搜索排序、内容推荐,其反馈往往不是人为预设好的,这就使得我们很难构建出合适的训练环境来承接RL的策略优化过程。即便是AlphaGo的核心成员Da vid Silver,之后尝试将技术迁移到现实世界,最终也不得不退回数学证明这类反馈机制更明确的任务。
所以,AlphaGo之后虽有一波热潮,但因落地艰难,热度很快消退。真正将RL重新拉回人们视野的,其实是RLHF的兴起。从2017、2018年到2022年之前,RL基本处于低谷。那时的主流观点认为,Transformer似乎能解决一切,算法不再重要,数据和模型规模才是关键,RL仿佛已经“过时”了。
但我没有放弃,始终坚信RL的价值在于找到正确的落地路径。在Meta的那几年,我见证了整个RL团队从高峰走向边缘,从二十几人缩减到三人,公司甚至考虑解散团队。就在那个时间点,我主动请缨:“把这个团队交给我试试。如果做不好,怎么处理我都行。但如果我带起来了,请给我发展的空间。”
就这样,我从三个人开始,一步步将团队重新带回十几人的规模。可以说,我完整经历了RL从爆发、低谷到新一轮复苏的全过程,而且我们的“复苏”甚至比RLHF重新火起来还要早一些。
AI科技评论:你如此坚信RL的理由是什么?
朱哲清:核心原因很简单:单靠“预测”不足以解决复杂任务。举个例子,假如你要做一个关于“人工智能与强化学习”的专题报道,需要写三四篇文章。有两种展开方式。
第一种是“走到哪算哪”:不设定清晰终点,写一篇预测下一篇,路径发散。
第二种是“目标驱动”:明确目标是让读者理解RL的重要性。基于此,你会倒推:先列举RL的应用案例,再引申其现实价值,最后讨论其独特优势。
这两种思维路径本质不同。后者——以目标为导向、倒推任务路径,才是人类解决复杂问题的典型模式。你不可能靠随机推进来系统完成一个复杂项目。
强化学习的本质优势就在于此:它的思维结构是围绕“目标驱动”构建的。只有围绕明确目标,不断调整策略、规划路径,才能真正攻克复杂问题。
所以当时我就认定,即使未来模型再大、数据再多,如果缺乏明确的目标驱动和基于奖励机制的主动规划执行能力,就永远无法真正完成复杂任务。这就是我坚持RL的底层逻辑。
AI科技评论:所以你在Meta证明了这份坚持是正确的?
朱哲清:接手前,RL团队同时对接多个项目,只做咨询类工作,成果少,地位边缘。我接手后做了一个果断决定:只保留一个项目,集中所有资源,把它做到真正有说服力、有价值。结果就是,我们为公司带来了一个年收入潜力超过5亿美元的应用点。
AI科技评论:你觉得关键做对了什么?
朱哲清:这背后有个前提,就是你自身必须对RL有非常深刻的认知,不仅要懂算法,更要能将其落地到复杂、真实的应用场景中。
我们确实看到RL算法出现通用性迹象,但距离一个真正一以贯之的通用RL框架还很远。我们追寻的目标是,打造一种能用RL逻辑从头到尾贯穿的通用智能体。无论面对什么任务,只要丢给它,就能自主规划、自主解决。
这其中更本质的问题是:面对众多不同类型的问题,是否存在一种真正通用的RL路径?这是我在2024年10月离开Meta前,团队一直在探索的核心议题。
AI科技评论:所以你一直在寻找一种底层通用、能大范围解决问题的RL框架?
朱哲清:因为RL本身有很多天然限制,比如离线学习问题。你可以从数据集中学到东西,但离线数据与真实环境差异巨大。离线学到的策略如何安全高效地应用到线上?差异如何修正?线上运行后,如何持续收集新数据、不断优化,同时避免性能退化?
所有这些问题,如果每次都靠单独的技巧和特殊设定去解决,就永远不可能有真正通用的方法。所以我们想要的是一整套统一的结构性解决方案。从我的角度看,RL是一个被严重低估、也未被充分开发的方向,目前大多仍扮演“辅助工具”的角色。
无论是OpenAI的RLHF,还是DeepMind的一些模型,大多是在已有预训练模型基础上进行增强,让它在某个维度上“更好”。所以目前的RL更多是一种“增强器”,而非主角。
AI科技评论:你认为它尚未成为“主导智能”的那部分技术。
朱哲清:从个人理解看,当前这波AI已经达到了“近人类级别智能”的80%到90%。虽然AGI概念模糊,但我们可以先不定义它。那么下一步呢?很多人谈的是“超人类智能”。真要往这个方向走,强化学习是绕不开的路径。
因为大型语言模型最擅长的是知识回忆和模仿,它能提出建议、生成文本,但缺乏“结构化解决问题”的能力,即没有“主动性”或“目标驱动性”。而RL的本质就是解决目标导向的问题。你不能靠“模仿”去解决从未见过的复杂任务。你需要策略、目标、反馈机制,需要在未知环境中自主探索和优化。这才是真正的智能。
而且,现在很多程序员、算法工程师的基础工作,包括模型微调、推理部署,很快都会被AI自动化工具替代。甚至连预期管理、内容生成类工作,也会被“会表达、会规划”的AI接管。这意味着,下一代智能突破口的研发,是最值得投入时间的事。
这也是我选择离开Meta创业的原因。我们现在做的,不只是工具产品,而是在构建一个“能力系统”。先通过工具加规划接近智能体的标准,再逐步扩展其工具库、操作空间和决策深度。目标不是像人一样完成任务,而是超越人类在某些任务中的策略选择和规划能力。
这就是我所理解的“通向超人类智能”的路径。
什么才是下一代的Agent?
AI科技评论:谈谈你的AI Agent产品Pokee.ai吧。
朱哲清:Pokee.ai是一款具备强执行力的通用AI智能体。它不止于“生成内容”,而是一个能真正动手完成复杂任务的智能执行体。你只需用自然语言下达指令,比如“生成一组社交媒体内容并发布”,Pokee.ai就能在无需任何脚本配置的前提下,自动调用合适工具,完成从内容创作、图片生成、格式适配到平台发布的全过程。
这种执行力不止于社媒。我们的工程团队已用它自动生成Zoom会议纪要,也能通过一句“搭建一个AI Agent网站”,让它自动创建GitHub仓库,编写HTML+JS页面,并发布到GitHub Pages,全程无需开发者手动介入。
此外,Pokee.ai还能在商业场景提升效率。比如安排团队会议,只需告诉它“周五开个关于AI Agent市场趋势的会”,它就会完成调研、搜图、制作幻灯片、安排日程、发送日历邀请并附上资料链接。原本需要几小时的工作,现在几分钟就能搞定。
更关键的是,在对比实验中,面对成千上万的工具,Pokee.ai保持了超过97%的执行准确率。而其他基于LLM的智能体在工具数超过500时,性能就会显著下降。Pokee.ai的优势在于其可扩展性和稳定性,无论工具数量如何增长,其响应成本几乎不变,这使其成为真正有机会覆盖全网服务的智能体架构。
未来,我们也会开放API和SDK,让每个团队、每位开发者都能拥有属于自己的Pokee智能体,用最自然的方式指挥最复杂的任务。
AI科技评论:听起来你做的AI智能体,不只是工程产品,更像是在研究“下一代智能体”。
朱哲清:是的,我们团队一直是两条腿走路。一方面是做“早期产品”——即用户能体验到的智能体系统,它可以帮你规划、执行任务,有清晰的人机交互流程,也支持外部应用落地。这部分要服务好市场,满足用户期待,不能偏离“智能体该有的样子”。
另一方面,我个人把很大一部分精力投在了研究上。现在的很多核心代码,包括RL训练、模型结构设计,都是我亲自写的。我大概一半时间花在技术产品、商业和团队沟通上;另一半全在研究。
我们一直在推进,也是团队最重要、我个人最长期关注的目标是:到底有没有一套通用的RL结构,能够横跨多个场景,真正做出“具身智能体”?
AI科技评论:所以你们一开始其实是先做一个技术落地证明?
朱哲清:对,刚开始做Pokee.ai时,核心目标是先证明这个技术能打硬仗。那时无论是投资人还是业界,对“RL+智能体”到底意味着什么,其实都很模糊。甚至连“智能体”具体指什么,很多人都搞不清楚。和投资人聊时,他们常反复问:“你这个技术方向到底在做什么?”、“智能体能落地成什么样?”、“你们打算怎么实现?”
所以我们公司成立两个月内,就完成了一个电商场景下的智能体系统落地:我们把SDK、API、GraphQL、命令行全都接入了智能体系统,覆盖ToB和ToC两侧。这个项目两个月内就完成了,完成度很高。对比来看,别人可能要花一年才能做出的产品,我们在短时间内做得功能更全、更稳定。这本身就是很强的技术证明。
但我们没有止步。很快意识到,要证明智能体真正“通用”,仅靠几十上百个工具远远不够。于是我们迅速扩展到上千、上万个工具级别的调用能力,专门训练和验证智能体是否具备普适性的规划和调度能力。
AI科技评论:目前你们用的模型是什么样的?是完全自研的吗?
朱哲清:我们没有使用任何开源机构的模型,所有模型都是完全自主训练的。
我们的架构是这样的:有一个小型语言模型作为人机交互界面,相当于“UI层”,用于理解用户指令和上下文。但真正的“决策逻辑”和“行动执行”部分,全部基于我们自研的强化学习结构完成。
AI科技评论:为什么一定要自己预训练语言模型?是觉得现成的大模型不好用吗?
朱哲清:其实我们做的并不是一个语言模型。我们的强化学习模型本质上是为决策设计的,而不是用来生成自然语言的。现在很多人的做法是直接套用别人的大语言模型,然后在外面加一层RL层去控制调用。这种方式乍看效率高,但我们评估发现,用“壳”套语言模型来做智能体,无法达到商用级别的精度和鲁棒性。
首先是成本,我们自研模型的成本大概是同等规模语言模型的十分之一。其次,从设计哲学上说,我们认为当前语言模型在“决策建模”上存在本质问题。比如,大模型做决策通常是“逐词生成”的过程。但如果你在进行一个复杂、多步、有规划的任务决策,那根本就不应该是这种结构。我们认为从底层逻辑上,这种设计就不对。
所以我们重构了整个系统,它不是语言生成驱动的,而是由强化学习驱动的结构化决策系统。
AI科技评论:那现在很多人可能做得比“纯套壳”更多一点,会尝试对LLM做后训练,比如基于RL做定制优化,你怎么看?
朱哲清:也不能说完全不可取,在某些场景确实比“直接套壳”要强。但关键问题是,后训练的目标是什么?你到底要解决什么问题?你得从头解构这个系统,只有把整个系统逻辑重新定义并重建,才有可能做出一个真正“决策能力强”的智能体。
现在大家做RL时,都默认是在语言模型架构上训练LLM,这会把问题想得太狭窄。我们选择跳出这种范式,用自己的方式去重构决策架构,并借助RL解决真正核心的规划与执行问题。
AI科技评论:如果是大模型公司自己来做智能体,会不会更有优势?
朱哲清:这要看你想做的智能体是什么类型。如果你定义的智能体只是处理语言相关任务,比如整理、检索、总结、推理,那么大型语言模型公司确实有很大优势,因为他们在语言理解和生成上积累深厚。
但如果你定义的智能体是能在真实世界中行动、调用工具、与环境交互的那种,那么单纯依赖语言模型就不够了。因为这时,智能体的决策空间、动作层、状态层,已经完全超出了文字表述,涉及复杂环境建模、工具链调用、状态变更,这些与语言的直接关系并不大。
举个例子:如果你要做供应链管理智能体,处理仓库、运输、库存的路径规划,状态是网状图,不是文字。那么你的智能体需要理解和操作复杂结构化数据,而不仅仅是生成几段自然语言。在这种情况下,大模型公司在语言方面的积累优势就不明显了。所以,谁有优势,取决于你定义的智能体是哪种类型。
AI科技评论:那你觉得,未来有没有可能出现一种真正“通用”的智能体?比如它既能做供应链优化,也能处理日常生活任务?
朱哲清:我认为不会存在一个单一的“超级智能体”来做所有事情。更可能出现的是一种分层结构:顶层有一个统一调度的总控智能体,它根据用户输入分配任务给专业的垂类或服务方智能体,各自处理特定领域问题,比如供应链、内容创作、信息检索等。
现在大家说的“多智能体系统”,其实跟学术界的定义还有点差距。真正学术意义上的多智能体,指的是多个智能体之间要么有通信协调,要么是互相竞争或协作去共同完成复杂任务。目前市面上的“多智能体”,更多是简单的任务分工。但这种多体结构,确实是未来实现通用智能体的重要路径。
如果这样发展下去,未来的形态可能是:用户不再需要手动使用各种App或工具。只需要给系统输入一个自然语言指令或目标,比如“帮我完成这个项目”、“帮我制定旅行计划”。后台有一整套分布式、模块化的智能体体系,自动完成从信息检索、决策规划到实际执行的全部步骤。
就像今天的互联网,前端是浏览器,后端是各种网页和应用。未来的智能体体系,就是一个没有界面的“无形互联网”。用户只需要给出目标,无需关注工具细节和操作过程。
AI科技评论:在智能体的终极形态下,浏览器可能会被取代吗?
朱哲清:浏览器在今天可以理解为人与互联网交互的一种通用前端。但如果未来智能体直接与其他智能体对接、交互,那么人作为中介、通过浏览器访问网站的过程就失去意义了。
长期来看,浏览器这种前端形态可能会消失,因为未来网络中的接口将主要是智能体对智能体的接口。人不再需要直接面对网页或APP界面,而是通过自己的智能体发出需求,由智能体与其他智能体进行交互和任务协作。
所以,未来互联网可能是以智能体交互为核心的新网络体系,而不是依靠前端浏览器来组织信息。
AI科技评论:那未来智能体之间的接口,主要是依靠MCP来完成吗?
朱哲清:也不一定。虽然我们也会支持MCP,但MCP是不是最后统一的标准,目前还不好说。但可以肯定的是,MCP起到了推动作用——至少让大家有了一套可以使用的基础接口,不至于完全没有标准。
未来我们也会提供自己的更简化版接口,希望把智能体之间的连接做得更轻量、更无感、更通用,而不仅仅是基于现在MCP这种复杂模式。
AI科技评论:在你看来,智能体到底是什么?你有自己的定义吗?
朱哲清:我的理解是这样的:智能体的核心在于“感知”和“执行”。如果一个智能体不能自主执行,或者说它做完一件事后,对环境没有产生任何实际变化,那么在我看来,它只是一个生成型智能体,而不是真正的执行型智能体。
举个简单例子:如果你写了一篇文章,但它既没有发表,也没有被人阅读,没有后续交互,那它就只是一个生成行为。但如果你写完文章后,自主决策在哪个平台发布,发布后根据用户反馈不断调整优化,使得账号粉丝数、曝光量发生变化——那么你的行为就对世界产生了不可逆的影响。
所以,一个真正的智能体,必须满足两个标准:它的行为必须能对环境产生实际的、不可逆的影响,并且要能自主规划并执行任务。如果一个系统只是生成内容,真正决策和执行还是靠人来完成,那么它在我这里就不算是真正意义上的智能体。
比如说,用户只要说“帮我运营我的公众号”,智能体自己去检索工具、规划路径、完成执行,用户无需知道有哪些工具、也无需干预具体步骤。这才是我们理解的下一代智能体的形态。
相关攻略
2026年,AI大模型的规模化应用与商业落地已成为产业发展的核心议题。然而,在广泛的概念验证与试点项目背后,一个关键挑战日益凸显:众多企业正陷入“试点陷阱”——尽管前期验证成果显著,却难以将AI能力转化为可规模化复制、持续产生商业价值的核心生产力。深入剖析其根源,核心矛盾在于人才供给的结构性失衡。当
福特汽车因布局储能业务,股价两日飙升约21%,创近六年最佳表现。这显示传统制造业正通过涉足人工智能与能源转型获得资本市场重估,其估值逻辑随业务拓展而更新,反映出市场对产业跨界转型的积极预期。
在数据驱动决策的今天,数据可视化已从辅助工具升级为传递洞察、支撑观点的关键手段。一幅专业的数据图表能迅速解码复杂信息,而一个存在设计缺陷的图表则可能让数据故事彻底失效。本文将深入剖析六个常见却致命的图表设计细节,帮助您避开陷阱,提升图表的专业性与沟通力。 一、饼图顺序混乱,重点模糊 饼图的核心价值在
腾讯云开源了TencentDBAgentMemory分层记忆引擎,采用MIT协议。该引擎通过“上下文卸载”和“Mermaid任务画布”两项核心技术,在多任务连续会话中最高可降低61 38%的Token消耗,并将任务成功率相对提升51 52%。它解决了长周期任务中记忆跨会话断裂、事实与偏好混淆以及上下文膨胀三大痛点。项目已适配主流Agent框架,支持一键集成与
SAP推出统一AI平台,整合业务技术、数据云与AI能力,为企业提供集成底座。同时发布自动化套件,通过超50个AI助手调度近200个智能体,驱动业务流程自动化。平台基于近期收购的数据管理公司构建,并与多家云服务商合作,确保AI结果准确合规,以提升效率、节约成本。
热门专题
热门推荐
近日,中国汽车流通协会联合精真估发布了《2026年4月纯电动车型一年车龄保值率排行榜》。这份数据对于正在选购新能源车的消费者具有重要参考价值,能帮助大家更清晰地了解当前热门电动车的残值表现。 该榜单统计的是车龄满一年的纯电动车型。位居榜首的是问界M9,其一年保值率高达80 4%。这一夺冠成绩含金量十
科技行业近期迎来一场备受瞩目的创新盛宴。以智能清洁机器人闻名的追觅科技(Dreame),在旧金山隆重举办了“Dreame Next 2026”未来愿景发布会。活动不仅前瞻性地展示了涵盖智能手机、智能穿戴乃至概念电动车的全系列产品,更邀请到苹果联合创始人史蒂夫·沃兹尼亚克亲临助阵。这场为期四天的盛会,
SpaceX最快下周披露招股书,6月初启动全球路演,估值或达1 75万亿美元,募资规模有望创纪录。公司以垂直整合与成本控制为核心优势,布局商业航天、AI基础设施与卫星互联网,其“太空数据中心”构想融合太空太阳能与AI算力,开辟新赛道。此次IPO或引发科技板块资金结构性变动,标志资本正加速拥抱太空与AI融。
NVIDIA在SIGGRAPH上宣布扩展其微服务库,以加速人形机器人开发。其核心是将生成式AI深度集成至OpenUSD语言体系,推出相关模型与NIM微服务,从而提升数字孪生与机器人工作流效率。公司还开放了机器人技术栈,并联合合作伙伴推动OpenUSD的工业应用,为开发者提供从仿真到部署的端到端平台支持。
OKX作为全球领先的数字资产交易平台,其风险主要来源于市场波动、技术安全与合规环境。平台通过多重安全机制、资产储备证明和严格的合规流程来管理风险。用户需理解加密货币的高波动性本质,并采取自主保管资产、启用安全功能等策略,以在参与Web3生态时更好地保护自身权益。





