2025年开年,智能体赛道迎来两个标志性事件:OpenAI发布DeepResearch(基于O3模型的搜索专用版本),以及Claude Sonnet 3.7在代码领域的突破性表现。这两个进展指向同一个趋势——真正可被训练的大语言模型智能体,正在从实验室走向现实。但有趣的是,行业内对这项关键进展的关注似乎还远远不够。
先说两个核心判断。第一,DeepResearch和Sonnet 3.7的成功,本质上是“强化学习+多步骤推理”这条技术路线的胜利。DeepResearch通过针对浏览任务的强化学习训练,获得了规划搜索策略的能力——它能根据中间反馈调整查询方向、交叉验证不同来源的信息。Sonnet 3.7则把同样的方法论成功迁移到了代码领域,处理复杂编程任务序列的效果,已经超越了以往任何基于编排的方案。正如William Brown总结的:大语言模型智能体终于能够胜任长时间的多步骤任务了。
第二,我们需要重新定义什么才是真正的“大语言模型智能体”。去年12月,Anthropic给出了一个极其清晰的界定:在这类系统中,大模型能够动态地指导自身的处理过程及工具使用,并对任务完成方式保持完整控制。注意,这句话的关键词是“动态”和“控制”。与之相对的,是市面上更常见的工作流系统——通过预定义的代码路径来编排模型和工具,也就是Manus AI这类产品的模式。周末我测试了多个类似系统,结果无一例外地暴露了工作流架构的固有局限性,这些局限在AutoGPT时代就已经很明显了:无法规划,遇到盲区就卡住;无法记忆,持续执行超过5到10分钟就难以为继;无法有效行动,错误会像滚雪球一样累积,最终导致整个任务链崩溃。
简单大语言模型智能体的惨痛教训
这里有一个反直觉的事实:智能体的底层逻辑,和基础语言模型几乎是完全矛盾的。
在经典智能体研究中,智能体生活在受限的环境中——迷宫、棋盘、物理空间。它有明确的行动边界,需要记住自己走过的路,制定策略,最终获取奖励。这个过程叫“搜索”,它和搜索引擎里用户点击页面的逻辑惊人地相似。有传言说,OpenAI新一代模型背后的Q-star算法,本质上是1968年A-Star搜索算法的衍生——这个传闻目前还无法证实,但逻辑上是成立的。近期Pufferlib在《宝可梦》游戏上做的强化学习实验就是绝佳案例:智能体在不断试错中摸索最优路径,失败的记录和反复的尝试本身就是学习过程。
基础语言模型的工作方式却几乎是反过来的:
- 智能体记住它们所处的环境。基础模型不会——它只对上下文窗口内即时可见的信息做出反应。
- 智能体受限于有限理性。基础模型可以生成任何可能的文本——虽然有时会产出看似合理的推理,但这绝不保证正确,模型随时可能因为“看起来更优美”而偏离方向。
- 智能体能制定长期策略。语言模型能执行单步推理,但多步推理很快就会触及天花板。它受制于文本规则,而非物理规则或游戏规则。
把大语言模型和智能体结合起来,最简单的做法就是用预设提示和规则来限定模型的输出。这正是绝大多数大语言模型智能体系统的做法——但它必然撞上Richard Sutton提出的那个著名的“惨痛教训”。这个教训有时候被误解为某种预训练语言模型的指南,它实质上说的是智能体模型设计中的根本性问题:如果你看到墙,就避开它;如果看到太多墙,就原路返回。短期内,你绕开了麻烦,效果立竿见影,不必等待算法收敛。但长远来看,你构建的只能是最优解的近似,而且一旦遭遇意料之外的场景,系统会彻底失灵。
我们必须吸取这个教训:从长远来看,把我们认为的思考方式硬编码到模型中是行不通的。历史反复证明,研究人员总是倾向于将自己的思考方式预制为规则,短期内的确有效,也会让研究者本人感到满足;但最终会撞上天花板,而突破性的进展往往来自相反的方向——通过搜索和学习来扩展计算能力。最终的胜利往往是苦涩的,因为它意味着对一种更人性化、更直观的方法的放弃。
把这个教训套用到当前大语言模型的实际产品上。像Manus这类工作流,或者你常用的模型封装器,本质上都在做“构建知识”的事情——通过预设提示来引导模型。短期看这是最务实的方案,毕竟不用重新训练模型。但这不是最优的。最终你做出来的,是生成式AI与规则系统的混合体——“一套思考思维内容的简单方法”。
所以,Manus AI订不了机票,或者不能给出徒手与老虎搏斗的建议,不是因为它设计得不好。它就是被“惨痛教训”困住了。提示无法扩展。硬编码的规则也无法扩展。你需要从零开始设计一个能搜索、能规划、能行动的系统。你需要真正的、可训练的大语言模型智能体。
强化学习+推理:成功的关键
这是个真正的难题。公开信息少得可怜。Anthropic、OpenAI、DeepMind和其他极少数实验室掌握着相关知识。目前我们能依靠的,只有少量官方信息、非正式的传闻和有限的开放研究尝试。
- 和经典智能体一样,大语言模型智能体通过强化学习来训练。这里有个“迷宫”:所有可以用来描述事物的潜在词汇。有个最终的“出口”或“奖励”。检查是否获得奖励的模块叫验证器——这正是William Brown新推出的验证器库的全部价值所在。目前验证器最适合验证形式化的结果,比如数学方程式或代码序列。但Kalomaze的实验证明,通过训练专用分类器,完全可以为非严格可验证的输出构建验证器。这个领域有一个重大发现:语言模型在评估方面比在创造方面更出色。所以,即使拿小型的大语言模型来当裁判,你也能在性能和整体奖励设计上获得显著提升。
- 大语言模型智能体通过生成草稿、再对生成的整篇文本进行评估来训练。这不是一个显然的选择——最初的研究试图把搜索扩展到整个标记序列,计算限制是主要障碍。而后在“推理”模型——或许更应被称为“草稿生成模型”上取得的突破扮演了关键角色。典型的训练序列包括:让模型在假设正确答案对应的逻辑序列更正确的前提下,生成自己的逻辑序列。这会产生违反直觉的结果——最好的例子是DeepSeek R0模型时不时在英语和中文之间切换。然而,用“惨痛教训”的眼光看,强化学习只在乎有效的方法——如果非传统或未规划的路径能带来奖励,它会毫不犹豫地采纳。就像迷失在迷宫中的经典智能体,语言模型必须通过纯粹的推理练习找到出路。没有预设的提示,没有指导方向,只有奖励和获得奖励的方法:这是惨痛教训给出的苦涩解药。
- 大语言模型生成的草稿会被预定义为结构化的数据段,以方便奖励验证,并在一定程度上简化推理过程。这是一种规则设计工程,可以直接作为奖励函数来管理,或者——更常见于大型实验室的训练设置——通过训练后的初始阶段来实现。
- 大语言模型智能体通常需要在大量草稿上进行多步骤训练。这在搜索领域尤其典型:我们不会一次性地评估搜索的结果,而是评估模型访问资源、获得结果、阐述结果、获取另一个资源、再次阐述、改变计划、回溯……等一系列行为。因此,当前训练大语言模型智能体的首选方法是DeepSeek的通用相对策略优化(GRPO),尤其是与vllm的文本生成相结合。几周前,我基于William Brown的工作发布了一个广受欢迎的代码笔记本,成功地在Google Colab提供的一块A100 GPU上运行了GRPO。计算需求的大幅降低是一个重要因素——它将确保未来几年强化学习和智能体设计的普及。
规模化:一个尚未解决的挑战
以上是基本的技术组件。但从这些组件到OpenAI的DeepResearch、到能处理长序列行动的智能体,还有不小的距离。这里需要一些推测。
开放的强化学习和推理研究主要集中在数学领域——一个关键原因是,我们有大量可用的数学习题集,很多包含在Common Crawl数据集中,并由HuggingFace通过分类器提取(FineMath)。但对很多领域(尤其是搜索)我们缺乏相关数据。我们需要实际的行为序列:日志、点击记录、行为模式。不久之前,我还做过日志分析——当时的模型(还基于马尔可夫链,但变化真的很快)仍然经常用20世纪90年代末AOL泄露的数据来训练。最近,至少有一个关键的开放数据集被引入:维基百科点击流——一组经过匿名处理的、从一篇维基百科文章跳转到另一篇的数据。现在的关键问题是:这个数据集在HuggingFace上吗?没有。事实上,HuggingFace上几乎没有真正的智能体训练数据——能赋予模型规划能力的那种。整个领域仍然基于一个假设:大语言模型需要与定制化的规则系统进行编排。OpenAI或Anthropic是否也拥有足够规模的数据?这点尚不确定。但至少在这方面,传统科技公司拥有压倒性优势——你不可能买到谷歌用户查询的海量数据集,除非它碰巧在暗网上泄露了。
这里有一个可能的出口:通过模拟直接生成数据。经典的强化学习模型不需要过去的示例。它们通过广泛且反复的搜索来推断约束条件和整体策略。一旦把这个逻辑应用到搜索领域,典型的强化学习方法与游戏中的强化学习不会有太大差别:让模型自由地搜索,每当它找到正确答案时给予奖励。这当然是个极其漫长的过程。比如,需要找一个存储在20世纪60年代某篇被遗忘的苏联论文里的实验方法。通过纯粹的暴力搜索,模型可能在无数次查询变化中偶然找到正确的结果。然后,如果它能把所有能导向该结果的因素汇集起来,下次找到类似结果的可能性就会增加。
做个粗略的估算。在典型的强化学习设计(如GRPO)中,你可以同时处理16个草稿——大型实验室训练的模型可能会用到更高数量的草稿迭代,这并不令人意外。每个草稿可能需要依次浏览至少100个不同的页面。这就是2000个潜在的查询——这还仅仅是……一步。一个复杂的强化学习训练序列可能需要数十万步(我认为这是为什么当前训练已经接近中等规模的原因之一),而且需要各种各样的示例,尤其像通用搜索能力这样复杂的任务。你面前呈现的是一个需要数亿次单独连接的训练序列——并且在过程中可能对一些热门学术资源造成DDoS级别的访问压力。这……毫不理想。带宽——而非实际的计算能力——成为了主要制约因素。
游戏强化学习也面临类似的问题。这就是为什么像Pufferlib这样的先进方法会“包装环境,使其从学习库的角度看起来像雅达利游戏,而不失通用性”——强化学习模型只需要看到它需要使用的东西。一旦应用到搜索领域,这可能涉及利用大型的Common Crawl数据集,并像通过网络发数据一样发送数据,包括网址、API调用和其他典型的HTTP元素。同时,数据已经存在于本地数据帧中,支持快速的检索。
所以我推测,一个用于搜索的大语言模型强化学习智能体可以通过以下步骤训练:
- 使用固定的数据集构建一个大规模的网络搜索模拟器,数据持续地“转换”回模型。
- 通过轻量级的监督微调(SFT)对模型进行预训练——像DeepSeek的SFT-RL-SFT-RL那样——可能基于任何能找到的现有搜索模式。整体思路是对推理过程和输出进行预格式化,加速实际的强化学习训练——本质上是一种预设的规则设计工程。
- 准备不同程度复杂的查询,并把相关的结果作为验证器。我唯一的猜测是:这涉及某种复杂的合成管道,包括对现有资源进行反向翻译,或者可能需要由博士级别的标注员进行极其昂贵的标注工作。
- 开展多步骤的实际强化学习训练。模型接收一个查询,启动搜索,接收结果,可以浏览一个页面或重新表述结果——所有这些都在分步进行。从模型的角度看,它就像在真正地浏览网页,但实际所有的数据交换都由搜索模拟器在后台预先准备好。
- 或许,一旦模型在搜索上表现得足够好,就再进行一轮强化学习和监督微调,这次更侧重于如何编写最终的综合结果。我预测这又涉及一些复杂的合成管道——输出变成了输入:把原始的长篇报告切分成小块,再通过推理将它们关联起来。
不再是“提示词”,而是“训练模型”
最终,我们获得的是真正的智能体模型。和标准的工作流或模型编排相比,它在实际应用会带来什么不同?仅仅是整体质量上的提升,还是一次范式上的彻底转变?
回到Anthropic的定义:大语言模型智能体“能够动态地指导自身的处理过程及工具的使用,并对任务的完成方式保持控制”。我用自己最熟悉的场景——搜索——来做说明。
关于RAG(检索增强生成)消亡、被长上下文直接的大语言模型取代的猜测已经不少。但出于多种原因,这并没有发生:长上下文在计算上成本高昂,除简单的查找之外并没那么精准,而且输入的可追溯性很差。真正的智能体搜索大语言模型并不会淘汰RAG。更可能发生的是:它在很大程度上将RAG自动化,把向量存储、路由、重排序这些复杂问题都整合在一起。一个典型的搜索过程可能如下进行:
- 分析查询,对其进行分解,对用户意图做出假设。
- 如果查询不清晰,立刻向用户返回澄清——OpenAI的DeepResearch已经做到了这一点。
- 然后,模型可以进行通用搜索,或在适当情况下直接转向更专业的研究资源。模型已经记住了标准的API方案,可以直接调用它们。为了节省推理时间,它可能优先依赖现有“模拟”网络版本——API、网站地图、以及庞大的网络数据生态系统。
- 搜索序列是经过学习训练的。模型能够放弃错误的方向,或像专业的知识工作者那样调整路径。我在OpenAI DeepResearch中看到的某些最令人印象深刻的结果就展示了这种能力:通过一连串的内部推理,精准定位索引不佳的源头。
- 这些步骤和过程被记录为内部推理痕迹,提供了一定程度的可解释性。
简而言之,搜索过程是直接设计的。大语言模型智能体接受现有的搜索基础设施,并尽最大努力找到最佳解决方案。不需要额外的数据准备,也无需训练用户与生成式AI系统交互。正如Tim Berners-Lee十多年前强调的:“思考智能体的一种方式:在每种情况下,程序都能准确地执行用户在被具体询问时希望它执行的操作。”
现在,你可以开始把这种方法扩展到其他领域。一个真正的网络工程智能体将能够直接与现有基础设施交互——根据需求配置路由器、交换机、防火墙,分析网络拓扑并提出优化建议,解析错误日志定位故障根源。一个真正的金融智能体将经过训练,能够在不同数据标准(比如ISO 20022和MT103)之间无缝、准确地转换。仅靠一组系统提示,以上任何一个任务都几乎不可实现。
目前,只有大型实验室有能力开发真正的大语言模型智能体。它们掌握着所有关键要素:专业知识、部分数据(或者至少拥有合成数据的方法),以及将模型转化为产品的完整流程。从个人角度来说,我不确定这种技术集中是好事还是坏事——但深究起来,资金生态不愿意把实际的模型训练视为真正的、长远的碘伏性力量和价值创造来源,助长了这种集中。
我一般不喜欢夸大事物。但考虑到大语言模型智能体在碘伏性变革和价值创造上的巨大潜力,让真正的大语言模型智能体的训练和部署实现普惠化,已经变得非常紧迫。所以,开放验证器、开放GRPO训练样本,并且——也许很快——开放复杂的合成管道和模拟器。
2025年,会成为智能体之年吗?仍有充分可能。让我们拭目以待。
