新一代真正可训练的大模型智能体即将问世_AI热点日报

2025年开年，智能体赛道迎来两个标志性事件：OpenAI发布DeepResearch（基于O3模型的搜索专用版本），以及Claude Sonnet 3 7在代码领域的突破性表现。这两个进展指向同一个趋势——真正可被训练的大语言模型智能体，正在从实验室走向现实。但有趣的是，行业内对这项关键进展的关注

2025年开年，智能体赛道迎来两个标志性事件：OpenAI发布DeepResearch（基于O3模型的搜索专用版本），以及Claude Sonnet 3.7在代码领域的突破性表现。这两个进展指向同一个趋势——真正可被训练的大语言模型智能体，正在从实验室走向现实。但有趣的是，行业内对这项关键进展的关注似乎还远远不够。

先说两个核心判断。第一，DeepResearch和Sonnet 3.7的成功，本质上是“强化学习+多步骤推理”这条技术路线的胜利。DeepResearch通过针对浏览任务的强化学习训练，获得了规划搜索策略的能力——它能根据中间反馈调整查询方向、交叉验证不同来源的信息。Sonnet 3.7则把同样的方法论成功迁移到了代码领域，处理复杂编程任务序列的效果，已经超越了以往任何基于编排的方案。正如William Brown总结的：大语言模型智能体终于能够胜任长时间的多步骤任务了。

第二，我们需要重新定义什么才是真正的“大语言模型智能体”。去年12月，Anthropic给出了一个极其清晰的界定：在这类系统中，大模型能够动态地指导自身的处理过程及工具使用，并对任务完成方式保持完整控制。注意，这句话的关键词是“动态”和“控制”。与之相对的，是市面上更常见的工作流系统——通过预定义的代码路径来编排模型和工具，也就是Manus AI这类产品的模式。周末我测试了多个类似系统，结果无一例外地暴露了工作流架构的固有局限性，这些局限在AutoGPT时代就已经很明显了：无法规划，遇到盲区就卡住；无法记忆，持续执行超过5到10分钟就难以为继；无法有效行动，错误会像滚雪球一样累积，最终导致整个任务链崩溃。

简单大语言模型智能体的惨痛教训

这里有一个反直觉的事实：智能体的底层逻辑，和基础语言模型几乎是完全矛盾的。

在经典智能体研究中，智能体生活在受限的环境中——迷宫、棋盘、物理空间。它有明确的行动边界，需要记住自己走过的路，制定策略，最终获取奖励。这个过程叫“搜索”，它和搜索引擎里用户点击页面的逻辑惊人地相似。有传言说，OpenAI新一代模型背后的Q-star算法，本质上是1968年A-Star搜索算法的衍生——这个传闻目前还无法证实，但逻辑上是成立的。近期Pufferlib在《宝可梦》游戏上做的强化学习实验就是绝佳案例：智能体在不断试错中摸索最优路径，失败的记录和反复的尝试本身就是学习过程。

基础语言模型的工作方式却几乎是反过来的：

智能体记住它们所处的环境。基础模型不会——它只对上下文窗口内即时可见的信息做出反应。
智能体受限于有限理性。基础模型可以生成任何可能的文本——虽然有时会产出看似合理的推理，但这绝不保证正确，模型随时可能因为“看起来更优美”而偏离方向。
智能体能制定长期策略。语言模型能执行单步推理，但多步推理很快就会触及天花板。它受制于文本规则，而非物理规则或游戏规则。

把大语言模型和智能体结合起来，最简单的做法就是用预设提示和规则来限定模型的输出。这正是绝大多数大语言模型智能体系统的做法——但它必然撞上Richard Sutton提出的那个著名的“惨痛教训”。这个教训有时候被误解为某种预训练语言模型的指南，它实质上说的是智能体模型设计中的根本性问题：如果你看到墙，就避开它；如果看到太多墙，就原路返回。短期内，你绕开了麻烦，效果立竿见影，不必等待算法收敛。但长远来看，你构建的只能是最优解的近似，而且一旦遭遇意料之外的场景，系统会彻底失灵。

我们必须吸取这个教训：从长远来看，把我们认为的思考方式硬编码到模型中是行不通的。历史反复证明，研究人员总是倾向于将自己的思考方式预制为规则，短期内的确有效，也会让研究者本人感到满足；但最终会撞上天花板，而突破性的进展往往来自相反的方向——通过搜索和学习来扩展计算能力。最终的胜利往往是苦涩的，因为它意味着对一种更人性化、更直观的方法的放弃。

把这个教训套用到当前大语言模型的实际产品上。像Manus这类工作流，或者你常用的模型封装器，本质上都在做“构建知识”的事情——通过预设提示来引导模型。短期看这是最务实的方案，毕竟不用重新训练模型。但这不是最优的。最终你做出来的，是生成式AI与规则系统的混合体——“一套思考思维内容的简单方法”。

所以，Manus AI订不了机票，或者不能给出徒手与老虎搏斗的建议，不是因为它设计得不好。它就是被“惨痛教训”困住了。提示无法扩展。硬编码的规则也无法扩展。你需要从零开始设计一个能搜索、能规划、能行动的系统。你需要真正的、可训练的大语言模型智能体。

强化学习+推理：成功的关键

这是个真正的难题。公开信息少得可怜。Anthropic、OpenAI、DeepMind和其他极少数实验室掌握着相关知识。目前我们能依靠的，只有少量官方信息、非正式的传闻和有限的开放研究尝试。

和经典智能体一样，大语言模型智能体通过强化学习来训练。这里有个“迷宫”：所有可以用来描述事物的潜在词汇。有个最终的“出口”或“奖励”。检查是否获得奖励的模块叫验证器——这正是William Brown新推出的验证器库的全部价值所在。目前验证器最适合验证形式化的结果，比如数学方程式或代码序列。但Kalomaze的实验证明，通过训练专用分类器，完全可以为非严格可验证的输出构建验证器。这个领域有一个重大发现：语言模型在评估方面比在创造方面更出色。所以，即使拿小型的大语言模型来当裁判，你也能在性能和整体奖励设计上获得显著提升。
大语言模型智能体通过生成草稿、再对生成的整篇文本进行评估来训练。这不是一个显然的选择——最初的研究试图把搜索扩展到整个标记序列，计算限制是主要障碍。而后在“推理”模型——或许更应被称为“草稿生成模型”上取得的突破扮演了关键角色。典型的训练序列包括：让模型在假设正确答案对应的逻辑序列更正确的前提下，生成自己的逻辑序列。这会产生违反直觉的结果——最好的例子是DeepSeek R0模型时不时在英语和中文之间切换。然而，用“惨痛教训”的眼光看，强化学习只在乎有效的方法——如果非传统或未规划的路径能带来奖励，它会毫不犹豫地采纳。就像迷失在迷宫中的经典智能体，语言模型必须通过纯粹的推理练习找到出路。没有预设的提示，没有指导方向，只有奖励和获得奖励的方法：这是惨痛教训给出的苦涩解药。
大语言模型生成的草稿会被预定义为结构化的数据段，以方便奖励验证，并在一定程度上简化推理过程。这是一种规则设计工程，可以直接作为奖励函数来管理，或者——更常见于大型实验室的训练设置——通过训练后的初始阶段来实现。
大语言模型智能体通常需要在大量草稿上进行多步骤训练。这在搜索领域尤其典型：我们不会一次性地评估搜索的结果，而是评估模型访问资源、获得结果、阐述结果、获取另一个资源、再次阐述、改变计划、回溯……等一系列行为。因此，当前训练大语言模型智能体的首选方法是DeepSeek的通用相对策略优化（GRPO），尤其是与vllm的文本生成相结合。几周前，我基于William Brown的工作发布了一个广受欢迎的代码笔记本，成功地在Google Colab提供的一块A100 GPU上运行了GRPO。计算需求的大幅降低是一个重要因素——它将确保未来几年强化学习和智能体设计的普及。

规模化：一个尚未解决的挑战

以上是基本的技术组件。但从这些组件到OpenAI的DeepResearch、到能处理长序列行动的智能体，还有不小的距离。这里需要一些推测。

开放的强化学习和推理研究主要集中在数学领域——一个关键原因是，我们有大量可用的数学习题集，很多包含在Common Crawl数据集中，并由HuggingFace通过分类器提取（FineMath）。但对很多领域（尤其是搜索）我们缺乏相关数据。我们需要实际的行为序列：日志、点击记录、行为模式。不久之前，我还做过日志分析——当时的模型（还基于马尔可夫链，但变化真的很快）仍然经常用20世纪90年代末AOL泄露的数据来训练。最近，至少有一个关键的开放数据集被引入：维基百科点击流——一组经过匿名处理的、从一篇维基百科文章跳转到另一篇的数据。现在的关键问题是：这个数据集在HuggingFace上吗？没有。事实上，HuggingFace上几乎没有真正的智能体训练数据——能赋予模型规划能力的那种。整个领域仍然基于一个假设：大语言模型需要与定制化的规则系统进行编排。OpenAI或Anthropic是否也拥有足够规模的数据？这点尚不确定。但至少在这方面，传统科技公司拥有压倒性优势——你不可能买到谷歌用户查询的海量数据集，除非它碰巧在暗网上泄露了。

这里有一个可能的出口：通过模拟直接生成数据。经典的强化学习模型不需要过去的示例。它们通过广泛且反复的搜索来推断约束条件和整体策略。一旦把这个逻辑应用到搜索领域，典型的强化学习方法与游戏中的强化学习不会有太大差别：让模型自由地搜索，每当它找到正确答案时给予奖励。这当然是个极其漫长的过程。比如，需要找一个存储在20世纪60年代某篇被遗忘的苏联论文里的实验方法。通过纯粹的暴力搜索，模型可能在无数次查询变化中偶然找到正确的结果。然后，如果它能把所有能导向该结果的因素汇集起来，下次找到类似结果的可能性就会增加。

做个粗略的估算。在典型的强化学习设计（如GRPO）中，你可以同时处理16个草稿——大型实验室训练的模型可能会用到更高数量的草稿迭代，这并不令人意外。每个草稿可能需要依次浏览至少100个不同的页面。这就是2000个潜在的查询——这还仅仅是……一步。一个复杂的强化学习训练序列可能需要数十万步（我认为这是为什么当前训练已经接近中等规模的原因之一），而且需要各种各样的示例，尤其像通用搜索能力这样复杂的任务。你面前呈现的是一个需要数亿次单独连接的训练序列——并且在过程中可能对一些热门学术资源造成DDoS级别的访问压力。这……毫不理想。带宽——而非实际的计算能力——成为了主要制约因素。

游戏强化学习也面临类似的问题。这就是为什么像Pufferlib这样的先进方法会“包装环境，使其从学习库的角度看起来像雅达利游戏，而不失通用性”——强化学习模型只需要看到它需要使用的东西。一旦应用到搜索领域，这可能涉及利用大型的Common Crawl数据集，并像通过网络发数据一样发送数据，包括网址、API调用和其他典型的HTTP元素。同时，数据已经存在于本地数据帧中，支持快速的检索。

所以我推测，一个用于搜索的大语言模型强化学习智能体可以通过以下步骤训练：

使用固定的数据集构建一个大规模的网络搜索模拟器，数据持续地“转换”回模型。
通过轻量级的监督微调（SFT）对模型进行预训练——像DeepSeek的SFT-RL-SFT-RL那样——可能基于任何能找到的现有搜索模式。整体思路是对推理过程和输出进行预格式化，加速实际的强化学习训练——本质上是一种预设的规则设计工程。
准备不同程度复杂的查询，并把相关的结果作为验证器。我唯一的猜测是：这涉及某种复杂的合成管道，包括对现有资源进行反向翻译，或者可能需要由博士级别的标注员进行极其昂贵的标注工作。
开展多步骤的实际强化学习训练。模型接收一个查询，启动搜索，接收结果，可以浏览一个页面或重新表述结果——所有这些都在分步进行。从模型的角度看，它就像在真正地浏览网页，但实际所有的数据交换都由搜索模拟器在后台预先准备好。
或许，一旦模型在搜索上表现得足够好，就再进行一轮强化学习和监督微调，这次更侧重于如何编写最终的综合结果。我预测这又涉及一些复杂的合成管道——输出变成了输入：把原始的长篇报告切分成小块，再通过推理将它们关联起来。

不再是“提示词”，而是“训练模型”

最终，我们获得的是真正的智能体模型。和标准的工作流或模型编排相比，它在实际应用会带来什么不同？仅仅是整体质量上的提升，还是一次范式上的彻底转变？

回到Anthropic的定义：大语言模型智能体“能够动态地指导自身的处理过程及工具的使用，并对任务的完成方式保持控制”。我用自己最熟悉的场景——搜索——来做说明。

关于RAG（检索增强生成）消亡、被长上下文直接的大语言模型取代的猜测已经不少。但出于多种原因，这并没有发生：长上下文在计算上成本高昂，除简单的查找之外并没那么精准，而且输入的可追溯性很差。真正的智能体搜索大语言模型并不会淘汰RAG。更可能发生的是：它在很大程度上将RAG自动化，把向量存储、路由、重排序这些复杂问题都整合在一起。一个典型的搜索过程可能如下进行：

分析查询，对其进行分解，对用户意图做出假设。
如果查询不清晰，立刻向用户返回澄清——OpenAI的DeepResearch已经做到了这一点。
然后，模型可以进行通用搜索，或在适当情况下直接转向更专业的研究资源。模型已经记住了标准的API方案，可以直接调用它们。为了节省推理时间，它可能优先依赖现有“模拟”网络版本——API、网站地图、以及庞大的网络数据生态系统。
搜索序列是经过学习训练的。模型能够放弃错误的方向，或像专业的知识工作者那样调整路径。我在OpenAI DeepResearch中看到的某些最令人印象深刻的结果就展示了这种能力：通过一连串的内部推理，精准定位索引不佳的源头。
这些步骤和过程被记录为内部推理痕迹，提供了一定程度的可解释性。

简而言之，搜索过程是直接设计的。大语言模型智能体接受现有的搜索基础设施，并尽最大努力找到最佳解决方案。不需要额外的数据准备，也无需训练用户与生成式AI系统交互。正如Tim Berners-Lee十多年前强调的：“思考智能体的一种方式：在每种情况下，程序都能准确地执行用户在被具体询问时希望它执行的操作。”

现在，你可以开始把这种方法扩展到其他领域。一个真正的网络工程智能体将能够直接与现有基础设施交互——根据需求配置路由器、交换机、防火墙，分析网络拓扑并提出优化建议，解析错误日志定位故障根源。一个真正的金融智能体将经过训练，能够在不同数据标准（比如ISO 20022和MT103）之间无缝、准确地转换。仅靠一组系统提示，以上任何一个任务都几乎不可实现。

目前，只有大型实验室有能力开发真正的大语言模型智能体。它们掌握着所有关键要素：专业知识、部分数据（或者至少拥有合成数据的方法），以及将模型转化为产品的完整流程。从个人角度来说，我不确定这种技术集中是好事还是坏事——但深究起来，资金生态不愿意把实际的模型训练视为真正的、长远的碘伏性力量和价值创造来源，助长了这种集中。

我一般不喜欢夸大事物。但考虑到大语言模型智能体在碘伏性变革和价值创造上的巨大潜力，让真正的大语言模型智能体的训练和部署实现普惠化，已经变得非常紧迫。所以，开放验证器、开放GRPO训练样本，并且——也许很快——开放复杂的合成管道和模拟器。

2025年，会成为智能体之年吗？仍有充分可能。让我们拭目以待。