加州大学圣地亚哥分校研究发现大模型具备自主调用工具能力

时间：2026-05-20 07:28

想象一下，你雇佣了一位助理，结果发现他连“今天是几号”这种简单问题都要打开日历App确认，甚至跑去图书馆查资料——你肯定会觉得，这位助理是不是过度依赖工具了？如今，配备了搜索引擎、计算器和代码执行器等外部工具的大型语言模型，正面临同样的困境。它们似乎养成了一种习惯：无论任务简单还是复杂，都倾向于调

想象一下，你雇佣了一位助理，结果发现他连“今天是几号”这种简单问题都要打开日历App确认，甚至跑去图书馆查资料——你肯定会觉得，这位助理是不是过度依赖工具了？

如今，配备了搜索引擎、计算器和代码执行器等外部工具的大型语言模型，正面临同样的困境。它们似乎养成了一种习惯：无论任务简单还是复杂，都倾向于调用工具，哪怕自身能力足以直接解答。关键在于，每次工具调用都意味着成本：向外部API发送请求会产生费用，同时也会带来延迟。当一次会话涉及数十个决策点时，这些不必要的调用会迅速累积成巨大的资源浪费。

那么，模型是真的无法判断何时该用工具，还是它内心其实明白，只是在“开口说话”时未能准确表达？这正是加州大学圣地亚哥分校与亚马逊AWS合作团队在2026年5月发布的一项预印本研究（arXiv:2605.09252）试图解答的核心问题。

研究团队系统性地完成了三项工作：构建了一个专门测试“工具调用决策”的评测基准，揭示了现有解决方案的局限性，并从模型的神经网络信号中找到了解决问题的关键线索，最终提出了一种极为轻量高效的干预方法。整个过程，如同侦探逐步挖掘出嫌疑人内心深处的真实想法，并用它来纠正其异常行为。

一、设计一场“何时用工具”的考试

在此之前，学界已有不少测试大模型工具使用能力的基准，如ToolQA、API-Bank等。但这些测试都有一个共同的隐含前提：每道题都必须借助工具来解决。它们测量的是“会不会用”，而不是“知不知道何时该用”。

为了填补这一空白，研究团队设计了一套全新的评测体系——WHEN2TOOL。

WHEN2TOOL包含18个测试环境，分为15个单步任务和3个多步链式任务，覆盖了AI智能体需要做出工具调用决策的三大核心场景。每个场景都设置了三个难度级别：简单（模型大多无需工具即可答对）、中等（真正的决策模糊地带）、困难（几乎必须借助工具）。这种设计让研究者能精确观察模型在何时过度调用工具，又在何时调用不足。

第一类场景：考验计算规模。 模型完全理解运算规则，关键在于数字大小是否超出了其可靠计算的范围。例如，12加7可以心算，但涉及万亿级乘法或五阶矩阵行列式时，就必须借助计算器。这类环境包括计算器、统计、排列组合、矩阵和质数判断，通过调整数字规模来划定难度边界。

第二类场景：考验知识边界。 “法国首都是什么”属于常识，模型可直接回答；但“Taskforce Nimbus-73的冷却剂等级是什么”中的实体根本不存在于训练数据中，模型必须查阅才能知道。这类环境涵盖文档检索、历史年份、游戏规则、哈希计算和解码，从众所周知的事实到完全虚构的信息，测试模型对自身知识局限的认知。

第三类场景：考验执行可靠性。 模型既知道规则，也拥有所有必要信息，难点在于执行步骤过多，容易出错。预测print(2+3)的输出几乎不会错，但追踪一个20次迭代的动态规划算法，每一步都可能积累误差，最终答案面目全非。这类环境包括列表操作、日期时间计算、代码执行、日程安排和正则表达式。

多步链式任务则更进一步，要求模型做出三个相互依赖的工具调用决策——第一步的输出是第二步的输入，第二步的输出又是第三步的输入，分别对应上述三类场景。

值得一提的是，WHEN2TOOL完全在本地运行，无需任何外部API密钥或网络连接，所有工具响应都在本机确定性模拟，既保证了零成本，又确保了实验的完全可复现性。

二、两种常见解法，为何双双受挫

有了评测基准，团队首先测试了两种最直观的、无需重新训练模型的解决方案：提示词控制与推理引导。他们评估了包括Qwen3系列和Llama系列在内的六个不同规模的模型。

提示词控制的思路很直接：告诉模型“工具很贵，能不用就不用”。团队设计了五种提示模式，从强制使用到完全禁止。结果发现，在默认设置下，模型简直是“工具调用狂魔”。例如，Qwen3-1.7B在750道简单题中发出了864次工具调用，平均每题超过一次。模型的默认逻辑似乎是“能用就用”，完全不考虑必要性。

当提示词开始限制使用时，第二个问题出现了：这种限制是“一刀切”的。以Qwen3-4B为例，从默认切换到“谨慎使用”模式后，简单任务的准确率下降了14.5个百分点，困难任务的准确率也下降了20.3个百分点。提示词并没有聪明地区分必要与多余的调用，而是将两者一同压制。量化指标显示，在困难任务上，每减少一次工具调用所损失的准确率，是简单任务的两倍甚至更多——省钱的同时，把最需要帮助的任务也搞砸了。

推理引导的思路更为精细：让模型在调用工具前，先思考“我到底需不需要用工具”，再据此行动。这种方法在简单任务上确实有所改善，帮助模型减少了一些不必要的调用。但在困难任务上，它依然无力。更严重的问题出现在Llama系列模型上：加入推理引导后，模型开始大段叙述“我打算调用工具……”，却从未生成有效的工具调用格式，最终“光说不练”，导致准确率暴跌。

此外，这两种方法还有一个共同痛点：它们只能提供几个固定的“工作点”，无法平滑调节工具调用的比例。用户如果想在特定预算下最大化准确率，它们都做不到。

三、拨开迷雾：模型的“潜意识”里藏着答案

于是，一个关键问题被提出：模型是真的不知道何时需要工具，还是它其实知道，只是在生成文字时无法表达出来？

为了找到答案，研究团队决定深入模型内部，直接检查神经网络的隐藏状态。这个过程好比不听一个人说什么，而是直接扫描他的大脑活动来判断真实想法。具体做法是：让模型尝试回答问题，根据其对错标记是否需要工具；然后，在模型开始生成输出前，提取其最后一层所有位置的隐藏状态，形成一个高维向量；最后，用这个向量训练一个极简单的线性分类器，预测工具是否必要。

结果令人惊讶。这个简单到几乎可笑的线性分类器，在六个模型上的分类性能指标（AUROC）全部达到了0.89以上，多个模型超过0.95。这意味着，在模型开口说第一个字之前，它的神经网络信号就已经以极高的准确度编码了“这道题需不需要工具”的信息。

最具说服力的对比来自Llama模型。前文提到，推理引导导致其工具调用能力几乎崩溃。然而，在这些同样的模型上，线性探针的AUROC依然轻松达到0.93以上。这说明，模型在神经表示层面“知道”何时需要工具，和它能否通过语言流畅表达出来，是两件独立的事。就像一个人可能内心知道答案，却在表达时因干扰而说错——他大脑里的知识依然存在，只是没被正确传递到输出端。

四、从“潜意识”到行动：PROBE&PREFILL方法

既然模型内部已有清晰的工具必要性信号，问题就变成了：如何利用这个信号，驱动正确的行动？研究团队提出的方案叫做PROBE&PREFILL，可理解为“探针引导预填充”。

整个方法分三步走，如同一个精心设计的接力赛：

第一步，信息提取。 模型处理输入时，会进行一次前向传播来建立计算缓存（这是生成本来就需要做的）。PROBE&PREFILL在此步骤中顺手读取最后一个位置所有层的隐藏状态，这部分额外开销几乎为零。

第二步，探针预测。 将隐藏状态输入训练好的线性探针，得到一个概率值p，表示“此题需要工具”的可能性。然后用一个可调节的阈值τ来做二分决策。调节τ就能获得一条平滑的准确率-效率权衡曲线，而非几个离散的固定点。

第三步，预填充引导。 根据探针的判断，在模型开始生成回复前，先往回复开头插入一句引导语。如果判断不需要工具，插入“I can solve this directly without using a tool.”；如果需要，则插入“I need to use a tool for this question.”。这种“软预填充”允许模型在认为探针判断有误时进行覆盖修正。对于容易忽视软引导的模型，也可采用“硬预填充”模式，直接强制输出格式。

实验证明，PROBE&PREFILL在所有测试模型上都优于基线方法。以Qwen模型为例，在任何给定的工具调用预算下，它都能实现更高的准确率；反之，在任何给定的准确率目标下，它都能用更少的工具调用达成。更重要的是，它展现了“自适应削减”的能力——智慧地跳过简单任务的工具调用，同时保留困难任务的必要调用。

在六个模型上汇总来看，PROBE&PREFILL平均减少了48%的工具调用，同时准确率仅下降1.7个百分点。相比之下，能达到相近准确率的最好基线方法，工具调用减少幅度只有6%；能达到相近工具减少幅度的最好基线，准确率下降了近9个百分点。

五、更多维度的验证

研究团队在多个维度进一步验证了方法的鲁棒性和泛化能力。

多步链式任务： 探针表现同样出色。有趣的是，对于Llama系列模型，探针反而增加了工具调用次数并大幅提升了准确率——这说明这些模型在默认情况下对多步任务的工具调用不足，探针纠正的是调用不足而非过度调用。

跨域泛化： 为了测试探针是否学到了通用信号而非死记硬背，团队进行了跨环境测试。结果显示，跨域探针的性能曲线与全环境训练的探针几乎重合，证明其捕捉的是类别层面的通用逻辑。

真实世界验证： 在开放域问答数据集上的测试表明，在多数情况下，PROBE&PREFILL在减少更多搜索调用的同时，达到了相当甚至更高的准确率。

与监督微调（SFT）对比： SFT虽然能将准确率提高2-3个百分点，但并未可靠减少工具调用，有时甚至略有增加。SFT学会了“怎样更好地回答问题”，但没有学会“何时不用工具”的决策边界。而PROBE&PREFILL只需几秒钟CPU训练时间，不修改任何模型参数，推理时每题额外开销不到0.7毫秒，与现有基础设施完全兼容。

总结与启示

归根结底，这项研究揭示了一个反直觉的事实：AI智能体的工具调用失控问题，往往不是因为模型无知，而是因为它的知识被“锁”在了神经信号层面，未能稳定地渗透到语言生成过程中。说得通俗些，模型的潜意识比它说出来的话更可靠。

PROBE&PREFILL这套方法，本质上是架设了一条旁路，直接读取潜意识信号，绕过语言生成这个不可靠的中间环节，以极低的成本将正确的知识传递到行动层面。这对于任何部署了工具增强型AI的团队都具有直接的参考价值：在不改动模型、不进行昂贵微调的前提下，仅凭几秒钟的探针训练，就能让API费用下降近一半，同时基本不损失任务质量。

更深层的意义或许在于，它提示我们：在许多看似需要大规模干预的AI行为问题中，模型内部可能早已存在正确的信号。我们需要的或许不是重新教它，而是找到更好的方式来倾听它。

Q&A

Q1：WHEN2TOOL基准测试与其他工具有何不同？

A：现有基准（如ToolQA）都假设每道题都需要工具，测的是“会不会用”。WHEN2TOOL则专门测试“知不知道何时该用”——它包含从无需工具到必须工具的连续难度设计，覆盖计算规模、知识边界和执行追踪三大场景，是首个专门研究工具调用决策的基准。

Q2：PROBE&PREFILL需要重新训练大模型吗？

A：完全不需要。该方法只训练一个极简单的线性分类器（探针），该分类器读取已有大模型处理输入时自然产生的隐藏状态信号。整个探针训练只需几百个样本，在普通CPU上几秒完成，不修改任何大模型参数，推理额外开销不到1毫秒，可直接叠加于现有模型服务系统。

Q3：为什么让大模型自己推理“需不需要用工具”效果不好？

A：推理引导要求模型先用语言描述决策过程，再行动。研究发现这个过程相当不可靠：对于Llama系列模型，加入推理引导后，模型会大篇幅叙述调用意图，却从未生成有效的工具调用格式，导致准确率暴跌。更根本的原因是，模型神经网络中已编码了清晰的工具必要性信号（探针AUROC高达0.93以上），但这个信号未被稳定传递到语言生成过程，导致“说的”和“想的”不一致。

来源：https://www.163.com/dy/article/KTAR9MM60511DTVV.html

大模型

上一篇Nous Research揭秘AI高效学习秘诀解决大模型训练成本难题 下一篇德国人工智能研究中心研发透视眼技术

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。