游乐游手机版
首页/科技数码/文章详情

加州大学圣地亚哥分校研究发现大模型具备自主调用工具能力

时间:2026-05-20 07:28
想象一下,你雇佣了一位助理,结果发现他连“今天是几号”这种简单问题都要打开日历App确认,甚至跑去图书馆查资料——你肯定会觉得,这位助理是不是过度依赖工具了? 如今,配备了搜索引擎、计算器和代码执行器等外部工具的大型语言模型,正面临同样的困境。它们似乎养成了一种习惯:无论任务简单还是复杂,都倾向于调


想象一下,你雇佣了一位助理,结果发现他连“今天是几号”这种简单问题都要打开日历App确认,甚至跑去图书馆查资料——你肯定会觉得,这位助理是不是过度依赖工具了?

如今,配备了搜索引擎、计算器和代码执行器等外部工具的大型语言模型,正面临同样的困境。它们似乎养成了一种习惯:无论任务简单还是复杂,都倾向于调用工具,哪怕自身能力足以直接解答。关键在于,每次工具调用都意味着成本:向外部API发送请求会产生费用,同时也会带来延迟。当一次会话涉及数十个决策点时,这些不必要的调用会迅速累积成巨大的资源浪费。

那么,模型是真的无法判断何时该用工具,还是它内心其实明白,只是在“开口说话”时未能准确表达?这正是加州大学圣地亚哥分校与亚马逊AWS合作团队在2026年5月发布的一项预印本研究(arXiv:2605.09252)试图解答的核心问题。

研究团队系统性地完成了三项工作:构建了一个专门测试“工具调用决策”的评测基准,揭示了现有解决方案的局限性,并从模型的神经网络信号中找到了解决问题的关键线索,最终提出了一种极为轻量高效的干预方法。整个过程,如同侦探逐步挖掘出嫌疑人内心深处的真实想法,并用它来纠正其异常行为。

一、设计一场“何时用工具”的考试

在此之前,学界已有不少测试大模型工具使用能力的基准,如ToolQA、API-Bank等。但这些测试都有一个共同的隐含前提:每道题都必须借助工具来解决。它们测量的是“会不会用”,而不是“知不知道何时该用”。

为了填补这一空白,研究团队设计了一套全新的评测体系——WHEN2TOOL。

WHEN2TOOL包含18个测试环境,分为15个单步任务和3个多步链式任务,覆盖了AI智能体需要做出工具调用决策的三大核心场景。每个场景都设置了三个难度级别:简单(模型大多无需工具即可答对)、中等(真正的决策模糊地带)、困难(几乎必须借助工具)。这种设计让研究者能精确观察模型在何时过度调用工具,又在何时调用不足。

第一类场景:考验计算规模。 模型完全理解运算规则,关键在于数字大小是否超出了其可靠计算的范围。例如,12加7可以心算,但涉及万亿级乘法或五阶矩阵行列式时,就必须借助计算器。这类环境包括计算器、统计、排列组合、矩阵和质数判断,通过调整数字规模来划定难度边界。

第二类场景:考验知识边界。 “法国首都是什么”属于常识,模型可直接回答;但“Taskforce Nimbus-73的冷却剂等级是什么”中的实体根本不存在于训练数据中,模型必须查阅才能知道。这类环境涵盖文档检索、历史年份、游戏规则、哈希计算和解码,从众所周知的事实到完全虚构的信息,测试模型对自身知识局限的认知。

第三类场景:考验执行可靠性。 模型既知道规则,也拥有所有必要信息,难点在于执行步骤过多,容易出错。预测print(2+3)的输出几乎不会错,但追踪一个20次迭代的动态规划算法,每一步都可能积累误差,最终答案面目全非。这类环境包括列表操作、日期时间计算、代码执行、日程安排和正则表达式。

多步链式任务则更进一步,要求模型做出三个相互依赖的工具调用决策——第一步的输出是第二步的输入,第二步的输出又是第三步的输入,分别对应上述三类场景。

值得一提的是,WHEN2TOOL完全在本地运行,无需任何外部API密钥或网络连接,所有工具响应都在本机确定性模拟,既保证了零成本,又确保了实验的完全可复现性。

二、两种常见解法,为何双双受挫

有了评测基准,团队首先测试了两种最直观的、无需重新训练模型的解决方案:提示词控制与推理引导。他们评估了包括Qwen3系列和Llama系列在内的六个不同规模的模型。

提示词控制的思路很直接:告诉模型“工具很贵,能不用就不用”。团队设计了五种提示模式,从强制使用到完全禁止。结果发现,在默认设置下,模型简直是“工具调用狂魔”。例如,Qwen3-1.7B在750道简单题中发出了864次工具调用,平均每题超过一次。模型的默认逻辑似乎是“能用就用”,完全不考虑必要性。

当提示词开始限制使用时,第二个问题出现了:这种限制是“一刀切”的。以Qwen3-4B为例,从默认切换到“谨慎使用”模式后,简单任务的准确率下降了14.5个百分点,困难任务的准确率也下降了20.3个百分点。提示词并没有聪明地区分必要与多余的调用,而是将两者一同压制。量化指标显示,在困难任务上,每减少一次工具调用所损失的准确率,是简单任务的两倍甚至更多——省钱的同时,把最需要帮助的任务也搞砸了。

推理引导的思路更为精细:让模型在调用工具前,先思考“我到底需不需要用工具”,再据此行动。这种方法在简单任务上确实有所改善,帮助模型减少了一些不必要的调用。但在困难任务上,它依然无力。更严重的问题出现在Llama系列模型上:加入推理引导后,模型开始大段叙述“我打算调用工具……”,却从未生成有效的工具调用格式,最终“光说不练”,导致准确率暴跌。

此外,这两种方法还有一个共同痛点:它们只能提供几个固定的“工作点”,无法平滑调节工具调用的比例。用户如果想在特定预算下最大化准确率,它们都做不到。

三、拨开迷雾:模型的“潜意识”里藏着答案

于是,一个关键问题被提出:模型是真的不知道何时需要工具,还是它其实知道,只是在生成文字时无法表达出来?

为了找到答案,研究团队决定深入模型内部,直接检查神经网络的隐藏状态。这个过程好比不听一个人说什么,而是直接扫描他的大脑活动来判断真实想法。具体做法是:让模型尝试回答问题,根据其对错标记是否需要工具;然后,在模型开始生成输出前,提取其最后一层所有位置的隐藏状态,形成一个高维向量;最后,用这个向量训练一个极简单的线性分类器,预测工具是否必要。

结果令人惊讶。这个简单到几乎可笑的线性分类器,在六个模型上的分类性能指标(AUROC)全部达到了0.89以上,多个模型超过0.95。这意味着,在模型开口说第一个字之前,它的神经网络信号就已经以极高的准确度编码了“这道题需不需要工具”的信息。

最具说服力的对比来自Llama模型。前文提到,推理引导导致其工具调用能力几乎崩溃。然而,在这些同样的模型上,线性探针的AUROC依然轻松达到0.93以上。这说明,模型在神经表示层面“知道”何时需要工具,和它能否通过语言流畅表达出来,是两件独立的事。就像一个人可能内心知道答案,却在表达时因干扰而说错——他大脑里的知识依然存在,只是没被正确传递到输出端。

四、从“潜意识”到行动:PROBE&PREFILL方法

既然模型内部已有清晰的工具必要性信号,问题就变成了:如何利用这个信号,驱动正确的行动?研究团队提出的方案叫做PROBE&PREFILL,可理解为“探针引导预填充”。

整个方法分三步走,如同一个精心设计的接力赛:

第一步,信息提取。 模型处理输入时,会进行一次前向传播来建立计算缓存(这是生成本来就需要做的)。PROBE&PREFILL在此步骤中顺手读取最后一个位置所有层的隐藏状态,这部分额外开销几乎为零。

第二步,探针预测。 将隐藏状态输入训练好的线性探针,得到一个概率值p,表示“此题需要工具”的可能性。然后用一个可调节的阈值τ来做二分决策。调节τ就能获得一条平滑的准确率-效率权衡曲线,而非几个离散的固定点。

第三步,预填充引导。 根据探针的判断,在模型开始生成回复前,先往回复开头插入一句引导语。如果判断不需要工具,插入“I can solve this directly without using a tool.”;如果需要,则插入“I need to use a tool for this question.”。这种“软预填充”允许模型在认为探针判断有误时进行覆盖修正。对于容易忽视软引导的模型,也可采用“硬预填充”模式,直接强制输出格式。

实验证明,PROBE&PREFILL在所有测试模型上都优于基线方法。以Qwen模型为例,在任何给定的工具调用预算下,它都能实现更高的准确率;反之,在任何给定的准确率目标下,它都能用更少的工具调用达成。更重要的是,它展现了“自适应削减”的能力——智慧地跳过简单任务的工具调用,同时保留困难任务的必要调用。

在六个模型上汇总来看,PROBE&PREFILL平均减少了48%的工具调用,同时准确率仅下降1.7个百分点。相比之下,能达到相近准确率的最好基线方法,工具调用减少幅度只有6%;能达到相近工具减少幅度的最好基线,准确率下降了近9个百分点。

五、更多维度的验证

研究团队在多个维度进一步验证了方法的鲁棒性和泛化能力。

多步链式任务: 探针表现同样出色。有趣的是,对于Llama系列模型,探针反而增加了工具调用次数并大幅提升了准确率——这说明这些模型在默认情况下对多步任务的工具调用不足,探针纠正的是调用不足而非过度调用。

跨域泛化: 为了测试探针是否学到了通用信号而非死记硬背,团队进行了跨环境测试。结果显示,跨域探针的性能曲线与全环境训练的探针几乎重合,证明其捕捉的是类别层面的通用逻辑。

真实世界验证: 在开放域问答数据集上的测试表明,在多数情况下,PROBE&PREFILL在减少更多搜索调用的同时,达到了相当甚至更高的准确率。

与监督微调(SFT)对比: SFT虽然能将准确率提高2-3个百分点,但并未可靠减少工具调用,有时甚至略有增加。SFT学会了“怎样更好地回答问题”,但没有学会“何时不用工具”的决策边界。而PROBE&PREFILL只需几秒钟CPU训练时间,不修改任何模型参数,推理时每题额外开销不到0.7毫秒,与现有基础设施完全兼容。

总结与启示

归根结底,这项研究揭示了一个反直觉的事实:AI智能体的工具调用失控问题,往往不是因为模型无知,而是因为它的知识被“锁”在了神经信号层面,未能稳定地渗透到语言生成过程中。说得通俗些,模型的潜意识比它说出来的话更可靠。

PROBE&PREFILL这套方法,本质上是架设了一条旁路,直接读取潜意识信号,绕过语言生成这个不可靠的中间环节,以极低的成本将正确的知识传递到行动层面。这对于任何部署了工具增强型AI的团队都具有直接的参考价值:在不改动模型、不进行昂贵微调的前提下,仅凭几秒钟的探针训练,就能让API费用下降近一半,同时基本不损失任务质量。

更深层的意义或许在于,它提示我们:在许多看似需要大规模干预的AI行为问题中,模型内部可能早已存在正确的信号。我们需要的或许不是重新教它,而是找到更好的方式来倾听它。

Q&A

Q1:WHEN2TOOL基准测试与其他工具有何不同?

A:现有基准(如ToolQA)都假设每道题都需要工具,测的是“会不会用”。WHEN2TOOL则专门测试“知不知道何时该用”——它包含从无需工具到必须工具的连续难度设计,覆盖计算规模、知识边界和执行追踪三大场景,是首个专门研究工具调用决策的基准。

Q2:PROBE&PREFILL需要重新训练大模型吗?

A:完全不需要。该方法只训练一个极简单的线性分类器(探针),该分类器读取已有大模型处理输入时自然产生的隐藏状态信号。整个探针训练只需几百个样本,在普通CPU上几秒完成,不修改任何大模型参数,推理额外开销不到1毫秒,可直接叠加于现有模型服务系统。

Q3:为什么让大模型自己推理“需不需要用工具”效果不好?

A:推理引导要求模型先用语言描述决策过程,再行动。研究发现这个过程相当不可靠:对于Llama系列模型,加入推理引导后,模型会大篇幅叙述调用意图,却从未生成有效的工具调用格式,导致准确率暴跌。更根本的原因是,模型神经网络中已编码了清晰的工具必要性信号(探针AUROC高达0.93以上),但这个信号未被稳定传递到语言生成过程,导致“说的”和“想的”不一致。

来源:https://www.163.com/dy/article/KTAR9MM60511DTVV.html
上一篇Nous Research揭秘AI高效学习秘诀解决大模型训练成本难题 下一篇德国人工智能研究中心研发透视眼技术
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。