加州大学圣地亚哥分校研究发现大模型具备自主调用工具能力

想象一下,你雇佣了一位助理,结果发现他连“今天是几号”这种简单问题都要打开日历App确认,甚至跑去图书馆查资料——你肯定会觉得,这位助理是不是过度依赖工具了?
如今,配备了搜索引擎、计算器和代码执行器等外部工具的大型语言模型,正面临同样的困境。它们似乎养成了一种习惯:无论任务简单还是复杂,都倾向于调用工具,哪怕自身能力足以直接解答。关键在于,每次工具调用都意味着成本:向外部API发送请求会产生费用,同时也会带来延迟。当一次会话涉及数十个决策点时,这些不必要的调用会迅速累积成巨大的资源浪费。
那么,模型是真的无法判断何时该用工具,还是它内心其实明白,只是在“开口说话”时未能准确表达?这正是加州大学圣地亚哥分校与亚马逊AWS合作团队在2026年5月发布的一项预印本研究(arXiv:2605.09252)试图解答的核心问题。
研究团队系统性地完成了三项工作:构建了一个专门测试“工具调用决策”的评测基准,揭示了现有解决方案的局限性,并从模型的神经网络信号中找到了解决问题的关键线索,最终提出了一种极为轻量高效的干预方法。整个过程,如同侦探逐步挖掘出嫌疑人内心深处的真实想法,并用它来纠正其异常行为。
一、设计一场“何时用工具”的考试
在此之前,学界已有不少测试大模型工具使用能力的基准,如ToolQA、API-Bank等。但这些测试都有一个共同的隐含前提:每道题都必须借助工具来解决。它们测量的是“会不会用”,而不是“知不知道何时该用”。
为了填补这一空白,研究团队设计了一套全新的评测体系——WHEN2TOOL。
WHEN2TOOL包含18个测试环境,分为15个单步任务和3个多步链式任务,覆盖了AI智能体需要做出工具调用决策的三大核心场景。每个场景都设置了三个难度级别:简单(模型大多无需工具即可答对)、中等(真正的决策模糊地带)、困难(几乎必须借助工具)。这种设计让研究者能精确观察模型在何时过度调用工具,又在何时调用不足。
第一类场景:考验计算规模。 模型完全理解运算规则,关键在于数字大小是否超出了其可靠计算的范围。例如,12加7可以心算,但涉及万亿级乘法或五阶矩阵行列式时,就必须借助计算器。这类环境包括计算器、统计、排列组合、矩阵和质数判断,通过调整数字规模来划定难度边界。
第二类场景:考验知识边界。 “法国首都是什么”属于常识,模型可直接回答;但“Taskforce Nimbus-73的冷却剂等级是什么”中的实体根本不存在于训练数据中,模型必须查阅才能知道。这类环境涵盖文档检索、历史年份、游戏规则、哈希计算和解码,从众所周知的事实到完全虚构的信息,测试模型对自身知识局限的认知。
第三类场景:考验执行可靠性。 模型既知道规则,也拥有所有必要信息,难点在于执行步骤过多,容易出错。预测print(2+3)的输出几乎不会错,但追踪一个20次迭代的动态规划算法,每一步都可能积累误差,最终答案面目全非。这类环境包括列表操作、日期时间计算、代码执行、日程安排和正则表达式。
多步链式任务则更进一步,要求模型做出三个相互依赖的工具调用决策——第一步的输出是第二步的输入,第二步的输出又是第三步的输入,分别对应上述三类场景。
值得一提的是,WHEN2TOOL完全在本地运行,无需任何外部API密钥或网络连接,所有工具响应都在本机确定性模拟,既保证了零成本,又确保了实验的完全可复现性。
二、两种常见解法,为何双双受挫
有了评测基准,团队首先测试了两种最直观的、无需重新训练模型的解决方案:提示词控制与推理引导。他们评估了包括Qwen3系列和Llama系列在内的六个不同规模的模型。
提示词控制的思路很直接:告诉模型“工具很贵,能不用就不用”。团队设计了五种提示模式,从强制使用到完全禁止。结果发现,在默认设置下,模型简直是“工具调用狂魔”。例如,Qwen3-1.7B在750道简单题中发出了864次工具调用,平均每题超过一次。模型的默认逻辑似乎是“能用就用”,完全不考虑必要性。
当提示词开始限制使用时,第二个问题出现了:这种限制是“一刀切”的。以Qwen3-4B为例,从默认切换到“谨慎使用”模式后,简单任务的准确率下降了14.5个百分点,困难任务的准确率也下降了20.3个百分点。提示词并没有聪明地区分必要与多余的调用,而是将两者一同压制。量化指标显示,在困难任务上,每减少一次工具调用所损失的准确率,是简单任务的两倍甚至更多——省钱的同时,把最需要帮助的任务也搞砸了。
推理引导的思路更为精细:让模型在调用工具前,先思考“我到底需不需要用工具”,再据此行动。这种方法在简单任务上确实有所改善,帮助模型减少了一些不必要的调用。但在困难任务上,它依然无力。更严重的问题出现在Llama系列模型上:加入推理引导后,模型开始大段叙述“我打算调用工具……”,却从未生成有效的工具调用格式,最终“光说不练”,导致准确率暴跌。
此外,这两种方法还有一个共同痛点:它们只能提供几个固定的“工作点”,无法平滑调节工具调用的比例。用户如果想在特定预算下最大化准确率,它们都做不到。
三、拨开迷雾:模型的“潜意识”里藏着答案
于是,一个关键问题被提出:模型是真的不知道何时需要工具,还是它其实知道,只是在生成文字时无法表达出来?
为了找到答案,研究团队决定深入模型内部,直接检查神经网络的隐藏状态。这个过程好比不听一个人说什么,而是直接扫描他的大脑活动来判断真实想法。具体做法是:让模型尝试回答问题,根据其对错标记是否需要工具;然后,在模型开始生成输出前,提取其最后一层所有位置的隐藏状态,形成一个高维向量;最后,用这个向量训练一个极简单的线性分类器,预测工具是否必要。
结果令人惊讶。这个简单到几乎可笑的线性分类器,在六个模型上的分类性能指标(AUROC)全部达到了0.89以上,多个模型超过0.95。这意味着,在模型开口说第一个字之前,它的神经网络信号就已经以极高的准确度编码了“这道题需不需要工具”的信息。
最具说服力的对比来自Llama模型。前文提到,推理引导导致其工具调用能力几乎崩溃。然而,在这些同样的模型上,线性探针的AUROC依然轻松达到0.93以上。这说明,模型在神经表示层面“知道”何时需要工具,和它能否通过语言流畅表达出来,是两件独立的事。就像一个人可能内心知道答案,却在表达时因干扰而说错——他大脑里的知识依然存在,只是没被正确传递到输出端。
四、从“潜意识”到行动:PROBE&PREFILL方法
既然模型内部已有清晰的工具必要性信号,问题就变成了:如何利用这个信号,驱动正确的行动?研究团队提出的方案叫做PROBE&PREFILL,可理解为“探针引导预填充”。
整个方法分三步走,如同一个精心设计的接力赛:
第一步,信息提取。 模型处理输入时,会进行一次前向传播来建立计算缓存(这是生成本来就需要做的)。PROBE&PREFILL在此步骤中顺手读取最后一个位置所有层的隐藏状态,这部分额外开销几乎为零。
第二步,探针预测。 将隐藏状态输入训练好的线性探针,得到一个概率值p,表示“此题需要工具”的可能性。然后用一个可调节的阈值τ来做二分决策。调节τ就能获得一条平滑的准确率-效率权衡曲线,而非几个离散的固定点。
第三步,预填充引导。 根据探针的判断,在模型开始生成回复前,先往回复开头插入一句引导语。如果判断不需要工具,插入“I can solve this directly without using a tool.”;如果需要,则插入“I need to use a tool for this question.”。这种“软预填充”允许模型在认为探针判断有误时进行覆盖修正。对于容易忽视软引导的模型,也可采用“硬预填充”模式,直接强制输出格式。
实验证明,PROBE&PREFILL在所有测试模型上都优于基线方法。以Qwen模型为例,在任何给定的工具调用预算下,它都能实现更高的准确率;反之,在任何给定的准确率目标下,它都能用更少的工具调用达成。更重要的是,它展现了“自适应削减”的能力——智慧地跳过简单任务的工具调用,同时保留困难任务的必要调用。
在六个模型上汇总来看,PROBE&PREFILL平均减少了48%的工具调用,同时准确率仅下降1.7个百分点。相比之下,能达到相近准确率的最好基线方法,工具调用减少幅度只有6%;能达到相近工具减少幅度的最好基线,准确率下降了近9个百分点。
五、更多维度的验证
研究团队在多个维度进一步验证了方法的鲁棒性和泛化能力。
多步链式任务: 探针表现同样出色。有趣的是,对于Llama系列模型,探针反而增加了工具调用次数并大幅提升了准确率——这说明这些模型在默认情况下对多步任务的工具调用不足,探针纠正的是调用不足而非过度调用。
跨域泛化: 为了测试探针是否学到了通用信号而非死记硬背,团队进行了跨环境测试。结果显示,跨域探针的性能曲线与全环境训练的探针几乎重合,证明其捕捉的是类别层面的通用逻辑。
真实世界验证: 在开放域问答数据集上的测试表明,在多数情况下,PROBE&PREFILL在减少更多搜索调用的同时,达到了相当甚至更高的准确率。
与监督微调(SFT)对比: SFT虽然能将准确率提高2-3个百分点,但并未可靠减少工具调用,有时甚至略有增加。SFT学会了“怎样更好地回答问题”,但没有学会“何时不用工具”的决策边界。而PROBE&PREFILL只需几秒钟CPU训练时间,不修改任何模型参数,推理时每题额外开销不到0.7毫秒,与现有基础设施完全兼容。
总结与启示
归根结底,这项研究揭示了一个反直觉的事实:AI智能体的工具调用失控问题,往往不是因为模型无知,而是因为它的知识被“锁”在了神经信号层面,未能稳定地渗透到语言生成过程中。说得通俗些,模型的潜意识比它说出来的话更可靠。
PROBE&PREFILL这套方法,本质上是架设了一条旁路,直接读取潜意识信号,绕过语言生成这个不可靠的中间环节,以极低的成本将正确的知识传递到行动层面。这对于任何部署了工具增强型AI的团队都具有直接的参考价值:在不改动模型、不进行昂贵微调的前提下,仅凭几秒钟的探针训练,就能让API费用下降近一半,同时基本不损失任务质量。
更深层的意义或许在于,它提示我们:在许多看似需要大规模干预的AI行为问题中,模型内部可能早已存在正确的信号。我们需要的或许不是重新教它,而是找到更好的方式来倾听它。
Q&A
Q1:WHEN2TOOL基准测试与其他工具有何不同?
A:现有基准(如ToolQA)都假设每道题都需要工具,测的是“会不会用”。WHEN2TOOL则专门测试“知不知道何时该用”——它包含从无需工具到必须工具的连续难度设计,覆盖计算规模、知识边界和执行追踪三大场景,是首个专门研究工具调用决策的基准。
Q2:PROBE&PREFILL需要重新训练大模型吗?
A:完全不需要。该方法只训练一个极简单的线性分类器(探针),该分类器读取已有大模型处理输入时自然产生的隐藏状态信号。整个探针训练只需几百个样本,在普通CPU上几秒完成,不修改任何大模型参数,推理额外开销不到1毫秒,可直接叠加于现有模型服务系统。
Q3:为什么让大模型自己推理“需不需要用工具”效果不好?
A:推理引导要求模型先用语言描述决策过程,再行动。研究发现这个过程相当不可靠:对于Llama系列模型,加入推理引导后,模型会大篇幅叙述调用意图,却从未生成有效的工具调用格式,导致准确率暴跌。更根本的原因是,模型神经网络中已编码了清晰的工具必要性信号(探针AUROC高达0.93以上),但这个信号未被稳定传递到语言生成过程,导致“说的”和“想的”不一致。
相关攻略
当前,视觉语言动作模型(VLA)作为具身智能的核心技术路径,正面临严重的“碎片化”挑战。不同团队采用的动作解码范式各异,数据与训练管线深度绑定,评测标准互不统一,导致研究成果难以横向对比,复现成本高昂,这严重阻碍了领域基础模型的迭代与进步。 针对这一行业痛点,开源项目StarVLA并未选择盲目堆砌算
对于许多企业而言,将AI智能体从概念变为稳定可靠的生产力工具,一直是个耗时耗力的“大工程”。光是构建沙箱环境、配置权限凭证、搭建监控链路这些基础设施,就足以让一个工程团队忙上数月。然而,就在最近,这个漫长的过程被大幅缩短了。 4月9日,Anthropic正式发布了面向企业的智能体托管平台Claude
AMD在上海举办AI开发者日活动,宣布多项本土生态支持举措。其ROCm平台已为小米等国产开源大模型提供适配,并支持超300万个模型。同时推出免费AI开发者云服务,并与魔搭社区及阿里云合作,方便开发者调用AMD算力。活动还设置多场GPU实操工作坊,旨在通过软硬件及资源全方位支持,构建开放的AI算力生态。
地平线开源专为人形机器人设计的4亿参数HoloMotion-1“小脑”模型,可在端侧实现每秒300帧实时推理。该模型融合多源训练数据并转化为机器人指令,具备优秀零样本迁移能力,能完成舞蹈、爬行、交互等复杂动作,有效应对动态平衡与接触控制等挑战,推动全身运动控制向更智能灵活方向发展。
结论:AI的“冷漠”并非情感缺失,而是算法对齐与商业成本博弈的产物 近期,许多用户反馈AI助手似乎变得“冷淡”了——回复更简短,语气更机械,甚至有些“偷懒”。这背后并非技术退步,而是一场关于安全性、推理成本与对齐目标的复杂权衡。要打破这种僵局,关键在于让AI从“通才”转向“专家”,通过私有化部署与精
热门专题
热门推荐
近日,国家能源局联合发改委、工信部、国家数据局正式印发《关于促进人工智能与能源双向赋能的行动方案》。这份重磅文件的核心思路非常清晰:一方面,以坚实的能源基础支撑人工智能(AI)的快速发展;另一方面,利用AI技术赋能能源行业转型升级。其核心目标是推动能源、算力、应用场景、数据与算法模型五大关键要素深度
在挑选文生视频工具时,若您正在智谱清影与Runway Gen-3之间权衡,那么了解两者在生成效果上的具体差异,将有助于您做出更明智的选择。本文将从画质清晰度、细节纹理、运动自然度与视频连贯性等核心维度,通过实测对比为您详细解析。 一、画质与分辨率表现 首先对比硬性指标。智谱清影基于CogVideoX
想用通义万相生成一张科技感十足的数据可视化背景,但出来的画面总觉得少了点“内味儿”?数字界面、粒子流、电路纹理这些关键元素一个不见,画面平平无奇?这通常不是工具的问题,而是提示词没有精准锚定科技可视化的核心要素,或者模型参数没调到最佳状态。别急,下面这几种方法,能帮你把想法精准地“翻译”成画面。 一
想要在Vidu生成的视频中实现流畅的慢动作或快进效果?虽然模型界面没有提供直接调整播放速度的滑块,但通过巧妙的提示词设计、利用内置功能,或结合后期处理工具,你完全可以精准掌控视频的节奏与时间感。本文将为你详细解析四种实用方法,从生成前到生成后,全方位满足你的创作需求。 一、通过精准提示词引导运动节奏
当您使用海螺AI生成的英文论文在提交查重时遭遇高重复率或AIGC检测异常,请不要急于归咎于工具本身。核心原因在于,尽管AI生成的文本格式标准、语法地道,但其语言模式和常见短语组合,并未针对知网、维普、万方等中文查重数据库的语义比对逻辑进行专门优化。换言之,机器认为流畅自然的表达,在查重系统的算法看来





