游乐游手机版
首页/AI热点日报/热点详情

大模型工具调用底层范式革命告别盲目卷技能

类型:热点整理2026-07-01
先给出一个核心判断:当前全球AI领域正疯狂追逐Agent,各家争相堆叠接口、扩充功能,误以为技能包足够丰富就能打造出真正自主行动的智能体。但冷静审视后不难发现,这很可能是一个美丽的误解。 现在的Skills范式,本质上是在为大模型执行力不足打补丁——一个尚不够体面的“过渡性方案”。依赖人工经验总结和

先给出一个核心判断:当前全球AI领域正疯狂追逐Agent,各家争相堆叠接口、扩充功能,误以为技能包足够丰富就能打造出真正自主行动的智能体。但冷静审视后不难发现,这很可能是一个美丽的误解。

现在的Skills范式,本质上是在为大模型执行力不足打补丁——一个尚不够体面的“过渡性方案”。依赖人工经验总结和静态工程硬编码的技能,绝非Agent的终极形态。然而,从认知科学与系统架构的视角看,“工具使用”恰恰是通用人工智能体系中不可或缺的底层支柱。即便大模型参数量再大,也不可能、也没必要将物理世界所有确定性计算、私有数据库和长程操作一股脑封装进自身权重里。

本文将从技术实现痛点、产业应用现状到前沿学术研究,深入探讨为何“手工硬编码的Skills”终将被淘汰,以及“智能体工具生态”如何迈向自主进化。

核心思辨:Skills是“临时补丁”,还是终极属性?

要看清Skills的未来,需将其拆解为“当前的工程实现形式”与“底层的工具使用本质”两个维度。

  1. 承认:当下的Skills高度依赖“人工硬编码”,充满补丁色彩。例如,开发者需手动编写API接口,用精准的自然语言或JSON Schema描述技能的输入、输出和适用场景。描述稍有偏差,模型调用时便会出现幻觉或参数拼写错误。面对复杂业务场景,还需将历史经验转化为few-shot示例或复杂的有向无环图、状态机(如LangGraph、AutoGen)。这本质上是使用传统确定性逻辑去框定非确定性模型的边界。一旦底层API调整或真实业务稍超出预设范围,Skills会瞬间失效。
  2. 修正:工具使用是智能体的终极属性,但形式会演变。尽管当前形式初级,Skills背后的“工具使用”能力,是Agent走向高级智能的必经之路。人类智能的强大不在于大脑能心算一切,而在于制造和使用工具——微积分、计算机、杠杆皆如此。大模型同理,与其在权重中硬跑完整的数据库或渲染引擎,不如将“推理、规划、控制”与“确定性执行、外部连接”解耦。这既是软件工程也是认知科学中最合理的系统设计。

结论清晰:当前手工硬编码的Skills是过渡方案,这个判断完全正确;但长远看,Agent不会放弃Skills,而是会改变其生成、管理和演进方式——从“人工总结与硬编码”走向“自主学习与自适应演进”。

产业界现状:Skills目前的生态版图

尽管痛点不少,Skills的产业落地已初具规模,主要体现在三个核心维度:

1. 主流开发框架的生态化
Microsoft Semantic Kernel明确提出“Plugins”和“Skills”概念,允许开发者将传统C#或Python函数封装后直接暴露给大模型。LangChain/LangGraph则提供丰富的Toolkits,支持模型在运行中通过Function Calling机制,依据用户意图动态调用和组装工具。

2. 典型的产业应用场景
企业级业务流打通:客服或政务智能体通过调用“查询订单”、“修改地址”、“发起退款”等Skills,直接与底层ERP、CRM系统交互,完成复杂闭环操作。代码解释器(Code Interpreter)是另一典型——模型将“编写并运行Python代码”作为一项技能,面对复杂计算或数据分析时自主写代码并执行,这本身就是高级动态Skill的雏形。

3. 统一连接协议的破局
以往每个开发者都要为不同模型、不同API重复编写适配器。2024年底Anthropic发起的Model Context Protocol(MCP)正成为新标准,它试图将AI模型与外部数据源和工具之间的连接标准化,类似硬件领域的“USB-C协议”,大大降低了人工编写特定API连接器的工程成本。

当前Skills范式三大不可承受之痛

随着企业级应用走向深水区,传统Skills方案的底层瓶颈愈发凸显:

幻觉与调用失败:系统中Skills数量超过20个时,大模型选择“该用哪个工具”以及“如何组装参数”的出错率呈指数级上升。
上下文过载:为了让模型理解这些Skills,开发者不得不将每个技能的说明文档和调用规范塞进Prompt,既消耗上下文窗口,又增加Token成本和推理延迟。
缺乏反馈闭环与自适应能力:当前Skills完全静态。若某个Skill因权限、网络或参数微调而执行失败,Agent无法像人类一样“总结教训、自行修改代码”,只能等待人类程序员介入调试并重新发布。

未来趋势:从“人工过渡”走向“自主演进”的四大核心路径

单纯依赖人工硬编码的Skills,承载不了未来Agent的无限扩展。Skills的未来将呈现以下四大确定性趋势:

趋势一:自主技能习得与进化
未来的智能体将具备“自主尝试、反思总结、编写代码并保存为新技能”的自繁衍能力。斯坦福等机构提出的Voyager智能体在《我的世界》中就展现了这一潜能——没有预设技能包,而是通过“自动课程”不断尝试新任务。成功合成新工具或完成复杂操作时,它会自主将代码和经验提炼、总结,写入自己的“技能库”。后续遇到类似场景,直接语义检索并调用。在工业自动化测试、网台运维等领域,未来的Agent同样能根据全新系统自主编写脚本并固化为自身技能。

趋势二:从API驱动走向原生GUI/OS级别操作
现有Skills大多基于特定API接口。未来,大动作模型和具备屏幕理解能力的计算机控制智能体将直接像人类一样通过图形用户界面工作。无API化意味着智能体可以通过阅读屏幕、点击鼠标、键盘输入来操作没有API的遗留软件或复杂Excel。此时,“Skill”不再是某个具体的API代码,而是“如何操作浏览器”、“如何使用操作系统”的原生多模态能力,从根本上释放了解析API的工作量。

趋势三:连接协议的标准化与全解耦
随着MCP等开放协议的普及,Skills的供给方和消耗方将完全解耦。软件厂商(如Notion、GitHub、Slack等)在开发软件时,会原生暴露一个符合标准AI协议的MCP Server。任何大模型作为Client,都可以即插即用地使用这些现成Skills,不再需要中间层进行人工桥接和Prompt调优。

趋势四:推理与执行的架构级融合
随着具备系统级慢思考能力的高推理模型(如o1、o3级架构)普及,模型的“自我纠错”和“长程规划”能力大幅跃升。过去,Skill执行出错时,需要人工编写复杂条件分支告诉模型“如果报错A就重试,如果报错B就换工具”。未来,高推理模型将在原生架构层面处理Tool Call的异常,在后台进行多路径试错、自我博弈,并自主修正执行路径。人工编写的硬编码业务流将逐渐被简化。

总结

我们正处于一个有趣的阵痛期:用世界上最先进的AI技术,却不得不依赖最传统的手工硬编码来编写Skills描述和约束逻辑。这确实是过渡期的折中方案。但未来,Skills这一概念不会消亡,其技术形态将发生深刻的质变。

创建者之变:从“人类程序员”转变为“智能体自身”。
调用范式之变:从“硬编码适配”转变为“标准协议(如MCP)的即插即用”。
操作边界之变:从“特定API描述”提升为“通用GUI/OS控制”。

所以,Skills并非Agent演进史上的死胡同,而是通往AGI道路上的关键阶梯。我们今天所做的“人工总结与临时修补”,正是为未来智能体实现“自主工具进化”铺平道路。

欢迎在评论区讨论:你在开发Agent时遇到过哪些被Skills逼疯的时刻?你认为MCP协议会终结API适配的痛苦吗?

来源:https://developer.aliyun.com/article/1744472

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。