游乐游手机版
首页/AI热点日报/热点详情

我们已成功正式使用Chat2API的末行代码开启AI Agent之年

类型:热点整理2026-06-28
通过评估API复杂度筛选可靠工具,再使用企业API文档微调模型,可将工具调用准确率从70%提升至81%。整个方案分为API文档标准化、数据合成优化、基于抽象语法树的准确性评估三步,逐步扩展Agent可用工具库。

业界有个共识:在AI时代,Agent会像工业革命时期的机器一样,无处不在。而Agent学会使用工具,就好比人类学会使用火种,是开启智能应用的关键。经过云原生时代的积累,这些“工具”很大一部分就是我们常说的微服务架构里的API(接口)。

举个例子,假设一个Agent要回答企业内部关于销售数据的问询。没有工具调用能力的Agent,只能尴尬地回答“我不知道”。但那个会调用工具的Agent,就可以通过查询接口,把用户的问题翻译成API调用,轻松给出答案。

度总结:我们用Chat2API的最后一行代码开启AI Agent之年

所以,Agent使用工具的能力,本质上是“翻译”能力——结合可用的工具,将自然语言翻译成机器能读懂的语言。用上面的例子来说,它的翻译题目就是:把“我们公司这个月广州的销量有多少”这句人话,翻译成API查询指令。已知可用的接口有Query(data, city),Update(data, id)……正确答案是Query(data: “销量”, city:“广州”)。

不过,这个翻译能力远没有看上去那么简单。即便是公认表现优异的GPT-4o,也会在这种“翻译”上翻车。比如下面这个案例:用户想查的是“会员”类型的商品详情,结果GPT-4o愣是给对应到了“超级会员”的类型上。

GPT-4o在API调用中间出错示例

直观来看,LLM能否准确调用工具,取决于两个核心变量:
一是工具本身的使用复杂度,也就是API的复杂程度;
二是LLM自身的理解能力。

我们先来看第一个变量:怎么判断一个API到底复不复杂?

一个API对LLM来说,到底是难还是易?

凭直觉也能猜到,API请求的结构越复杂,LLM把自然语言“翻译”成API调用的难度就越大。那么问题来了,具体要复杂到什么程度,LLM的翻译准确率才会低到让人觉得这个工具“不值得用”?

在Chat2API的方案中,用户可以针对不同的API,很快得到LLM调用该API的准确率评估。

GLM-4-PLUS对三个API的评测结果

比如上图所示,是智谱GLM-4-PLUS针对CreateProduct、getFeedback、getUserInfo这三个API的评测结果。如果某个API的准确率很高(比如getUserInfo达到了95%以上),那就可以相对放心地让Agent去调用。

做这个评测,你甚至不需要准备任何测试数据。只要把API文档扔给它,就像下面这样。

API文档示例

这个API文档就像一本“工具使用说明书”,告诉LLM该怎么用这个工具。LLM“看完”说明书后,就能掂量一下自己的能力,给出一个评估结果。有了这个评估,Agent开发者就可以知道哪些API目前用起来比较可靠,优先从这些场景开始落地。

那么,对于那些准确率不高的API(比如上面的CreateProduct),能不能通过优化第二个变量——也就是LLM的理解能力——来解决呢?

面对复杂工具,如何提升LLM的“理解力”?

我们都知道,什么样的数据就会训练出什么样的模型。试想一下,如果直接用企业自身的API数据来训练,是不是就能训练出最懂自家工具的模型?

基于这个思路,有人做了一次尝试。以专门做工具调用的Gorilla(7B)模型为基础,只用企业自身的API文档合成了数千条数据,然后进行微调。结果怎么样?模型在企业实际场景下的工具调用准确率,从微调前的70%直接提升到了81%,和参数规模在百B级别的GPT-4o不分伯仲。而整个过程,依然只需要用到那份API文档。

当然,这仅仅是开始。在实际案例中,还可以根据具体情况持续迭代优化,准确率还能继续往上走。

说到底,在Agentic system中,支撑Agent的三大资源池是:Workflow资源、Tools资源、Knowledge资源。它们分别对应Agent的规划、工具使用和记忆能力,同时也是Coze、Dify这类低代码平台重点维护的三大件。针对Tools资源池,Chat2API的解决方案给出了清晰的路径:
- 通过工具复杂度评估,让开发者先上手那些“简单可靠”的工具;
- 通过理解力增强,让Agent可以使用的工具越来越多,并且随着数据积累,理解力还会越来越强。

最终,Agent将能顺畅地调用公司内部的各种API,并形成一个Agent库,像现在的内部Wiki一样被广泛使用。

那么,这个Chat2API方案具体是怎么实现的呢?

Chat2API是如何做到的?

整个过程可以概括为下面这张图所示的三步。

Chat2API实现过程

第一步:API文档标准化。 将原始API文档转换为OpenAI统一的Function Schema格式。本质上,是利用提示词将非结构化的语料,转化为结构化的JSON文档。

第二步:数据合成与优化。 根据生成的Function Schema,合成用于评估或训练的数据。具体的合成方法,可以参考一篇相关的技术分享。此外,还会进行各种数据清洗、过滤和优化操作。

第三步:基于AST的准确性评估。 采用抽象语法树(AST)的方法来评估翻译结果的准确性。简单来说,就是按照函数规定的语法结构,逐层检查输出结果是否准确。比如下面的示例,它能很精准地指出翻译出来的API请求中,是数据格式不对,还是具体的参数值不对。

AST评估准确性示例

按照这套评估方法,团队收集了不同的测试集,进行了更深入的评测,得到的结果如下:

测试结果

从图中可以看出:这样的微调并没有降低模型在标准实验数据集上的能力。当然,关于各个测试集的具体定义,在Chat2API的官方技术报告中有详细说明,这里就不再展开了。

来源:https://www.53ai.com/news/LargeLanguageModel/2024123154809.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。