我们已成功正式使用Chat2API的末行代码开启AI Agent之年_AI热点日报

我们已成功正式使用Chat2API的末行代码开启AI Agent之年

类型：热点整理2026-06-28

通过评估API复杂度筛选可靠工具，再使用企业API文档微调模型，可将工具调用准确率从70%提升至81%。整个方案分为API文档标准化、数据合成优化、基于抽象语法树的准确性评估三步，逐步扩展Agent可用工具库。

业界有个共识：在AI时代，Agent会像工业革命时期的机器一样，无处不在。而Agent学会使用工具，就好比人类学会使用火种，是开启智能应用的关键。经过云原生时代的积累，这些“工具”很大一部分就是我们常说的微服务架构里的API（接口）。

举个例子，假设一个Agent要回答企业内部关于销售数据的问询。没有工具调用能力的Agent，只能尴尬地回答“我不知道”。但那个会调用工具的Agent，就可以通过查询接口，把用户的问题翻译成API调用，轻松给出答案。

度总结：我们用Chat2API的最后一行代码开启AI Agent之年

所以，Agent使用工具的能力，本质上是“翻译”能力——结合可用的工具，将自然语言翻译成机器能读懂的语言。用上面的例子来说，它的翻译题目就是：把“我们公司这个月广州的销量有多少”这句人话，翻译成API查询指令。已知可用的接口有Query(data, city)，Update(data, id)……正确答案是Query(data: “销量”, city：“广州”)。

不过，这个翻译能力远没有看上去那么简单。即便是公认表现优异的GPT-4o，也会在这种“翻译”上翻车。比如下面这个案例：用户想查的是“会员”类型的商品详情，结果GPT-4o愣是给对应到了“超级会员”的类型上。

GPT-4o在API调用中间出错示例

直观来看，LLM能否准确调用工具，取决于两个核心变量：
一是工具本身的使用复杂度，也就是API的复杂程度；
二是LLM自身的理解能力。

我们先来看第一个变量：怎么判断一个API到底复不复杂？

一个API对LLM来说，到底是难还是易？

凭直觉也能猜到，API请求的结构越复杂，LLM把自然语言“翻译”成API调用的难度就越大。那么问题来了，具体要复杂到什么程度，LLM的翻译准确率才会低到让人觉得这个工具“不值得用”？

在Chat2API的方案中，用户可以针对不同的API，很快得到LLM调用该API的准确率评估。

GLM-4-PLUS对三个API的评测结果

比如上图所示，是智谱GLM-4-PLUS针对CreateProduct、getFeedback、getUserInfo这三个API的评测结果。如果某个API的准确率很高（比如getUserInfo达到了95%以上），那就可以相对放心地让Agent去调用。

做这个评测，你甚至不需要准备任何测试数据。只要把API文档扔给它，就像下面这样。

API文档示例

这个API文档就像一本“工具使用说明书”，告诉LLM该怎么用这个工具。LLM“看完”说明书后，就能掂量一下自己的能力，给出一个评估结果。有了这个评估，Agent开发者就可以知道哪些API目前用起来比较可靠，优先从这些场景开始落地。

那么，对于那些准确率不高的API（比如上面的CreateProduct），能不能通过优化第二个变量——也就是LLM的理解能力——来解决呢？

面对复杂工具，如何提升LLM的“理解力”？

我们都知道，什么样的数据就会训练出什么样的模型。试想一下，如果直接用企业自身的API数据来训练，是不是就能训练出最懂自家工具的模型？

基于这个思路，有人做了一次尝试。以专门做工具调用的Gorilla（7B）模型为基础，只用企业自身的API文档合成了数千条数据，然后进行微调。结果怎么样？模型在企业实际场景下的工具调用准确率，从微调前的70%直接提升到了81%，和参数规模在百B级别的GPT-4o不分伯仲。而整个过程，依然只需要用到那份API文档。

当然，这仅仅是开始。在实际案例中，还可以根据具体情况持续迭代优化，准确率还能继续往上走。

说到底，在Agentic system中，支撑Agent的三大资源池是：Workflow资源、Tools资源、Knowledge资源。它们分别对应Agent的规划、工具使用和记忆能力，同时也是Coze、Dify这类低代码平台重点维护的三大件。针对Tools资源池，Chat2API的解决方案给出了清晰的路径：
- 通过工具复杂度评估，让开发者先上手那些“简单可靠”的工具；
- 通过理解力增强，让Agent可以使用的工具越来越多，并且随着数据积累，理解力还会越来越强。

最终，Agent将能顺畅地调用公司内部的各种API，并形成一个Agent库，像现在的内部Wiki一样被广泛使用。

那么，这个Chat2API方案具体是怎么实现的呢？

Chat2API是如何做到的？

整个过程可以概括为下面这张图所示的三步。

Chat2API实现过程

第一步：API文档标准化。 将原始API文档转换为OpenAI统一的Function Schema格式。本质上，是利用提示词将非结构化的语料，转化为结构化的JSON文档。

第二步：数据合成与优化。 根据生成的Function Schema，合成用于评估或训练的数据。具体的合成方法，可以参考一篇相关的技术分享。此外，还会进行各种数据清洗、过滤和优化操作。

第三步：基于AST的准确性评估。 采用抽象语法树（AST）的方法来评估翻译结果的准确性。简单来说，就是按照函数规定的语法结构，逐层检查输出结果是否准确。比如下面的示例，它能很精准地指出翻译出来的API请求中，是数据格式不对，还是具体的参数值不对。

AST评估准确性示例

按照这套评估方法，团队收集了不同的测试集，进行了更深入的评测，得到的结果如下：

测试结果

从图中可以看出：这样的微调并没有降低模型在标准实验数据集上的能力。当然，关于各个测试集的具体定义，在Chat2API的官方技术报告中有详细说明，这里就不再展开了。

来源：https://www.53ai.com/news/LargeLanguageModel/2024123154809.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。