6月2日,OpenAI宣布将Codex的核心能力完整并入ChatGPT,周活用户直接突破500万。这个信号很明确:AI不再只是开发者的辅助工具,而是正在变成通用的生产力引擎。
但有个问题却被悄悄忽略了——当Agent在后台自主调用API时,用户只看到最终结果,完全看不到中间到底烧了多少Token。这就像你去餐厅点了一桌菜,结账时发现账单上写着“后厨操作费”,但厨师具体炒了几次锅、用了多少油,你一概不知。
Agent消费与人工调用的本质区别
你让Agent“分析这个月的销售数据,做个可视化报表”。它在后台的执行链大概是这样的:先读取文件,然后调用模型理解需求,再生成代码,执行脚本——结果发现格式异常,于是自动修正,重新执行,最后渲染图表。用户看到的只是一张漂亮的报表,但Agent可能已经调了七八次API,每一次都按Token计费。
人工调用是可预期的:你发一次请求,付一次费。而Agent调用是级联的、突发的,甚至自带重试机制。一个任务没跑通?它二话不说自动重试,你压根不知道它偷偷重试了多少次。这中间的Token消耗,完全是黑盒。
账单看不到的东西
目前的API账单粒度还停留在Key级别——它告诉你这个月总共花了多少钱,但完全分辨不出哪些是人工调用,哪些是Agent自动跑出来的,更不知道是哪个会话烧掉了最多预算。Agent完全有可能在一小时内花光你一个月的预算,而告警机制呢?还停留在“月底看账单”的阶段。
Wiz去年的调查显示,福布斯AI 50强中,65%的企业在GitHub上泄露过API Key。到了Agent时代,风险更进一步:一把泄露的Key加上一个被注入的Agent,带来的伤害不再只是“别人调你的API”,而是一段恶意程序替你烧你的钱。
三个层面的治理方向
1. 会话级消费归因
必须把消费粒度从Key级别细化到会话级别。技术思路上,可以在API调用链路中注入会话标识,在网关或Proxy层对每次请求打标并关联成本。这样一来,当某个会话消费异常时,能立刻定位到具体会话和触发人,而不是等到月底看到总金额异常才后知后觉。
2. 任务级预算控制
月度配额根本挡不住Agent一晚上烧完预算。需要把预算控制下沉到任务级别。比如通过令牌桶算法对单次会话设置消费上限,或者在Proxy层增加实时计费拦截——会话累计消费超过阈值,直接终止后续调用并触发告警。这才是真正意义上的“刹车”。
3. 临时凭证机制
Agent不应该持有永久有效的Key。可以借鉴STS(临时安全令牌)的思路:任务开始时签发一个有限权限和有效期的Token,任务结束自动失效。这样一来,即使Agent被注入攻击,攻击面也被限制在单次任务范围内,而不是整个API权限暴露在外。
这三件事本质上是在现有API调用链路里加一层治理平面——把消费数据按会话拆开,把预算控制下沉到任务级别,把凭证生命周期跟任务绑定。如果你已经在用Agent工具,下次跑完复杂任务后不妨去后台看看API用量变化——一个你以为“一次性”的操作,实际触发的调用次数可能远超你的想象。

