先说一个值得关注的现象。
你猜怎么着?AI的使用量大幅增长,但真正完成的有效工作量却没有随之提升。
本周,亚马逊悄然关闭了一项名为“Kiro Rank”的内部排行榜。该榜单的唯一用途是根据员工使用AI的活跃度进行评分和排名。管理层的初衷很直接:鼓励工程师多使用AI,从而提升工作效率。而一线员工的应对方式也很简单:既然你考核这个指标,那就先把数据刷得漂亮再说。

于是,AI智能体被派去执行一些根本不需要的虚假任务;明明几秒钟就能查阅完毕的文档,非要绕道让模型处理一遍再返回;代码哗哗地自动生成出来,转眼又被原封不动地删除。
token消耗量轰轰烈烈地上升了,排行榜排名也提高了,但真正的业务推进呢?纹丝不动。
亚马逊高级副总裁戴夫·特雷德韦尔(Dave Treadwell)不得不内部喊停:“不要为了使用AI而使用AI。”

这件事的讽刺之处在于:亚马逊是全球在AI领域投入最慷慨的巨头之一,今年资本支出预计高达2000亿美元,其中大部分流向AI基础设施和数据中心。但现在,它却不得不反过来提醒自己的工程师——不要为了应付考核指标而滥用AI。
不是AI本身没用,而是评估指标从一开始就偏离了方向。一旦“使用量”被当作最终目标,KPI自然很好看,但成本账单也必然会变得很难看。
X平台上有人一针见血地评论:“AI本应替代人力或降低人力成本,结果它变成了一个比人类员工还昂贵的‘超级员工’。”

一、排行榜一个接一个消失
亚马逊并非唯一踩刹车的公司。几乎同一时期,类似情况在硅谷各大科技公司接连上演。
Meta内部曾有一个名为“Claudeonomics”的排行榜。由于使用的模型是Anthropic的Claude,因此得名。该榜单统计了85000多名员工的AI使用量,列出前250名“超级用户”。排名最高的头衔叫“Token Legend”,即token传奇。

这听起来像游戏段位,而员工也确实把它当成游戏来打。
据《The Information》独家报道,Meta员工在30天内消耗了60.2万亿个token。按Anthropic的API公开价格计算,这笔费用大约为9亿美元。即使考虑大客户折扣,保守估计也超过1亿美元。
一位Meta工程师私下透露,大量开发者正在运行一种类似OpenClaw的内部智能体,疯狂消耗token,但产出几乎为零。他还提到,一些线上事故的根因被追溯到AI生成的代码。写代码的人似乎更关心堆出足够多的代码量,而不是代码能否正常运行。
对于排行榜顶端那些人的产出,他的原话是:“基本都是‘一次性垃圾’。”
被媒体曝光后的第二天,Meta悄悄下线了这个排行榜。
微软从今年1月开始推行内部token排行榜。这个榜单有一个耐人寻味的特点:排名靠前的大多是VP级别和杰出工程师级别的员工。这些人平时会议多、写代码少,但token使用量却遥遥领先。
一位微软工程师承认自己在“tokenmaxxing”。他并非为了上榜,而是担心被看到token用量太少。他说:
“我们有内部仪表盘,追踪AI使用量、token消耗、AI写的代码占比。我不想被打上‘AI用得少’的标签。为了抬高数据,我会拿文档里已有的问题去问AI,让AI把文档处理一遍再回答我——这比直接查文档慢10倍,但能消耗大量token。我还会让AI去原型化一些我压根不打算实现的功能,反复提示几次之后再把代码全部删除。”
这位工程师入职不久,担忧的是工作保障。他的逻辑很简单:宁可多烧钱,也不能在数据上显得不够“AI原生”。今年5月,微软由于token账单失控,被迫收回了大部分Claude Code授权,把员工重新推回更便宜的Copilot。
Salesforce的做法更为直接。
公司开发了一个Mac桌面小工具,每15分钟刷新一次你的token花费,同时显示一个“最低预期支出”。上周的标准是:Claude Code每月至少100美元,Cursor每月至少70美元。未达标就会被标记。
还有一个工具可以查看任何同事的token支出。员工用它来互相比较,精准找到那个“略高于平均”的刻度,然后把自己的花费控制在那里。
一位Salesforce工程师表示,有些同事会让AI“帮我做X”,而这个X与手头工作毫无关系,纯粹是为了消耗token,做完之后也根本不会上线。直到上周,部分团队干脆取消了月度上限,理由是“消除开发流程中的摩擦”。
Uber的故事在时间线上最具戏剧性。
去年12月,Uber给大约5000名工程师配备了Claude Code。今年2月使用率为32%;3月到4月之间飙升至84%到95%。70%的代码提交是AI生成的,11%的后端更新完全不需要人工干预。
听起来很厉害,对吧?
然而Uber在4月就把全年的AI预算烧光了。每个工程师每月的API成本在500到2000美元之间。
Uber的COO安德鲁·麦克唐纳(Andrew Macdonald)最近在一档播客中坦诚地说:“当我们讨论AI使用量时,那些标题数字会让你脑子炸掉。但你要问的是:生产力提升到底有多少?哪些产品是AI驱动的?这两者之间的联系还没建立起来。”
公平地说,预算烧光也可能意味着AI的真实需求比预期更高。关键看多出来的花费换来了什么。但Uber的COO自己也承认,产出和花费之间的联系尚未建立。
他还补充了一句:“目前还没有什么真正起飞的东西。”
二、账本不会说谎
将以上故事串联起来,一个共同的问题浮出水面:AI到底为公司省了钱,还是让公司多花了钱?
先看英伟达。英伟达深度学习研究副总裁布莱恩·卡坦扎罗(Bryan Catanzaro)今年4月接受Axios采访时直言:在他自己的团队里,AI计算成本已经远远超过员工工资总和。GPU和推理的支出比人工成本还高。
注意,说这话的人是英伟达的人。英伟达是卖GPU的。连他们自己都承认,重度使用AI的团队正面临计算成本远高于人力成本的现实。
再看行业数据。多份2026年的追踪报告显示,Claude Code和Copilot宣传每月10到200美元的订阅费,但在重度智能体模式下,每个工程师每月的实际API成本高达500到2000美元。加上代码审查、技术债务、调试等隐藏成本,一个AI辅助团队的总拥有成本比纯人类团队高出12%以上。
不仅限于编码辅助。更复杂的AI智能体项目成本更高。
Gartner预测,到2027年,40%的AI智能体项目会因成本超支被砍掉。德勤2026年的报告发现,只有11%的公司真正把AI智能体部署到了生产环境。超过80%的项目因成本爆表而暂停或取消。一个AI智能体的开发和运行总成本,往往从预期的5万美元飙升至38万美元以上。
表面上看效率很高,实际上token消耗和持续维护很快就将预算撑破了。
这里引出一个170年前的经济学概念:杰文斯悖论。
经济学家杰文斯发现:蒸汽机效率提高后,煤炭消耗不但没有减少,反而大幅增加。因为效率高了,使用门槛低了,用的人多了,总消耗反而更大。
AI token的情况如出一辙。单价在持续下降,但人均使用量的增长远远跑赢了降价速度。尤其是AI智能体完成一个任务所需的token,是普通问答的1000倍。OpenClaw的创始人彼得·斯坦伯格(Peter Steinberger)透露,他团队一个月的token成本超过了130万美元。
效率提升 → 使用量暴增 → 总成本不降反升。杰文斯悖论在AI时代的精确复现。
但当前大厂面临的问题比杰文斯悖论更糟。不仅总量在涨,涨出来的部分中有大量是纯浪费。
一位IBM背景的技术观察者在X上评论:“‘AI将取代你的工作’这个叙事撞上了一堵墙。微软发现AI比人力更贵。Uber四个月烧完全年预算。如果AI比雇你更贵……之前的恐慌是不是过头了?”

tokenmaxxing导致的浪费是一笔账,AI本身的成本结构是另一笔账。前者可以通过改变激励方式解决;后者需要等待技术降本。但当两笔账叠加在一起,大厂看到的就是一个让CFO头疼的数字。
三、Shopify的不同解法
是不是所有人都在踩同一个坑?并不是。
也有团队用AI真正提升了效率。前提是它们从未把“用量”当作KPI。
Shopify是去年最早做token排行榜的公司,但路径与前面几家截然不同。工程负责人法汉·塔瓦尔(Farhan Thawar)表示,他们后来将“排行榜”改名为“使用仪表盘”。“原因很明显,我们不想鼓励‘竞争’上榜。”

他们还做了三件事。
第一,安装了“断路器”。如果某个人的token花费一天内异常飙升,系统会自动切断访问。塔瓦尔说,这个断路器不仅帮助他们发现了失控的智能体,还顺带揪出了一些基础设施的bug。
第二,对高消费的人进行人工跟进。不是表扬,而是追问:你为什么花这么多?使用场景是什么?如果有人为了消耗token而消耗token,到这一步会很难看。
第三,关注了一个更刁钻的指标:不是看“谁消耗的总token最多”,而是看“谁的token最贵”。他们发现,token单价最高的开发者,往往在做最有深度的活。因为他们在用AI啃硬骨头,而不是刷简单任务。
Shopify的经验说明了一件事:问题不在于用不用AI,而在于你盯着什么指标。盯着消耗量,得到的是浪费;盯着产出质量,得到的是效率。
有中文科技博主评论:“真正的高手用AI是去解决痛点、省掉低价值劳动,不是为了刷token而刷token。大厂现在集体进入AI的‘moment of truth’。Uber烧穿预算,亚马逊踩刹车,下一步可能就是更重视真实ROI,而不是表面的活跃度数据。”

四、同一个坑,换了个名字
X平台上一位开发者评论:“扭曲的激励,必然滋生经济上的低效。微软、Meta、亚马逊僵化的AI采用指标,正在反噬成一场巨大的成本危机。”

回头看这场“tokenmaxxing”闹剧,有一种强烈的既视感:这不就是当年“代码行数”考核的翻版吗?
曾经有一段时间,很多公司用程序员每天写多少行代码来衡量产出。后来大家发现这做法极其愚蠢。写一万行样板代码,不如写十行解决核心问题的逻辑。最优秀的开发者往往不是写得最多的人,而是能最快最稳解决难题的人。
token数也一样。它容易被操纵,一旦列入考核就一定会被操纵。区别在于:操纵代码行数的代价最多是浪费几张纸,而操纵token数的代价是真金白银的AI账单。
Pragmatic Engineer播客主持人杰尔吉·奥罗兹(Gergely Orosz)追踪多家大厂后下了判断:tokenmaxxing对AI厂商是好事,对其他所有人都是坏事。
为什么对AI厂商是好事?因为每一笔被浪费的token,都会变成AI公司的收入。
这也是为什么黄仁勋会在今年3月的英伟达开发者大会上,对犹豫用AI的经理说“你疯了吗”,为什么他鼓励工程师每年消耗至少相当于自己半年薪水的token。
立场不同,账的算法就不同。
五、比“贵不贵”更重要的问题
将整件事拉远一点来看。
亚马逊、Meta、微软、Salesforce、Uber,都在做同一件事:通过排行榜、最低消费、KPI绑定,想方设法推动员工“多用AI”。
背后的假设很简单:AI能替代人的一部分工作,多用就等于多省人力成本。
这个假设正在被现实打脸。
AI确实能完成很多任务。但它目前的成本结构远未达到“比人便宜”的拐点。强迫员工多用的结果,不是效率线性提升,而是大量“为了用而用”的浪费。就像亚马逊那位VP说的:“不要为了使用AI而使用AI。”
Uber的COO说得更直白:token消耗和实际产出之间,“联系还没建立起来”。
这不是说AI没用。而是说,如果衡量方式一开始就错了,那么越用力推,离目标越远。
排行榜上消耗token最猛的人,恰恰是产出最低效的人。为了达标而让AI跑无用任务的团队,恰恰是消耗资源最多的团队。
问题的核心不在于AI技术够不够好,也不在于token够不够便宜。而在于:当一家公司把“AI使用率”本身当成目标时,它得到的一定是漂亮的数据和糟糕的账本。
token价格还在持续下降。今天不划算的事,明年可能就划算了。但至少今天,大厂需要面对的现实是:AI还没便宜到可以随便烧。
目前的答案是:当你想用AI替代人的时候,你可能需要多付一笔钱。而且付了这笔钱之后,你得到的不是省下来的人力,而是一群忙着消耗token、做无用功、互相攀比数据的人。
最终,真正在干活和浪费的,还是人。
正如那位技术观察者的反问:如果AI比雇你还贵,之前的恐慌是不是过头了?
亚马逊、Meta悄悄关掉排行榜,也就不难理解了。大厂正在集体进入一轮“AI大清算”。
账算不过来的时候,数据再好看也没用。
真正用好AI的团队,从来不是盯着token数干活。他们想的是如何用AI省掉低价值劳动,而不是如何让仪表盘上的数字更漂亮。
这个区别,决定了AI到底是工具,还是一张越来越贵的账单。
