硅谷打工人整顿大厂让AI疯狂摸鱼真比人省钱吗

时间：2026-05-30 21:55

先说一个值得关注的现象。你猜怎么着？AI的使用量大幅增长，但真正完成的有效工作量却没有随之提升。本周，亚马逊悄然关闭了一项名为“Kiro Rank”的内部排行榜。该榜单的唯一用途是根据员工使用AI的活跃度进行评分和排名。管理层的初衷很直接：鼓励工程师多使用AI，从而提升工作效率。而一线员工的应对方式

先说一个值得关注的现象。

你猜怎么着？AI的使用量大幅增长，但真正完成的有效工作量却没有随之提升。

本周，亚马逊悄然关闭了一项名为“Kiro Rank”的内部排行榜。该榜单的唯一用途是根据员工使用AI的活跃度进行评分和排名。管理层的初衷很直接：鼓励工程师多使用AI，从而提升工作效率。而一线员工的应对方式也很简单：既然你考核这个指标，那就先把数据刷得漂亮再说。

于是，AI智能体被派去执行一些根本不需要的虚假任务；明明几秒钟就能查阅完毕的文档，非要绕道让模型处理一遍再返回；代码哗哗地自动生成出来，转眼又被原封不动地删除。

token消耗量轰轰烈烈地上升了，排行榜排名也提高了，但真正的业务推进呢？纹丝不动。

亚马逊高级副总裁戴夫·特雷德韦尔（Dave Treadwell）不得不内部喊停：“不要为了使用AI而使用AI。”

这件事的讽刺之处在于：亚马逊是全球在AI领域投入最慷慨的巨头之一，今年资本支出预计高达2000亿美元，其中大部分流向AI基础设施和数据中心。但现在，它却不得不反过来提醒自己的工程师——不要为了应付考核指标而滥用AI。

不是AI本身没用，而是评估指标从一开始就偏离了方向。一旦“使用量”被当作最终目标，KPI自然很好看，但成本账单也必然会变得很难看。

X平台上有人一针见血地评论：“AI本应替代人力或降低人力成本，结果它变成了一个比人类员工还昂贵的‘超级员工’。”

一、排行榜一个接一个消失

亚马逊并非唯一踩刹车的公司。几乎同一时期，类似情况在硅谷各大科技公司接连上演。

Meta内部曾有一个名为“Claudeonomics”的排行榜。由于使用的模型是Anthropic的Claude，因此得名。该榜单统计了85000多名员工的AI使用量，列出前250名“超级用户”。排名最高的头衔叫“Token Legend”，即token传奇。

这听起来像游戏段位，而员工也确实把它当成游戏来打。

据《The Information》独家报道，Meta员工在30天内消耗了60.2万亿个token。按Anthropic的API公开价格计算，这笔费用大约为9亿美元。即使考虑大客户折扣，保守估计也超过1亿美元。

一位Meta工程师私下透露，大量开发者正在运行一种类似OpenClaw的内部智能体，疯狂消耗token，但产出几乎为零。他还提到，一些线上事故的根因被追溯到AI生成的代码。写代码的人似乎更关心堆出足够多的代码量，而不是代码能否正常运行。

对于排行榜顶端那些人的产出，他的原话是：“基本都是‘一次性垃圾’。”

被媒体曝光后的第二天，Meta悄悄下线了这个排行榜。

微软从今年1月开始推行内部token排行榜。这个榜单有一个耐人寻味的特点：排名靠前的大多是VP级别和杰出工程师级别的员工。这些人平时会议多、写代码少，但token使用量却遥遥领先。

一位微软工程师承认自己在“tokenmaxxing”。他并非为了上榜，而是担心被看到token用量太少。他说：

“我们有内部仪表盘，追踪AI使用量、token消耗、AI写的代码占比。我不想被打上‘AI用得少’的标签。为了抬高数据，我会拿文档里已有的问题去问AI，让AI把文档处理一遍再回答我——这比直接查文档慢10倍，但能消耗大量token。我还会让AI去原型化一些我压根不打算实现的功能，反复提示几次之后再把代码全部删除。”

这位工程师入职不久，担忧的是工作保障。他的逻辑很简单：宁可多烧钱，也不能在数据上显得不够“AI原生”。今年5月，微软由于token账单失控，被迫收回了大部分Claude Code授权，把员工重新推回更便宜的Copilot。

Salesforce的做法更为直接。

公司开发了一个Mac桌面小工具，每15分钟刷新一次你的token花费，同时显示一个“最低预期支出”。上周的标准是：Claude Code每月至少100美元，Cursor每月至少70美元。未达标就会被标记。

还有一个工具可以查看任何同事的token支出。员工用它来互相比较，精准找到那个“略高于平均”的刻度，然后把自己的花费控制在那里。

一位Salesforce工程师表示，有些同事会让AI“帮我做X”，而这个X与手头工作毫无关系，纯粹是为了消耗token，做完之后也根本不会上线。直到上周，部分团队干脆取消了月度上限，理由是“消除开发流程中的摩擦”。

Uber的故事在时间线上最具戏剧性。

去年12月，Uber给大约5000名工程师配备了Claude Code。今年2月使用率为32%；3月到4月之间飙升至84%到95%。70%的代码提交是AI生成的，11%的后端更新完全不需要人工干预。

听起来很厉害，对吧？

然而Uber在4月就把全年的AI预算烧光了。每个工程师每月的API成本在500到2000美元之间。

Uber的COO安德鲁·麦克唐纳（Andrew Macdonald）最近在一档播客中坦诚地说：“当我们讨论AI使用量时，那些标题数字会让你脑子炸掉。但你要问的是：生产力提升到底有多少？哪些产品是AI驱动的？这两者之间的联系还没建立起来。”

公平地说，预算烧光也可能意味着AI的真实需求比预期更高。关键看多出来的花费换来了什么。但Uber的COO自己也承认，产出和花费之间的联系尚未建立。

他还补充了一句：“目前还没有什么真正起飞的东西。”

二、账本不会说谎

将以上故事串联起来，一个共同的问题浮出水面：AI到底为公司省了钱，还是让公司多花了钱？

先看英伟达。英伟达深度学习研究副总裁布莱恩·卡坦扎罗（Bryan Catanzaro）今年4月接受Axios采访时直言：在他自己的团队里，AI计算成本已经远远超过员工工资总和。GPU和推理的支出比人工成本还高。

注意，说这话的人是英伟达的人。英伟达是卖GPU的。连他们自己都承认，重度使用AI的团队正面临计算成本远高于人力成本的现实。

再看行业数据。多份2026年的追踪报告显示，Claude Code和Copilot宣传每月10到200美元的订阅费，但在重度智能体模式下，每个工程师每月的实际API成本高达500到2000美元。加上代码审查、技术债务、调试等隐藏成本，一个AI辅助团队的总拥有成本比纯人类团队高出12%以上。

不仅限于编码辅助。更复杂的AI智能体项目成本更高。

Gartner预测，到2027年，40%的AI智能体项目会因成本超支被砍掉。德勤2026年的报告发现，只有11%的公司真正把AI智能体部署到了生产环境。超过80%的项目因成本爆表而暂停或取消。一个AI智能体的开发和运行总成本，往往从预期的5万美元飙升至38万美元以上。

表面上看效率很高，实际上token消耗和持续维护很快就将预算撑破了。

这里引出一个170年前的经济学概念：杰文斯悖论。

经济学家杰文斯发现：蒸汽机效率提高后，煤炭消耗不但没有减少，反而大幅增加。因为效率高了，使用门槛低了，用的人多了，总消耗反而更大。

AI token的情况如出一辙。单价在持续下降，但人均使用量的增长远远跑赢了降价速度。尤其是AI智能体完成一个任务所需的token，是普通问答的1000倍。OpenClaw的创始人彼得·斯坦伯格（Peter Steinberger）透露，他团队一个月的token成本超过了130万美元。

效率提升 → 使用量暴增 → 总成本不降反升。杰文斯悖论在AI时代的精确复现。

但当前大厂面临的问题比杰文斯悖论更糟。不仅总量在涨，涨出来的部分中有大量是纯浪费。

一位IBM背景的技术观察者在X上评论：“‘AI将取代你的工作’这个叙事撞上了一堵墙。微软发现AI比人力更贵。Uber四个月烧完全年预算。如果AI比雇你更贵……之前的恐慌是不是过头了？”

tokenmaxxing导致的浪费是一笔账，AI本身的成本结构是另一笔账。前者可以通过改变激励方式解决；后者需要等待技术降本。但当两笔账叠加在一起，大厂看到的就是一个让CFO头疼的数字。

三、Shopify的不同解法

是不是所有人都在踩同一个坑？并不是。

也有团队用AI真正提升了效率。前提是它们从未把“用量”当作KPI。

Shopify是去年最早做token排行榜的公司，但路径与前面几家截然不同。工程负责人法汉·塔瓦尔（Farhan Thawar）表示，他们后来将“排行榜”改名为“使用仪表盘”。“原因很明显，我们不想鼓励‘竞争’上榜。”

他们还做了三件事。

第一，安装了“断路器”。如果某个人的token花费一天内异常飙升，系统会自动切断访问。塔瓦尔说，这个断路器不仅帮助他们发现了失控的智能体，还顺带揪出了一些基础设施的bug。

第二，对高消费的人进行人工跟进。不是表扬，而是追问：你为什么花这么多？使用场景是什么？如果有人为了消耗token而消耗token，到这一步会很难看。

第三，关注了一个更刁钻的指标：不是看“谁消耗的总token最多”，而是看“谁的token最贵”。他们发现，token单价最高的开发者，往往在做最有深度的活。因为他们在用AI啃硬骨头，而不是刷简单任务。

Shopify的经验说明了一件事：问题不在于用不用AI，而在于你盯着什么指标。盯着消耗量，得到的是浪费；盯着产出质量，得到的是效率。

有中文科技博主评论：“真正的高手用AI是去解决痛点、省掉低价值劳动，不是为了刷token而刷token。大厂现在集体进入AI的‘moment of truth’。Uber烧穿预算，亚马逊踩刹车，下一步可能就是更重视真实ROI，而不是表面的活跃度数据。”

四、同一个坑，换了个名字

X平台上一位开发者评论：“扭曲的激励，必然滋生经济上的低效。微软、Meta、亚马逊僵化的AI采用指标，正在反噬成一场巨大的成本危机。”

回头看这场“tokenmaxxing”闹剧，有一种强烈的既视感：这不就是当年“代码行数”考核的翻版吗？

曾经有一段时间，很多公司用程序员每天写多少行代码来衡量产出。后来大家发现这做法极其愚蠢。写一万行样板代码，不如写十行解决核心问题的逻辑。最优秀的开发者往往不是写得最多的人，而是能最快最稳解决难题的人。

token数也一样。它容易被操纵，一旦列入考核就一定会被操纵。区别在于：操纵代码行数的代价最多是浪费几张纸，而操纵token数的代价是真金白银的AI账单。

Pragmatic Engineer播客主持人杰尔吉·奥罗兹（Gergely Orosz）追踪多家大厂后下了判断：tokenmaxxing对AI厂商是好事，对其他所有人都是坏事。

为什么对AI厂商是好事？因为每一笔被浪费的token，都会变成AI公司的收入。

这也是为什么黄仁勋会在今年3月的英伟达开发者大会上，对犹豫用AI的经理说“你疯了吗”，为什么他鼓励工程师每年消耗至少相当于自己半年薪水的token。

立场不同，账的算法就不同。

五、比“贵不贵”更重要的问题

将整件事拉远一点来看。

亚马逊、Meta、微软、Salesforce、Uber，都在做同一件事：通过排行榜、最低消费、KPI绑定，想方设法推动员工“多用AI”。

背后的假设很简单：AI能替代人的一部分工作，多用就等于多省人力成本。

这个假设正在被现实打脸。

AI确实能完成很多任务。但它目前的成本结构远未达到“比人便宜”的拐点。强迫员工多用的结果，不是效率线性提升，而是大量“为了用而用”的浪费。就像亚马逊那位VP说的：“不要为了使用AI而使用AI。”

Uber的COO说得更直白：token消耗和实际产出之间，“联系还没建立起来”。

这不是说AI没用。而是说，如果衡量方式一开始就错了，那么越用力推，离目标越远。

排行榜上消耗token最猛的人，恰恰是产出最低效的人。为了达标而让AI跑无用任务的团队，恰恰是消耗资源最多的团队。

问题的核心不在于AI技术够不够好，也不在于token够不够便宜。而在于：当一家公司把“AI使用率”本身当成目标时，它得到的一定是漂亮的数据和糟糕的账本。

token价格还在持续下降。今天不划算的事，明年可能就划算了。但至少今天，大厂需要面对的现实是：AI还没便宜到可以随便烧。

目前的答案是：当你想用AI替代人的时候，你可能需要多付一笔钱。而且付了这笔钱之后，你得到的不是省下来的人力，而是一群忙着消耗token、做无用功、互相攀比数据的人。

最终，真正在干活和浪费的，还是人。

正如那位技术观察者的反问：如果AI比雇你还贵，之前的恐慌是不是过头了？

亚马逊、Meta悄悄关掉排行榜，也就不难理解了。大厂正在集体进入一轮“AI大清算”。

账算不过来的时候，数据再好看也没用。

真正用好AI的团队，从来不是盯着token数干活。他们想的是如何用AI省掉低价值劳动，而不是如何让仪表盘上的数字更漂亮。

这个区别，决定了AI到底是工具，还是一张越来越贵的账单。

来源：https://www.163.com/tech/article/KU616VEG00097U7T.html

打工人

上一篇大众全球首发三款车型加速在华新能源攻势 下一篇Find X9s Pro 5299元哈苏双两亿旅拍神器发布

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。