罗福莉:各位醒醒吧,该结束token虚假狂欢了

作者 | 董道力
邮箱 | dongdaoli@pingwest.com
这两天,所谓“Anthropic封禁OpenClaw”的报道铺天盖地,但事实上Anthropic 是停止了OpenClaw这种第三方产品直接通过Claude Pro等固定付费的订阅方式来调用能力的路径。
你真的想用Anthropic 的模型和产品,要么通过最新来使用这种订阅模式,要么可以使用按量充费的API额度,封禁是没有封禁,只是限制了调用和对应的“收费”方式。
相比于错误理解成“封禁”并第一时间联想到“过河拆桥”的一堆讨论,小米 MiMo 大模型负责人罗福莉的一篇长文是少有的对这个事情真正认真分析,并聊到点子上的。
她认为,Anthropic 的动作并不意外,此前我们一直在一场无法持续的虚假token消耗狂欢里,现在该醒醒了。

1
订阅制不适合第三方 Agent
罗福莉首先对 Claude Code 的订阅设计给出正面评价,认为这是业内少有的、认真对待算力分配问题的产品设计。其逻辑是:轻度用户用的少,补贴重度用户,总体均衡。
但她随即指出,这套逻辑有一个隐藏前提:用户用的必须是 Anthropic 自己的框架。一旦脱离 Claude Code,就会出问题。
她以 OpenClaw 作为案例,指出第三方 harness 同时破坏了两个层面的均衡。
第一层是请求次数。她在推文中写道:"我没办法严格计算第三方 harness 接入造成的损失,但我近距离看过 OpenClaw 的上下文管理,很糟糕。在单次用户查询里,它会触发多轮低价值工具调用,每轮作为独立 API 请求发出,每个请求携带的上下文窗口往往超过 100K tokens。实际请求次数是 Claude Code 原生框架的数倍。折算成 API 定价,真实成本大概是订阅价格的数十倍。"
简单说,同一件事,OpenClaw 要跑十趟,原生框架跑一趟。

第二个层面是缓存效率。她在评论区补充道:"更大的问题是,很多第三方 harness 在接近上下文长度限制时,每隔几步就压缩一次工具返回结果,导致 cache 命中率极低。"
Claude 的缓存机制依赖上下文前缀的一致性,前缀匹配,才能复用缓存、跳过重复计算。但每次压缩都会改写上下文内容,导致前缀失配,缓存作废,模型被迫重新全量读入。
两个问题叠在一起,把每一次查询的实际 token 消耗都推向极值。
OpenClaw 的用户几乎清一色是重度用户,而即便是轻度用户,通过 OpenClaw 发出的每一次请求,在成本结构上也等同于重度用户。
订阅制赖以成立的分布假设就此坍塌,补贴关系不复存在,Anthropic 单方面承担成本缺口。
就像健身房办卡,就是赌一些用户办了卡但不来,从而补贴天天去健身房用户的成本,而 OpenClaw 让每个用户 7x24 小时的都去高强度训练,健身房成本就下不来了。
1
短期阵痛,长期改善工程纪律
而对于用户的愤怒,罗福莉认为这个短痛是有用的。
她写道:"第三方 harness 还是可以调用 Claude,只是不能再搭订阅的便车了。短期内,这批用户会感受到成本冲击,轻松跳升数十倍。但这个压力,恰恰会推动这些 harness 去改进上下文管理、最大化 prompt cache 命中率、减少无效 token 消耗。痛苦最终会转化为工程纪律。"
订阅制的问题在于,它让 harness 开发者从来不需要为单次请求的 token 消耗负责。上下文管理差不要紧,cache 命中率低不要紧,反正成本由 Anthropic 的服务器悄悄吸收。
但一旦回到 API 计费,这个结构就变了。token 浪费会直接体现在账单上,"优化效率"从可做可不做,变成了有商业压力驱动的工程需求。
每个开发者单独决策时都倾向于多用,整体生态的调用质量因此持续恶化。计费结构的改变,是把外部性内部化的强制手段。

1
Tokens 价格战只会导致恶性循环
相比于感慨Anthropic 过河拆桥,抄袭OpenClaw后要用自己第一方工具收割用户的讨论,罗福莉提出了一个更加有点“皇帝新衣”味道的提醒:
今天单纯为了token消耗而狂欢,以及模型厂商们由此出发打的各种价格战,将难以为继。是时候醒醒了。
她写道:"我劝 LLM 公司不要在还没搞清楚 coding plan 怎么定价之前,就跟着降价内卷。低价卖 token、同时向第三方全面开放,对用户看起来很友好,但那是一个陷阱。Anthropic 刚从这个陷阱里走出来。如果用户在劣质 harness、不稳定推理服务、降配模型上反复碰壁,最终什么都没做成,用户体验和留存都不会好看。"
这个陷阱的机制是:大模型公司推出 coding plan 向第三方 harness 开放,和 Claude 一样会入不敷出。为了控制成本,平台只能降低算力或换用更便宜的低智模型。用户表面上有充足的额度,但什么都做不好,留存自然也不用说。
问题的根源在于计费结构。Coding Plan 本质上是按订阅周期加请求次数的粗放额度包,开发者买的是一段时间内的粗略使用权,感受不到单次请求的真实成本。
当第三方 harness 接入时,上下文管理粗放、冗余请求、低 cache 命中率造成的算力浪费,成本完全由平台默默吸收。
订阅制切断了用量与成本之间的信号传导,重度用户通过低效 harness 透支的算力,最终迫使平台要么封禁第三方,要么靠降速、限流、降配模型来止损,这正是 Anthropic 走到今天这一步的路径。

当然,罗福莉的另一个目的也是为她在小米做的尝试和方案“做广告”。
MiMo 的 Token Plan 走的是另一条路。MiMo 没有封掉第三方入口,而是改变了计费结构:按实际 token 消耗量配额,开发者购买以 Credit 为单位的 token 额度。
无论使用原生框架还是 OpenClaw 等第三方 harness,每一个浪费的 token 都直接从用户的额度包里扣。平台不再为低效 harness 买单,用得多付得多,用得糙成本高,"用量-成本"的关系重新透明起来。
她将这套逻辑定位为:不是不让用,而是让计费结构本身成为约束机制,推动生态向高效率方向演化。
低价订阅的问题不在于便宜本身,而在于它切断了信号传导。在定价逻辑没想清楚之前跟进,复制的可能不是 Anthropic 的优势,而是它刚刚踩过的坑。
1
竞争正式进入下一个阶段
罗福莉在推文最后把视野拉到了更大的框架上。
她写道:"全球算力的供给速度,已经追不上 Agent 场景下 token 消耗的增速。真正的出路不是更便宜的 token,而是协同进化,更高 token 效率的 agent harness,乘以更强大、更高效的模型。Anthropic 这次,不管主观意图是什么,客观上把整个生态,无论开源还是闭源,都推向了这个方向。Agent 时代不属于烧算力最多的人,而属于用算力最聪明的人。"

罗福莉在推文最后正是在挑战过去几年 AI 行业信奉的"算力竞赛"叙事。
主流逻辑一直是:算力更多,模型更强,成本更低,用户更多,形成正向飞轮。
但 Agent 场景打破了这个等式。当一次用户查询可以触发数十次 API 调用,每次携带超过 100K tokens 的上下文,算力消耗的增速就不再是线性的。单纯压低 token 价格,只会加速这个消耗,而不会改变其结构。
这意味着,下一轮竞争的核心指标,可能不再是"每 token 多便宜",而是"每 token 能完成多少有效工作"。谁先在这个维度上建立优势,谁就能在全球算力供给跟不上 Agent 需求增速的窗口期里,占据真正有利的位置。
Anthropic 这次调整,无论出于什么动机,都在客观上把整个生态推向了这个方向。
快把烧token变成某种爱好和社交展示资本的人们吐槽吐槽Anthropic 就罢了,对于各类Harness产品以及模型厂商们来说,这事真正的信号意义其实很强,如果还是想着趁乱靠免费量大管饱去接住一波流量用户,就太不合时宜了。
一个阶段性的狂欢是时候让位于在工程和基础设施设计上的真正重要的工作了。

点个“爱心”,再走 吧
相关攻略
当AI能力成为通用基础设施,企业真正的核心竞争力是什么? “我不知道AI这艘船上有多少船票,但我知道,上船最重要。”特赞科技创始人兼CEO范凌的这句话,精准击中了当下企业决策者的核心焦虑。这并非源于短期的市场压力,而是一种关乎未来生存的深层紧迫感——在一个马太效应被AI技术急剧放大的商业时代,错失先
近期,AI智能体领域的一个开源项目openJiuwen引发了广泛关注。该项目接连获得Tech in Asia与MarkTechPost等权威海外科技媒体的深度报道,前者重点解析了其架构设计,后者则深入探讨了基于它构建的JiuwenClaw智能体的自演进能力。这波来自国际技术社区的关注,标志着其创新的
最近,一款名为updream的AI视频创作产品,在专业创作者的小圈子里引发了不小的讨论。它在前不久的B站首届AI创作大赛颁奖活动上首次亮相,随即在各大创作者社群中掀起了一股“求内测码”的热潮。一款尚未正式发布的产品,能让这群早已阅“AI神器”无数的老手们主动排队,这本身就值得玩味。 当然,updre
在人工智能领域,我们正见证着一个激动人心的范式转变。过去,构建一个强大的AI系统往往意味着需要“从头开始”训练一个庞大的模型,这个过程不仅耗费巨量的计算资源和数据,而且周期漫长。但现在,一种更高效、更灵活的策略正在成为主流:基于现有的、能力强大的基础模型,通过“微调”来快速适配特定任务或领域。 这就
以「自进化」重构 Agent 体验。 最近几周,开源社区的目光被一个名为 Hermes Agent 的项目牢牢吸引。它在 X 和 GitHub 上迅速走红,热度堪称现象级。 从2月底开源首月斩获2 2万星,到4月8日发布v0 8 0版本后单日新增超过6400星,Hermes Agent在不到两个月的
热门专题
热门推荐
公安部就电子数据取证规则公开征求意见,拟将网络安全等行政案件纳入适用范围,并规范取证流程与核心概念。新规特别明确了获取密码、调取通讯内容等特殊程序,需经严格审批并保障当事人权利。配套法律文书也同步优化,以构建更规范且注重权利保障的取证体系。
理想L9和LIvis的定价策略刚掀起波澜,小鹏GX的最终价格就给出了更猛烈的回应——从近40万元的预售价直降至27万元起。用小鹏产品矩阵负责人吴安飞的话说,这叫“9系的产品,8系的价格”。 这12万元的下调,效果堪称立竿见影。发布会次日,小鹏集团港股股价一度大涨超8%。更关键的是市场订单:上市12小
5月21日,环塔拉力赛新疆且末赛段大营迎来了一位备受瞩目的访客——知名零售企业胖东来的创始人于东来。他专程前往长城汽车车队营地,与参赛车手及后勤团队进行了深度交流。据悉,于东来此次自驾越野之旅已历时一月,随行车队中包含多款国产越野车型。经过实地驾驶与多维度对比,他对以长城汽车为代表的国产越野车品质给
比特币官方入口在哪里?一个核心门户的权威指南 说起比特币,很多人第一反应是去找它的“官网”或“官方App”。但这里有个关键点需要先理清:比特币本质上是一种去中心化的全球数字货币,它不属于任何一家公司或机构,而是由一个庞大的、遍布全球的社区共同维护。因此,它并没有传统意义上由某个企业运营的“官方网站”
Ring-2 5-1T是什么 在当今大模型技术激烈竞争的赛道上,追求更长的上下文处理能力和更强大的深度推理性能已成为核心焦点。近日,蚂蚁集团旗下的inclusionAI团队重磅开源了Ring-2 5-1T模型,这是一个参数规模高达万亿级别的混合线性思考大语言模型。该模型基于先进的Ling 2 5架构





