在上篇文章《瑞幸 skill 引发的一些思考》发布后,评论区有读者好奇:使用 AI agent 点一杯咖啡,究竟要消耗多少 token、花费多少成本?
这个问题直击要害。上篇提到,agent 时代每一次对话都在消耗 token,流量不再是能无限摊薄的资产,它本身就是成本——但通篇只有推理,一个具体数字都没有给出。只讲道理不列数据,等于只说了一半。
于是今天中午,我让 Claude 实际点了一杯咖啡。先看结果:耗时 6 分 29 秒拿到取餐码,咖啡实付 12.75 元;这场会话共消耗 136 万 token,按 API 价格折算约 10.8 元。
一杯 12.7 元的拿铁,背后对应着一张 10.8 元的 token 账单。过程与费用清晰可见,但本文真正想传达的是:将这些数字与上篇文章的几个判断联系起来。
实际点单过程
瑞幸的 My Coffee Skill 挂在它的 AI 开放平台上,一个 9.9KB 的 zip,解压到 Claude Code 的 skills 目录即可安装。包内只有四个文件,没有任何可执行代码——整个 SKILL.md 就是一份写给 agent 的操作手册:用 curl 调用瑞幸的 MCP 网关,共八个接口,下单前必须与用户确认内容,什么情况下必须暂停询问。CHANGELOG 显示它从 4 月下旬至今已修改 23 个版本,前天还在更新。
12:38,在干净目录中启动一个会话(Opus 4.8),输入“帮我点一杯咖啡”。几个值得记录的瞬间:
它先检查本地是否有登录凭证——有,跳过。然后询问我的位置,拿不准就不擅自猜测,直接追问,这是 SKILL.md 里写死的规则。报出公司附近的商圈,它列出 5 家营业中的门店,我指定常用那家。
说“大杯 深烘拿铁 冰”,它搜索商品发现默认是热的,于是查属性、切换规格——这里卡了 70 秒,切“冰”的接口参数接连报两次“非法参数”,第三次才尝试成功。这是全程唯一的磕绊。
之后弹出一张确认卡:深烘拿铁 · 大杯 · 冰,预估 ¥12.75,原价 ¥17,优惠券自动抵扣了 4.25(skill 强制规定:预览接口返回的券必须原样带入下单接口)。回复“下单”,它核价、建单,终端里给出支付链接,手机扫码付款,再回复“已支付”——取餐码 688,预计 12:57 做好,准时。
整段对话的回放在下面这张图里。这张图本身也是 CCStats 桌面端导出的:在会话视图选中消息,就能直接导出分享图,敏感信息已打码。
体验上,坦白说比自己打开 app 慢——熟手一分钟的事它花了六分半。中间做的事情包括:报位置、选店、报饮品、确认、扫码,外加十几次 curl 权限点击“允许”。
评论区问题的答案
会话结束后,cc-stats 对着实验目录生成了上面这份报告:10 轮对话,22 次 API 调用,input 18K、output 14K、cache write 71.6K、cache read 1.27M,缓存命中率 98.6%。
127 万的 cache read 是账单大头,这正是 agentic loop 的结构:每一轮调用都携带全量上下文——系统提示、19KB 的瑞幸操作手册、越来越长的对话和接口返回,一个都不能少。上下文从 43K 一路涨到 74K,22 轮下来输入侧累计 136 万 token,好在 98.6% 走了缓存,按原价的十分之一计费。
按 Opus 4.8 的单价(input $5/M、output $25/M、cache write $6.25/M、cache read $0.5/M)合计 $1.52,按 7.1 汇率约 10.8 元。咖啡 12.75 元,这一单的 AI 服务费率 85%。
三个对照数据,比单个数字更有信息量:
第一,如果没有 prompt cache,136 万输入全按原价,整单 $7.16,约 51 元,是咖啡的四倍。缓存把它压掉了将近八成。
第二,相同用量换算不同模型:Haiku 4.5 两块二,Sonnet 4.6 六块五,Opus 4.8 十块八,Fable 5 约二十八块(单价翻倍,新分词器还多三成 token)——比咖啡本身贵出一倍。点咖啡所需的智力水平,Haiku 大概率就能满足。
第三,从订阅用户角度看,这 10.8 元是 API 等价折算,实际包含在月费里。订阅用户点咖啡无感,按量付费的 API 用户才会在账单上真切感受到这杯咖啡的 token 成本。
这些数字的来源
文中的 token 用量、缓存命中率、费用折算,以及那张会话回放图,都来自 cc-stats——一款 AI coding 会话统计工具(GitHub:github.com/androidZzT/cc-statistics),日常用它查看自己每天在 Claude Code 上消耗了多少 token、完成了多少工作。
CLI 安装后,只需对任何项目目录运行一行命令:
pipx install cc-statistics
cc-stats ~/Claude/luckin-test
即可生成文中那份报告:对话轮次、工具调用分布、token 消耗、缓存命中率、效率评分,兼容 Claude Code、Codex、Gemini CLI、Cursor 的会话。
桌面端 CCStats.app 可以直接浏览会话内容,选中几条消息导出成分享图——文中那张对话回放图就是这样导出的。日常用得最多的还有额度预测和会话完成通知。
再提一下那个效率评分。cc-stats 给这场点咖啡的会话打了 D(19/100),理由是 1.4M token、零代码产出。它说得没错,只是它不知道,这次的产出物就在取餐台上。
最后
回到评论区那个问题:用 agent 点一杯咖啡,token 花多少钱?
答案是:今天,用最顺手的配置,10 块 8;用最便宜的模型,2 块 2;订阅用户,0 元;第二杯,更少。
但这笔 token 费用换来的不止是一杯拿铁。这场会话之后,登录凭证保存在本地,常用门店、大杯深烘加冰、到店自提等偏好都可以沉淀为它的规则——下一杯无需从头问起。点单只是开端:等它同样熟悉日程、通勤、会议习惯后,一句“明早八点的航班”就能自动拆解为订车、点咖啡、机场自提。token 消耗的是钱,换回来的是它对你的了解。了解积累得越厚,琐事占用你的时间就越少——这才是这笔钱真正买到的东西。
上篇提到,agent 时代的流量不再摊薄,它本身就是成本。这杯咖啡,算是给那句话标了个价。
- 上篇文章:《瑞幸 skill 引发的一些思考》
- cc-statistics 统计工具:github.com/androidZzT/cc-statistics
- My Coffee Skill:open.lkcoffee.com/skill
