谈到 Claude Opus 4.8 的定价,很多人第一时间会去查看那张费率表——输入每百万 tokens 5 美元,输出每百万 tokens 25 美元。没错,这个价位和 Opus 4.7 完全一致。因此,如果你之前已经为 4.7 做好了预算,升级时账单上不会出现任何意外。
但真正算清楚账的朋友会发现,真正影响你月底支出的,从来不只是基础费率。那些藏在细节里的因素——更快的模式、名为 effort 的参数调节拨盘、prompt caching,还有批量折扣,才是左右账单的大头。
本文通过实际案例,把这些账一笔笔算清楚。
费率表
| 模式 | 输入(每 1M tokens) | 输出(每 1M tokens) | 速度 |
|---|---|---|---|
| Standard | $5 | $25 | 基准 |
| Fast | $10 | $50 | 输出速度提升 2.5 倍 |
两个重点值得拎出来说。第一,output tokens 的成本是 input 的五倍,也就是说,决定你账单金额的是 Claude 回答的长度,而不是你 prompt 有多长。第二,快速模式费率翻倍,换来的是快 2.5 倍的输出速度。Anthropic 自己说过,快速模式比之前模型里同样的模式便宜了三倍左右,所以这个速度溢价随着代际更新正在慢慢下降。
确认最新费率的话,可以自己去 Anthropic 的价格文档里查阅。
快速模式的用途
标准模式是默认选项,大多数场景用它都是对的。快速模式则适用于那种“延迟本身就是产品”的场景——比如实时编程助手、交互式智能体,或者任何一个用户正盯着光标等待的瞬间。你付了两倍的 token 价格,换来了快 2.5 倍的流式输出。
决策逻辑其实很简单:如果有人在屏幕前等着响应,快速模式值这个价。如果任务跑在后台(智能体循环、批量作业、定时任务一类),老老实实待在标准模式里省钱就行。
Effort 参数如何改变您的账单
这个杠杆是大多数团队最容易忽略的。Opus 4.8 的 effort 参数控制着模型在整个响应(包括 tool calls)里消耗的 token 总量。既然输出端价格更贵,那么对于不需要深度推理的任务,把 effort 调低,可以直接砍下一块成本。
按 token 消耗从少到多,五个级别分别是:
low:简短回答,最少的 tool calls,消耗最低medium:平衡high:默认,详尽xhigh:深度推理,更多 tool calls,编程场景推荐max:无约束,消耗最高
一个分类任务如果在 low effort 下跑,输出的 tokens 可能只有 high 模式下的十分之一。同样的模型,同样的费率,账单却只是零头。建议去翻翻 Anthropic 的 effort 指南,里面详细讲了每个级别如何保持质量。核心结论很明确:根据任务匹配 effort,没必要在所有地方都按 high 来付账。
成本案例计算
以下所有数据均使用标准定价(每百万 tokens 输入 5 美元,输出 25 美元)。都是说明性的例子,你实际遇到的 token 数可能会有出入。
场景 1:聊天机器人单轮对话。 1,000 个 input tokens,500 个 output tokens。
- 输入:1,000 ÷ 1,000,000 × $5 = $0.005
- 输出:500 ÷ 1,000,000 × $25 = $0.0125
- 总计:每轮大约 $0.018
如果调到 low effort,输出会被压缩,每轮成本能降到 1 美分以内。
场景 2:智能体编程任务。 50,000 个 input tokens 的代码库上下文,8,000 个 output tokens(使用 xhigh)。
- 输入:50,000 ÷ 1,000,000 × $5 = $0.25
- 输出:8,000 ÷ 1,000,000 × $25 = $0.20
- 总计:每个任务大约 $0.45
如果这 50K 上下文在多次调用里反复出现,prompt caching 能把输入成本降到大约 $0.025,总成本跟着降到 $0.23。
场景 3:隔夜批量任务。 1,000,000 个 input tokens,200,000 个 output tokens,通过 Batch API 跑,享受 50% 折扣。
- 输入:1,000,000 ÷ 1,000,000 × $5 × 0.5 = $2.50
- 输出:200,000 ÷ 1,000,000 × $25 × 0.5 = $2.50
- 总计:整批大约 $5.00
如果需要和其他更便宜的模型对比,可以看看 Gemini 3.5 Flash 和 Xiaomi MiMo v2.5 的价格拆解。
Prompt caching:最大的单项节省
如果每次调用都发同样的 system prompt、文档或者代码库进去,那你其实是在为模型已经见过的 tokens 付全额输入价格。Prompt caching 就是来解决这个问题的。第一次缓存写入之后,后续缓存的输入读取费用只有正常输入费率的大约十分之一。
长上下文的智能体最能从这里省钱。每次调用都按全额计费的 50K token system prompt 太贵了;一旦缓存,重复部分的成本几乎可以忽略不计。第一次调用负责写入缓存,之后每次调用读取都便宜得不行。
Batch API 与超长输出
不需要实时答案的时候,Batch API 能以折扣价跑任务。提交一组请求,在批量窗口内等结果出来,每 token 费用更低。它还能提升输出上限:Opus 4.8 通过 Batch API 支持高达 300K 的 output tokens(需使用 output-300k-2026-03-24 beta header),而同步端点只有 128K。
适合它的场景包括评估(evals)、批量摘要、数据标注,以及任何对分钟级延迟不敏感的流水线任务。
Opus 历代价格对比
Opus 4.8 维持了价格水平不变。真正有意思的故事,是两代之前那波价格下降的幅度:
| 模型 | 输入(每 1M) | 输出(每 1M) |
|---|---|---|
| Opus 4.1 | $15 | $75 |
| Opus 4.5 | $5 | $25 |
| Opus 4.6 | $5 | $25 |
| Opus 4.7 | $5 | $25 |
| Opus 4.8 | $5 | $25 |
Opus 在 4.5 这一代从 $15/$75 降到了 $5/$25,之后一直保持到现在,而价格背后的模型性能却在不断提升。换句话说,你正以 4.5 的费率享受着 4.8 的质量。想和其他厂商的旗舰模型做对比,可以翻翻 Opus 4.8 vs GPT-5.5 vs Gemini 3.5 的详细文章。
成本优化清单
在规模化使用 Opus 4.8 之前,最好对照这个清单走一遍:
- 按任务设置 effort。 别为了分类任务付
high的账,也别为了简单的查找任务掏xhigh的钱。 - 缓存重复上下文。 System prompts、文档和代码库都应该被缓存。
- 批量处理非紧急任务。 把评估和批量作业挪到 Batch API 去。
- 合理限制
max_tokens。 它决定了单次调用最坏情况下的输出成本上限。 - 除非有真人实时等着,否则老老实实待在标准模式。
- 关心使用层级(usage tiers)。 速率限制和支出是同步长的;比如 Claude Code 每周限制增加 50% 这种变动,提醒我们要一直盯着配额。
常见问题解答
Claude Opus 4.8 的费用是多少? 标准模式下每百万 input tokens 5 美元,每百万 output tokens 25 美元。快速模式则是 10 美元和 50 美元,输出速度快 2.5 倍。
Opus 4.8 比 Opus 4.7 更贵吗? 不。每 token 费率完全一样,所以从 4.7 升级不会改变你的账单。
标准模式和快速模式定价有什么差别? 快速模式把每 token 费率翻了一倍,换来大约快 2.5 倍的流式输出。只在延迟对等待用户至关重要的时候用它。
怎么降低 Opus 4.8 的成本? 简单的任务上把 effort 级别调低,重复的 prompt 内容做缓存,非紧急任务走批量处理,并且严格设好 max_tokens 的上限。记住,output tokens 才是成本的主要驱动因素。
Prompt caching 真的能省钱吗? 是真的。第一次调用写完缓存之后,重复输入的读取费用只有正常输入费率的大约十分之一。长上下文的智能体省得最狠。
Opus 4.8 一次能输出多少个 tokens? 同步 Messages API 上限是 128K,通过 Batch API 配合 output-300k-2026-03-24 beta header 可以到 300K。
在哪里能查到每次调用的 token 使用情况? 在每个 Messages API 响应的 usage 对象里。像 Apifox 这样的工具可以把它可视化出来,方便你对比不同 effort 级别下的成本差异。
