5月29日,Anthropic公司正式发布了Claude Opus 4.8——此次升级的核心目标,是让模型在智能体编程、多领域推理以及知识工作这些实际应用场景中表现更加强劲。

从官方披露的信息来看,Opus 4.8相比上一代Opus 4.7,算是一次小步快跑式的迭代。价格保持不变,但用户在编程、智能体协作、推理以及知识工作方面都能直观感受到实质性的能力提升。
多家早期测试方的反馈极具说服力:Opus 4.8“更加可靠,判断更加敏锐”。在处理那些需要多步协作的复杂任务时,它的决策更加稳健——会主动追问、能够识别自身错误,甚至在计划不合理时明确提出质疑。这无疑是一个重要进步。
特别值得关注的是它在编程场景下的表现。评估数据显示,相较于前代,Opus 4.8放任代码缺陷而不做任何说明的概率直接降至四分之一。换句话说,它更愿意主动标注出不确定性,避免凭空给出缺乏依据的结论。对于开发者而言,这无疑是一大利好。
在对齐能力方面,Opus 4.8同样创下新高——在支持用户自主性、按照用户最佳利益行动等亲社会指标上,得分非常理想。同时,欺骗这类失配行为的发生率低于Opus 4.7,与之前推出的Claude Mythos Preview大致相当。相关截图如下:
配套功能上,claude.ai本次新增了effort程度控制,让用户能够在更高质量输出与更快响应之间灵活平衡。默认档为high,编码任务中的token消耗与Opus 4.7默认档接近,但效果更优。如果选择extra(在Claude Code中对应xhigh)或更高的max档位,模型会消耗更多tokens以换取更出色的结果。
基准测试方面,Anthropic提供的数据相当亮眼:Opus 4.8在SWE-Bench Pro上获得了69.2%,并且在该测试及其他多项基准中超越了GPT‑5.5和Gemini 3.1 Pro。不过需要指出的是,在终端编程基准上,GPT‑5.5仍然保持领先。
本次更新还同步进行了性能与价格调整。Opus 4.8的快速模式速度直接提升至原来的2.5倍,而模型成本则降至此前三分之一。
定价方面,常规模式维持每100万输入令牌5美元、每100万输出令牌25美元;快速模式则为每100万输入令牌10美元、每100万输出令牌50美元。速度翻倍、成本减半,性价比账怎么算都相当划算。
