Claude Opus 4.8上线：提升AI编程可靠性，减少无依据结论_AI热点日报

Claude Opus 4.8上线：提升AI编程可靠性，减少无依据结论

类型：热点整理2026-05-29

5月29日，Anthropic公司正式发布了Claude Opus 4 8——此次升级的核心目标，是让模型在智能体编程、多领域推理以及知识工作这些实际应用场景中表现更加强劲。从官方披露的信息来看，Opus 4 8相比上一代Opus 4 7，算是一次小步快跑式的迭代。价格保持不变，但用户在编程、智能

5月29日，Anthropic公司正式发布了Claude Opus 4.8——此次升级的核心目标，是让模型在智能体编程、多领域推理以及知识工作这些实际应用场景中表现更加强劲。

Claude Opus 4.8 上线：提升 AI 编程可靠性，减少无依据结论

从官方披露的信息来看，Opus 4.8相比上一代Opus 4.7，算是一次小步快跑式的迭代。价格保持不变，但用户在编程、智能体协作、推理以及知识工作方面都能直观感受到实质性的能力提升。

多家早期测试方的反馈极具说服力：Opus 4.8“更加可靠，判断更加敏锐”。在处理那些需要多步协作的复杂任务时，它的决策更加稳健——会主动追问、能够识别自身错误，甚至在计划不合理时明确提出质疑。这无疑是一个重要进步。

特别值得关注的是它在编程场景下的表现。评估数据显示，相较于前代，Opus 4.8放任代码缺陷而不做任何说明的概率直接降至四分之一。换句话说，它更愿意主动标注出不确定性，避免凭空给出缺乏依据的结论。对于开发者而言，这无疑是一大利好。

在对齐能力方面，Opus 4.8同样创下新高——在支持用户自主性、按照用户最佳利益行动等亲社会指标上，得分非常理想。同时，欺骗这类失配行为的发生率低于Opus 4.7，与之前推出的Claude Mythos Preview大致相当。相关截图如下：

配套功能上，claude.ai本次新增了effort程度控制，让用户能够在更高质量输出与更快响应之间灵活平衡。默认档为high，编码任务中的token消耗与Opus 4.7默认档接近，但效果更优。如果选择extra（在Claude Code中对应xhigh）或更高的max档位，模型会消耗更多tokens以换取更出色的结果。

基准测试方面，Anthropic提供的数据相当亮眼：Opus 4.8在SWE-Bench Pro上获得了69.2%，并且在该测试及其他多项基准中超越了GPT‑5.5和Gemini 3.1 Pro。不过需要指出的是，在终端编程基准上，GPT‑5.5仍然保持领先。

本次更新还同步进行了性能与价格调整。Opus 4.8的快速模式速度直接提升至原来的2.5倍，而模型成本则降至此前三分之一。

定价方面，常规模式维持每100万输入令牌5美元、每100万输出令牌25美元；快速模式则为每100万输入令牌10美元、每100万输出令牌50美元。速度翻倍、成本减半，性价比账怎么算都相当划算。

来源：https://www.ithome.com/0/956/827.htm

Claude

延伸阅读

补充最近整理过的热点入口。

Claude Opus 4.8上线：提升AI编程可靠性，减少无依据结论

相关热点

延伸阅读