Claude Opus 4.8上线：AI编程更可靠，减少无依据结论

时间：2026-05-29 09:15

Anthropic发布ClaudeOpus4 8，专注编程、推理与知识工作。对比4 7，代码缺陷未解释概率下降约4倍，无依据结论显著减少，亲社会指标创历史新高。新增effort控制功能，基准测试超越GPT-5 5与Gemini3 1Pro，快速模式速度提升2 5倍、成本降至三分之一。此次更新全面增强了模型的可靠性与实用性。

2025年5月29日，人工智能公司Anthropic正式推出其旗舰级新模型——Claude Opus 4.8。本次升级的核心方向聚焦于智能体编程、跨领域推理以及知识型工作，旨在提升模型在实际任务中的可靠性与实用性。

相较于一个月前发布的Opus 4.7，本次迭代幅度虽不算剧烈，且定价策略维持不变。然而，核心优化精准瞄准了用户最关注的场景：编码能力、智能体任务执行、逻辑推理以及知识密集型工作。简单来说，这些都是能让用户直观感受到模型“变得更为智能”的关键领域。

根据多家早期测试机构的反馈，Claude Opus 4.8给用户留下了“可靠性提升、判断力更为敏锐”的深刻印象。在处理复杂多步骤任务时，其判断更加稳健——不仅能够主动提出疑问，还能自行识别并纠正错误，甚至在计划不合理时提出质疑。这种自主纠偏的能力，在之前的模型版本中较为罕见。

一个非常直观的数据对比：与Opus 4.7相比，Opus 4.8在其生成的代码中遗留缺陷且未加说明的概率，大约下降了4倍。该模型更倾向于主动标注不确定性，缺乏依据的结论也显著减少。这意味着什么？模型已不再处于“埋头写代码、有错也不报告”的状态，而是开始学习以更透明的方式呈现其输出。

在对齐性能方面，Opus 4.8同样表现亮眼。它在支持用户自主性、按照用户最佳利益行动等亲社会指标上创下了新高。同时，欺骗等不匹配行为的发生率低于Opus 4.7，与Claude Mythos Preview版本的水平相近。可以说，该模型在“更顺从”与“更诚实”之间找到了一个良好的平衡点。

配套功能方面也有升级。claude.ai平台新增了effort（努力程度）控制选项，用户可以在更高质量输出与更快响应速度之间自由权衡。默认档位设置为high（高），在编码任务中，token消耗量与Opus 4.7的默认档接近，但生成效果更优。如果用户选择extra（额外）或max（最高，在Claude Code中对应xhigh）档位，模型将消耗更多token以换取更理想的结果——这相当于为用户提供了一个“性能拉满”的选项。

在基准测试方面，Anthropic公布的成绩相当出色：Opus 4.8在SWE-Bench Pro上取得了69.2%的分数，并在该测试以及其他多项基准中超越了GPT‑5.5和Gemini 3.1 Pro。不过，需要留意的是：在终端编程基准上，GPT‑5.5目前仍然保持领先。因此，“全面超越”的说法尚不成立，但至少在某些关键维度上，Anthropic确实迈出了追赶的一步。

性能与价格方面也进行了调整。Claude Opus 4.8的快速模式运行速度提升至原来的2.5倍，而成本则降低为此前模型的三分之一。具体定价方案如下：常规模式下，每100万输入令牌收费5美元、每100万输出令牌收费25美元；快速模式下，每100万输入令牌收费10美元、每100万输出令牌收费50美元。速度更快、成本更低，这显然是为了鼓励用户“多用、用得尽兴”。

来源：https://www.163.com/dy/article/KU31EVDI0511B8LM.html

Claude