Anthropic刚刚扔出了一枚重磅冲击波——Claude Sonnet 5正式发布。官方给出的定位很明确:这是迄今为止最具Agent属性的Sonnet模型。它能自主规划、使用浏览器和终端等工具,甚至以数月前只有更大、更贵的模型才能达到的水平独立运作。一句话总结,能力在往Opus级别靠,但价格却相对亲民。
从具体数据来看,Sonnet 5在推理、工具使用、编程和知识工作这四大Agent能力的关键维度上,相比上一代Sonnet 4.6实现了显著跃升,与Opus 4.8的差距已经大幅缩小。这意味着什么?对于开发者来说,Agent时代可能真的要从Sonnet这个级别开始正式启航了。

回顾一下历史:Claude Sonnet 3.5、3.6和3.7是最早在编程和工具使用上展现出亮眼能力的模型,但后来Agent能力的明显提升主要出现在Opus级模型上。而这一次,Sonnet 5明显把差距给抹平了。它的性能已经接近Opus 4.8,但成本更低。具体对比如下图所示:

从智能体搜索评测BrowseComp和计算机使用评测OSWorld‑Verified的表现来看,Sonnet 5(橙色线)相比Sonnet 4.6(灰色线)的性能提升是实打实的,覆盖的成本﹣性能选项范围甚至比Opus 4.8(黄色线)更广。在中等努力程度下,Sonnet 5显著提升了成本效率;在更高努力程度下,其性能在某些任务上可以媲美Opus 4.8。这就给了开发者一个灵活的空间:在Sonnet 5和Opus 4.8之间,可以根据具体任务的需求,找到最适合自己的成本与性能平衡点。

不同努力程度下的成本﹣性能曲线如上图所示。可以看到,此前的Sonnet 4.6远不及Opus 4.8,而Sonnet 5不仅提供了更广泛的选项,在某些情况下甚至能达到Opus 4.8的能力水平。定价方面,Sonnet 5的标准价格是输入$3/百万token、输出$15/百万token。不过Anthropic也推出了限时尝鲜价,直到8月31日,输入仅需$2/百万token、输出$10/百万token,实际成本比图中显示的还要低。对比之下,Opus 4.8的定价是输入$5/百万token、输出$25/百万token,差距一目了然。

来自早期访问合作伙伴的反馈也很有意思:他们一致认为Sonnet 5比前代模型更具自主Agent能力。测试者的描述很直观——它能完成那些让之前Sonnet模型半途而废的复杂任务,甚至会主动检查自己的输出,完全不需要你提前提示。注意,所有这一切都是在极具吸引力的价格下实现的:

安全评估
安全方面,Anthropic的部署前评估显示,Sonnet 5的整体安全性比Sonnet 4.6有所改善。在自主Agent的安全性上,模型在拒绝恶意请求和抵御提示注入攻击中的劫持尝试方面表现更优,幻觉率和谄媚行为率都有所下降。在覆盖广泛不当行为(如协助滥用和欺骗)的自动化行为审计中,Sonnet 5的失当行为率更低,也就是更安全。
不过,与能力更强的Opus 4.8和Claude Mythos Preview相比,失当行为率确实略高一些。这一点在后续使用时值得关注。

需要特别注意的一点:Anthropic并未刻意针对网络安全任务训练Sonnet 5。它可以执行一些常规、无害的网络任务,但在评估潜在危险网络技能(比如开发软件漏洞利用程序)时,它的表现明显不如Opus 4.8和Mythos 5。下图展示的就是针对Firefox 浏览器漏洞开发利用程序的测试结果:

图中清晰地显示:对于Firefox 147中的漏洞,两款Sonnet模型均未能成功开发出可利用程序(得分都是0.0%);Sonnet 5的部分成功率略高于Sonnet 4.6,但网络能力整体上显著弱于Opus 4.8和Mythos 5。因此,Anthropic为Sonnet 5默认启用了网络安全护栏,这些护栏与Claude Opus 4.7和4.8中的相同,能够实时检测并阻止危险的网络使用。完整的安全评估报告详见《Claude Sonnet 5 系统卡》。
定价
从今天起,Claude Sonnet 5已经在所有渠道正式上线。为了庆祝发布,Anthropic推出了限时优惠的首发价格:
- 即日起至2026年8月31日:输入$2/百万token,输出$10/百万token
- 之后恢复标准定价:输入$3/百万token,输出$15/百万token
与此同时,Anthropic还全面上调了Chat、Cowork、Claude Code以及Claude平台的速率限制,以适配更高“努力程度”模式带来的更大token消耗。
注意事项
网络安全验证方面,Sonnet 5已经纳入Anthropic的“网络安全验证计划”,目前已在Claude原生平台、AWS上的Claude平台、Microsoft Foundry中的Claude(托管于Azure和Anthropic)开放使用。Google Vertex上的Claude也将很快支持。已加入该计划的组织会自动获得访问权限,无需重新申请。如果你的网络安全工作需要更少的安全护栏限制,Anthropic推荐使用Claude Opus 4.8。
值得一提的是,Sonnet 5采用了全新的tokenizer,以优化文本处理性能。这意味着相同输入内容会被映射为更多token,增幅约为1.0~1.35倍,视内容类型而定。为了帮助用户顺利过渡,Anthropic设定的尝鲜价正是为了让整体使用成本大致保持不变。

开发者上手反馈
发布之后,开发者们的反馈也很有意思。网友Nicolas Bustamante特别提到了Sonnet 5的速度和Agent优化,尤其是浏览器使用“又快,又安全”。根据系统卡的数据,浏览器使用场景下的提示注入攻击成功率,Sonnet 5只有0.93%,而Opus 4.8是31.5%,Sonnet 4.6更是高达50.7%,这个差距相当惊人。

当然,也有网友直言“太贵了”。据Artificial Analysis的分析,在Intelligence Index上,Claude Sonnet 5的运行成本为每项任务2.29美元,相比Sonnet 4.6增加约2倍,也比Claude Opus 4.8高出约15%。这一成本上升完全由token使用量增加所驱动,使Claude Sonnet 5成为运行成本最高的模型之一,仅次于Claude Fable 5。那么问题来了——在性能和成本之间,你打算怎么选?

