Anthropic 于昨日正式发布 Claude Sonnet 5。一句话总结核心亮点:它将接近 Opus 4.8 的自主智能体能力,成功下探至 Sonnet 的定价区间。目前该模型已成为 Free 和 Pro 套餐的默认选项,并且在 Claude Code 中直接可用。
我系统梳理了一遍官方公告,下面为大家讲清楚「它的强项在哪、价格是否划算、日常使用是否值得升级」。涉及数据部分,仅引用官方明确披露的信息,具体的基准测试精确分数请以系统卡为准。
一、它的核心优势在于:能够自主完成复杂任务
官方将 Sonnet 5 定位为「迄今为止智能体能力最强的 Sonnet」——它具备制定计划、调用工具(如浏览器、终端)的能力,能够独立完成以往只有更大、更昂贵模型才能胜任的工作。
与前代 Sonnet 4.6 相比,它在推理能力、工具调用、代码编写以及知识工作等多个维度均有显著提升。更关键的是二者之间的「能力差距」:它的综合表现已接近 Opus 4.8,但成本却大幅降低。
来自早期合作方的反馈高度一致,均指向同一个结论——它能独立地把任务执行到底,而不会半途停滞。以下是几个具体的应用场景:
- 当要求它检查一个 Bug 时,它主动编写了复现测试、实现了修复方案,并将改动暂存后再次确认 Bug 能够复现,整套流程一次完成,无需额外指导。
- 面对一批具有实际难度的拉取请求,它逐一推进至「测试通过、验证完毕」的状态,工程师只需最终签字确认即可。
- 在存在竞态条件、隐藏测试以及他人避之不及的陈旧老代码中,它的表现尤为出色,能够将失败追溯到真正根因,提供持久可用的修复方案,而非临时掩盖症状。
将这些描述串联起来,反映出一个共同的变化趋势:它更善于按照既定计划推进,并自行检查输出结果,不再需要你一步步跟进监督。
二、价格方面:看似便宜,但有注意事项
发布期间的优惠价格为:每百万输入 Token 2 美元、输出 10 美元,有效期至 2026 年 8 月 31 日。之后将恢复标准定价:输入 3 美元、输出 15 美元。
表面上看比 Opus 便宜很多。但有一个重要细节必须说明:Sonnet 5 采用了新的分词器(与 Opus 4.7 类似)。同样的内容会被分割成更多 Token,数量约为原来的 1.0 到 1.35 倍,具体取决于内容类型。
官方将发布价设定得刚好抵消这一变化,表示从 4.6 迁移到 5 的过渡「大概成本持平」。因此,不要将「单价降低」简单理解为「花费减半」——虽然单价确实下降了,但每次调用消耗的 Token 数却增加了,两者相互抵消后,日常使用成本更接近持平状态,而非腰斩。这个逻辑需要心里有数。
三、Sonnet 5 与 Opus 4.8,应如何选择
Sonnet 5 支持调整 effort(努力程度)档位。官方给出的说明是:它所覆盖的成本-性能范围比 Opus 4.8 更宽泛。
- 中等 effort 模式:性价比突出,适合绝大多数日常任务。
- 高 effort 模式:在某些任务上能够达到 Opus 4.8 的水准。
这意味着,过去你可能为了确保任务能够顺利完成而直接选择 Opus,现在许多场景都可以用 Sonnet 5 并调高 effort 档位来顶替,成本更易掌控。只有遇到真正需要顶级推理能力的硬骨头任务,再考虑使用 Opus。这确实是一个可以节省成本的有效选择点。
四、对日常编程来说意味着什么
Sonnet 5 已是 Free 和 Pro 套餐的默认模型,同时已接入 Claude Code 和 Claude Platform,API 名称即为 claude-sonnet-5。
对于日常独立编程的用户而言,最实际的变化在于:默认模型直接提升了一个档次。你无需特意切换模型,那些多步骤的日常工作——比如修改一个跨文件的功能、追溯一个 Bug 的根源、完成一轮 Pull Request 审查——主力模型就能够更稳妥地完成。以往那种动不动就想用 Opus 的场景,将会明显减少。
五、不可忽略的:安全性能与几项诚实标注
在官方的安全评估中,Sonnet 5 整体表现优于 4.6:它更擅长拒绝恶意请求、更能抵御 Prompt 注入劫持,幻觉与谄媚现象也有所降低。这些对智能体应用场景而言是实实在在的加分项。
但也有一些需要明确指出的方面:
- 在自动化行为审计中,它的「错位行为」发生率低于 4.6,但高于能力更强的 Opus 4.8 和 Mythos。
- 它的网络安全能力被官方评为明显低于 Opus(这其实是好事),但由于比 4.6 略强,因此默认开启了实时网络安全防护(与 Opus 4.7/4.8 同款)。
更完整的评估内容可查阅官方发布的 Claude Sonnet 5 System Card,具体基准测试分数请以该文档为准。
总结
此次发布真正的意义,并非某个基准测试提升了几个百分点,而在于智能体能力的下沉——那种「能够自主完成多步任务,并在完成后自我检查」的能力,正从最昂贵的旗舰版本,逐步普及到你每天都在使用的主力模型上。
对于绝大多数用户而言,日常工作中主力模型已经足够。把 Opus 留给真正棘手的场景,让 Sonnet 5 搞定绝大部分任务。
参考来源:Anthropic 官方公告 anthropic.com/news/claude-sonnet-5(含 System Card)。
