Claude Sonnet 5发布Opus级能力Sonnet价格

时间：2026-07-03 15:54

Anthropic发布ClaudeSonnet5，具备接近Opus4 8的自主任务能力，价格与Sonnet持平。新模型在推理、工具使用和编码上显著提升，能独立完成多步任务并自我检查。介绍价每百万输入2美元、输出10美元，新分词器使token消耗增加，成本大致持平。安全性能整体优于前代。

Anthropic 于昨日正式发布 Claude Sonnet 5。一句话总结核心亮点：它将接近 Opus 4.8 的自主智能体能力，成功下探至 Sonnet 的定价区间。目前该模型已成为 Free 和 Pro 套餐的默认选项，并且在 Claude Code 中直接可用。

我系统梳理了一遍官方公告，下面为大家讲清楚「它的强项在哪、价格是否划算、日常使用是否值得升级」。涉及数据部分，仅引用官方明确披露的信息，具体的基准测试精确分数请以系统卡为准。

一、它的核心优势在于：能够自主完成复杂任务

官方将 Sonnet 5 定位为「迄今为止智能体能力最强的 Sonnet」——它具备制定计划、调用工具（如浏览器、终端）的能力，能够独立完成以往只有更大、更昂贵模型才能胜任的工作。

与前代 Sonnet 4.6 相比，它在推理能力、工具调用、代码编写以及知识工作等多个维度均有显著提升。更关键的是二者之间的「能力差距」：它的综合表现已接近 Opus 4.8，但成本却大幅降低。

来自早期合作方的反馈高度一致，均指向同一个结论——它能独立地把任务执行到底，而不会半途停滞。以下是几个具体的应用场景：

当要求它检查一个 Bug 时，它主动编写了复现测试、实现了修复方案，并将改动暂存后再次确认 Bug 能够复现，整套流程一次完成，无需额外指导。
面对一批具有实际难度的拉取请求，它逐一推进至「测试通过、验证完毕」的状态，工程师只需最终签字确认即可。
在存在竞态条件、隐藏测试以及他人避之不及的陈旧老代码中，它的表现尤为出色，能够将失败追溯到真正根因，提供持久可用的修复方案，而非临时掩盖症状。

将这些描述串联起来，反映出一个共同的变化趋势：它更善于按照既定计划推进，并自行检查输出结果，不再需要你一步步跟进监督。

二、价格方面：看似便宜，但有注意事项

发布期间的优惠价格为：每百万输入 Token 2 美元、输出 10 美元，有效期至 2026 年 8 月 31 日。之后将恢复标准定价：输入 3 美元、输出 15 美元。

表面上看比 Opus 便宜很多。但有一个重要细节必须说明：Sonnet 5 采用了新的分词器（与 Opus 4.7 类似）。同样的内容会被分割成更多 Token，数量约为原来的 1.0 到 1.35 倍，具体取决于内容类型。

官方将发布价设定得刚好抵消这一变化，表示从 4.6 迁移到 5 的过渡「大概成本持平」。因此，不要将「单价降低」简单理解为「花费减半」——虽然单价确实下降了，但每次调用消耗的 Token 数却增加了，两者相互抵消后，日常使用成本更接近持平状态，而非腰斩。这个逻辑需要心里有数。

三、Sonnet 5 与 Opus 4.8，应如何选择

Sonnet 5 支持调整 effort（努力程度）档位。官方给出的说明是：它所覆盖的成本-性能范围比 Opus 4.8 更宽泛。

中等 effort 模式：性价比突出，适合绝大多数日常任务。
高 effort 模式：在某些任务上能够达到 Opus 4.8 的水准。

这意味着，过去你可能为了确保任务能够顺利完成而直接选择 Opus，现在许多场景都可以用 Sonnet 5 并调高 effort 档位来顶替，成本更易掌控。只有遇到真正需要顶级推理能力的硬骨头任务，再考虑使用 Opus。这确实是一个可以节省成本的有效选择点。

四、对日常编程来说意味着什么

Sonnet 5 已是 Free 和 Pro 套餐的默认模型，同时已接入 Claude Code 和 Claude Platform，API 名称即为 claude-sonnet-5。

对于日常独立编程的用户而言，最实际的变化在于：默认模型直接提升了一个档次。你无需特意切换模型，那些多步骤的日常工作——比如修改一个跨文件的功能、追溯一个 Bug 的根源、完成一轮 Pull Request 审查——主力模型就能够更稳妥地完成。以往那种动不动就想用 Opus 的场景，将会明显减少。

五、不可忽略的：安全性能与几项诚实标注

在官方的安全评估中，Sonnet 5 整体表现优于 4.6：它更擅长拒绝恶意请求、更能抵御 Prompt 注入劫持，幻觉与谄媚现象也有所降低。这些对智能体应用场景而言是实实在在的加分项。

但也有一些需要明确指出的方面：

在自动化行为审计中，它的「错位行为」发生率低于 4.6，但高于能力更强的 Opus 4.8 和 Mythos。
它的网络安全能力被官方评为明显低于 Opus（这其实是好事），但由于比 4.6 略强，因此默认开启了实时网络安全防护（与 Opus 4.7/4.8 同款）。

更完整的评估内容可查阅官方发布的 Claude Sonnet 5 System Card，具体基准测试分数请以该文档为准。

总结

此次发布真正的意义，并非某个基准测试提升了几个百分点，而在于智能体能力的下沉——那种「能够自主完成多步任务，并在完成后自我检查」的能力，正从最昂贵的旗舰版本，逐步普及到你每天都在使用的主力模型上。

对于绝大多数用户而言，日常工作中主力模型已经足够。把 Opus 留给真正棘手的场景，让 Sonnet 5 搞定绝大部分任务。

参考来源：Anthropic 官方公告 anthropic.com/news/claude-sonnet-5（含 System Card）。

来源：https://juejin.cn/post/7657433456432562217

Claude

上一篇图像生成器取代识别成为通用视觉学习者进入世界模型时代 下一篇大白话解析Transformer的Attention机制

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-07-03

批处理BAT入门教程第一篇

提供13个批处理实战技巧，覆盖全盘查找并删除文件夹或文件、拷贝移动文件、创建畸形文件夹及设置隐藏属性等场景，可一键完成系统维护与文件管理工作，极大提升自动化操作效率和便捷性。

AI教程 · 2026-07-03

从零开始批处理命令For循环详解与实战案例

批处理For命令支持 d、 l、 r、 f四个参数。 d仅列出当前目录下的目录名； r递归搜索指定路径及其子目录中的文件； l生成数值序列； f可解析文件、字符串或命令输出，通过delims、tokens、skip、eol等选项灵活处理内容。

AI教程 · 2026-07-03

批评你的人是你生命中的贵人

批评你的人往往最值得珍惜，因为他们关注你、助你成长。面对批评应包容反思，用行动改进而非辩解。接受批评是自我完善的过程，能让人少走弯路，避免重复犯错。这样的人正是生命中的贵人，值得感恩与珍惜。

AI教程 · 2026-07-03

测试人员角色定位与职责详解

测试人员角色经历了从找问题、保证质量到分析风险的转变，最终核心职责是提供关键信息，协助团队创造优秀产品。这包括识别问题、评估风险及帮助团队了解项目状态，而非单纯把关或追求完美。

AI教程 · 2026-07-03

经营成功测试生涯的实用方法与策略

一、测试生涯的起点 1989年，我在田纳西大学攻读研究生时，意外地从软件开发人员转行成为一名软件测试工程师。这并非我主动选择，说起来还有些戏剧性——某个早晨，教授质问我为何缺席那么多开发会议，我解释说这些会议总是安排在周末早上，对我这个第一次离家、刚入学的学生来说实在不便。结果呢？等待我的不是解聘通