游乐游手机版
首页/AI教程/文章详情

Claude Sonnet 5发布Opus级能力Sonnet价格

时间:2026-07-03 15:54
Anthropic发布ClaudeSonnet5,具备接近Opus4 8的自主任务能力,价格与Sonnet持平。新模型在推理、工具使用和编码上显著提升,能独立完成多步任务并自我检查。介绍价每百万输入2美元、输出10美元,新分词器使token消耗增加,成本大致持平。安全性能整体优于前代。

Anthropic 于昨日正式发布 Claude Sonnet 5。一句话总结核心亮点:它将接近 Opus 4.8 的自主智能体能力,成功下探至 Sonnet 的定价区间。目前该模型已成为 Free 和 Pro 套餐的默认选项,并且在 Claude Code 中直接可用。

我系统梳理了一遍官方公告,下面为大家讲清楚「它的强项在哪、价格是否划算、日常使用是否值得升级」。涉及数据部分,仅引用官方明确披露的信息,具体的基准测试精确分数请以系统卡为准。

一、它的核心优势在于:能够自主完成复杂任务

官方将 Sonnet 5 定位为「迄今为止智能体能力最强的 Sonnet」——它具备制定计划、调用工具(如浏览器、终端)的能力,能够独立完成以往只有更大、更昂贵模型才能胜任的工作。

与前代 Sonnet 4.6 相比,它在推理能力、工具调用、代码编写以及知识工作等多个维度均有显著提升。更关键的是二者之间的「能力差距」:它的综合表现已接近 Opus 4.8,但成本却大幅降低。

来自早期合作方的反馈高度一致,均指向同一个结论——它能独立地把任务执行到底,而不会半途停滞。以下是几个具体的应用场景:

  • 当要求它检查一个 Bug 时,它主动编写了复现测试、实现了修复方案,并将改动暂存后再次确认 Bug 能够复现,整套流程一次完成,无需额外指导。
  • 面对一批具有实际难度的拉取请求,它逐一推进至「测试通过、验证完毕」的状态,工程师只需最终签字确认即可。
  • 在存在竞态条件、隐藏测试以及他人避之不及的陈旧老代码中,它的表现尤为出色,能够将失败追溯到真正根因,提供持久可用的修复方案,而非临时掩盖症状。

将这些描述串联起来,反映出一个共同的变化趋势:它更善于按照既定计划推进,并自行检查输出结果,不再需要你一步步跟进监督。

二、价格方面:看似便宜,但有注意事项

发布期间的优惠价格为:每百万输入 Token 2 美元、输出 10 美元,有效期至 2026 年 8 月 31 日。之后将恢复标准定价:输入 3 美元、输出 15 美元。

表面上看比 Opus 便宜很多。但有一个重要细节必须说明:Sonnet 5 采用了新的分词器(与 Opus 4.7 类似)。同样的内容会被分割成更多 Token,数量约为原来的 1.0 到 1.35 倍,具体取决于内容类型。

官方将发布价设定得刚好抵消这一变化,表示从 4.6 迁移到 5 的过渡「大概成本持平」。因此,不要将「单价降低」简单理解为「花费减半」——虽然单价确实下降了,但每次调用消耗的 Token 数却增加了,两者相互抵消后,日常使用成本更接近持平状态,而非腰斩。这个逻辑需要心里有数。

三、Sonnet 5 与 Opus 4.8,应如何选择

Sonnet 5 支持调整 effort(努力程度)档位。官方给出的说明是:它所覆盖的成本-性能范围比 Opus 4.8 更宽泛。

  • 中等 effort 模式:性价比突出,适合绝大多数日常任务。
  • 高 effort 模式:在某些任务上能够达到 Opus 4.8 的水准。

这意味着,过去你可能为了确保任务能够顺利完成而直接选择 Opus,现在许多场景都可以用 Sonnet 5 并调高 effort 档位来顶替,成本更易掌控。只有遇到真正需要顶级推理能力的硬骨头任务,再考虑使用 Opus。这确实是一个可以节省成本的有效选择点。

四、对日常编程来说意味着什么

Sonnet 5 已是 Free 和 Pro 套餐的默认模型,同时已接入 Claude Code 和 Claude Platform,API 名称即为 claude-sonnet-5

对于日常独立编程的用户而言,最实际的变化在于:默认模型直接提升了一个档次。你无需特意切换模型,那些多步骤的日常工作——比如修改一个跨文件的功能、追溯一个 Bug 的根源、完成一轮 Pull Request 审查——主力模型就能够更稳妥地完成。以往那种动不动就想用 Opus 的场景,将会明显减少。

五、不可忽略的:安全性能与几项诚实标注

在官方的安全评估中,Sonnet 5 整体表现优于 4.6:它更擅长拒绝恶意请求、更能抵御 Prompt 注入劫持,幻觉与谄媚现象也有所降低。这些对智能体应用场景而言是实实在在的加分项。

但也有一些需要明确指出的方面:

  • 在自动化行为审计中,它的「错位行为」发生率低于 4.6,但高于能力更强的 Opus 4.8 和 Mythos。
  • 它的网络安全能力被官方评为明显低于 Opus(这其实是好事),但由于比 4.6 略强,因此默认开启了实时网络安全防护(与 Opus 4.7/4.8 同款)。

更完整的评估内容可查阅官方发布的 Claude Sonnet 5 System Card,具体基准测试分数请以该文档为准。

总结

此次发布真正的意义,并非某个基准测试提升了几个百分点,而在于智能体能力的下沉——那种「能够自主完成多步任务,并在完成后自我检查」的能力,正从最昂贵的旗舰版本,逐步普及到你每天都在使用的主力模型上。

对于绝大多数用户而言,日常工作中主力模型已经足够。把 Opus 留给真正棘手的场景,让 Sonnet 5 搞定绝大部分任务。

参考来源:Anthropic 官方公告 anthropic.com/news/claude-sonnet-5(含 System Card)。

来源:https://juejin.cn/post/7657433456432562217
上一篇图像生成器取代识别成为通用视觉学习者进入世界模型时代 下一篇大白话解析Transformer的Attention机制
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
批处理BAT入门教程第一篇
AI教程 · 2026-07-03

批处理BAT入门教程第一篇

提供13个批处理实战技巧,覆盖全盘查找并删除文件夹或文件、拷贝移动文件、创建畸形文件夹及设置隐藏属性等场景,可一键完成系统维护与文件管理工作,极大提升自动化操作效率和便捷性。

从零开始批处理命令For循环详解与实战案例
AI教程 · 2026-07-03

从零开始批处理命令For循环详解与实战案例

批处理For命令支持 d、 l、 r、 f四个参数。 d仅列出当前目录下的目录名; r递归搜索指定路径及其子目录中的文件; l生成数值序列; f可解析文件、字符串或命令输出,通过delims、tokens、skip、eol等选项灵活处理内容。

批评你的人是你生命中的贵人
AI教程 · 2026-07-03

批评你的人是你生命中的贵人

批评你的人往往最值得珍惜,因为他们关注你、助你成长。面对批评应包容反思,用行动改进而非辩解。接受批评是自我完善的过程,能让人少走弯路,避免重复犯错。这样的人正是生命中的贵人,值得感恩与珍惜。

测试人员角色定位与职责详解
AI教程 · 2026-07-03

测试人员角色定位与职责详解

测试人员角色经历了从找问题、保证质量到分析风险的转变,最终核心职责是提供关键信息,协助团队创造优秀产品。这包括识别问题、评估风险及帮助团队了解项目状态,而非单纯把关或追求完美。

经营成功测试生涯的实用方法与策略
AI教程 · 2026-07-03

经营成功测试生涯的实用方法与策略

一、测试生涯的起点 1989年,我在田纳西大学攻读研究生时,意外地从软件开发人员转行成为一名软件测试工程师。这并非我主动选择,说起来还有些戏剧性——某个早晨,教授质问我为何缺席那么多开发会议,我解释说这些会议总是安排在周末早上,对我这个第一次离家、刚入学的学生来说实在不便。结果呢?等待我的不是解聘通