还在担心Anthropic账号状态?Claude全新Sonnet 5模型正式发布。经过快速实测,性能表现确实令人惊喜。
业内近期热议Opus 4.8“降智”现象,现在看来背后原因明确——Anthropic已将资源全面倾斜给Sonnet 5,全力扶持新模型。
仔细研读官方博客后,结论非常明确:Sonnet 5主打“高性价比”定位,旨在成为日常办公与创作的最佳AI助手。
先说物美
对于正在使用Sonnet 4.6的用户而言,本次升级堪称跨代飞跃。Sonnet 5在逻辑推理、工具调用、代码编写及知识处理等维度均有显著提升,各项指标几乎全面对标Opus 4.8。
可以这样理解:Sonnet 5是一款全能型模型——编程、智能体开发、知识处理,每项能力均有肉眼可见的飞跃。其中智能体编程能力提升尤为突出,知识工作表现甚至已超越Opus 4.8。
除了基准指标的大幅提升,标准配置依然保留100万token上下文窗口。思考模式从原先的扩展式调整为自适应式,旨在更高效地处理复杂长文本任务。测试结果显示,Sonnet 5与Sonnet 4.6最核心的区别在于:“能完成”与“无法完成”的边界线被显著拓宽。许多此前Sonnet 4.6直接放弃的任务,如今Sonnet 5都能顺利搞定。
再说价廉
物美是一方面,价廉则是另一大亮点。坦白说,对于习惯了国内模型低价策略的用户而言,强调Claude的性价比似乎有些违和。但横向对比海外顶级模型,Sonnet 5的定价策略确实极具竞争力。
| 模型 | 输入 | 缓存输入 | 输出 | 备注 |
|---|---|---|---|---|
| Claude Sonnet 5 | $2 | $0.20 | $10 | 2026年8月31日前享受优惠价格 |
| Claude Sonnet 5 | $3 | $0.30 | $15 | 2026年9月1日起价格调整 |
| Claude Opus 4.8 | $5 | $0.50 | $25 | Anthropic高端旗舰定位 |
| GPT-5.5 | $5 | $0.50 | $30 | 短上下文价格 |
| GPT-5.5 长上下文 | $10 | $1.00 | $45 | OpenAI单独长上下文档 |
| Gemini 3.1 Pro Preview ≤200k | $2 | $0.20 | $12 | 标准档 |
| Gemini 3.1 Pro Preview >200k | $4 | $0.40 | $18 | 超过200k输入后涨价 |
对照表格可见:Opus 4.8输入价格为5美元、输出25美元;Sonnet 5输入3美元、输出15美元,优惠期间更降至2美元和10美元。在海外顶级模型阵营中,这一价格水平确实是最低的。
与国内模型相比自然仍偏贵,但考虑到其能力接近Opus 4.8,价格却仅为其六折左右——这种性价比极具吸引力。
所有人都能用
相比某些平台时而上线、时而封禁、时而要求认证的反复操作,Sonnet 5的发布可谓干脆利落——全平台同步推送,手机、电脑、网页端即刻可用。无论是Pro付费用户还是免费用户,均可立即体验。
当然,前提是您的Anthropic账号依然有效且可正常使用。
做个小测试
测试项目众多,但考虑到时间与token消耗,本次仅选取了一个极具代表性的挑战:“天文机械表”。
这道题难度颇高,全面考验模型的综合能力。近期我们用该题目测试了多款模型,国产模型几乎全军覆没,无一能完整实现所有功能。此前仅有Opus 4.8接近满分。
完整题目如下:
用单个 HTML 文件实现一只机械腕表风格的天文时钟,纯原生实现,不许使用任何库、框架或 CDN。要求:1. 主表盘读取本地系统时间,秒针平滑扫秒,使用 requestAnimationFrame 驱动,且长时间运行不得累积漂移;切到其他标签页再切回来时,指针必须立即校准到正确时间。2. 包含一个月相小表盘,根据当前日期计算并显示月相连续变化,公式需要自行实现,精度要求误差控制在 1 天内。3. 包含一个可用的计时码表,通过子表盘指针显示,支持开始、暂停、继续、归零与计圈(lap),按钮在任意顺序点击都不能出现状态错误。4. 日期窗显示当前日期,正确处理大小月与闰年。5. 包含昼夜 / 日出日落指示,用户可在三到四个预设城市之间切换,并根据经纬度现场计算当地日出日落时刻。6. 页面需要响应式,并尊重 prefers-reduced-motion:开启时秒针改为跳秒并关闭装饰动画;同时为各表盘补充 ARIA 标注。7. 整体视觉要像一只真实的高级腕表,而不是普通练习作业。只输出最终代码,不要解释。
测试说明:
这是一个面向前沿模型的**长规格前端综合题**。与普通模拟时钟不同,它故意把数学推导、动画工程、状态机正确性、无障碍适配与高级审美堆叠在同一题中,观察模型是否会在实现过程中静默漏需求。题目的核心目标不是“做一个能转的表盘”,而是要求模型在**闭卷推导**与**高约束实现**之间保持稳定。月相算法、日出日落计算、后台切回后的时间校准,以及计时码表的开始 / 暂停 / 继续 / 归零 / 计圈边界行为,都是高频失分点。工程要求:主表盘必须使用 **requestAnimationFrame** 驱动平滑扫秒,不能依赖会累积漂移的定时器;切换后台标签页后,返回前台时指针必须立即与系统时间重新对齐。设计要求:页面必须保持单文件、纯原生、响应式,同时尊重 **prefers-reduced-motion**,为关键表盘与控件补齐 ARIA 标注,并在整体视觉上呈现出真实机械天文腕表的精致感,而不是普通练习作业。
我们在Claude桌面版Chat功能中直接测试。思考强度设为中等(Medium),其上还有High、Extra、Max三个更高档位。
测试结果如下:
几乎再次全对。时钟显示正常,地区切换联动正常,秒表的开始、暂停、重置、计圈功能全部正常。月相显示也应正确——当前月亮几乎完全被照亮,俗话说十五的月亮十六圆,现在刚过十七。
Sonnet 5在此题目上的表现与Opus 4.8几乎持平。而且本次仅使用了中档思考强度,此前测试Opus 4.8时用的是高档。事实证明,对于这类复杂任务,Claude最新系列在中档强度下即可胜任。除Claude外,其他模型几乎无法全部正确完成该题目。
Sonnet 5拥有如此强大的思维能力,复杂编程不在话下,日常办公自然游刃有余。再配合Cowork协作功能,几乎构成了一套完整的智能办公解决方案。
目前市面上各类Work工具层出不穷,但核心仍在于底层模型与Harness的调校。从这一维度看,Claude无疑是该领域的鼻祖级存在。
总结而言:Sonnet 5已成为Claude系列中性价比最高、最适配日常工作的模型,完全能够胜任编程任务。真正智能的标志是什么?是面对从未见过的题目,依然能正确解答。当前多数模型仅擅长应试,而Claude系列确实展现出了真正的智能。
