Anthropic Sonnet 3.5发布：性能提升4.6%，超越自家Opus成新晋主力

时间：2026-02-19 10:52

作者｜周一笑邮箱｜ zhouyixiao@pingwest com在最近的模型混战中，不只是中国厂商们在卷，Anthropic也在半个月连续发布了两款模型。而其中，最近发布的Sonnet

作者｜周一笑
邮箱｜ zhouyixiao@pingwest.com

在最近的模型混战中，不只是中国厂商们在卷，Anthropic也在半个月连续发布了两款模型。而其中，最近发布的Sonnet 4.6有些特殊，它不是旗舰，却在多个维度追平甚至超过了旗舰。看起来它用Opus 1/3的价格，就追上了它99%的性能。

在这个各家模型都要干掉Opus的时刻，它自己用性价比款的Sonnet“干掉”Opus，给各位演示了一下，什么才是最卷的模型。

而且，这款模型非常值得关注的地方是，它让AI操作电脑这件事第一次接近了“真的能用”的临界点。而恰好在同一个月，一个叫OpenClaw的开源项目用17万GitHub星标证明了一件事，人手一个的，能替自己干活的AI Agent，可能成为一个新的趋势。Sonnet 4.6是模型，OpenClaw是框架，但它们指向同一个方向。

便宜的再一次打赢了贵的

在Anthropic的产品线中，Opus是最强最贵的旗舰，Sonnet是平衡性能和成本的中端款，Haiku是最快最便宜的轻量款。长期以来，Sonnet的角色是“性价比之选”，干不了最难的活但胜在便宜。Sonnet 4.6打破了这个格局。

编码方面，它在SWE-bench Verified上得分79.6%，逼近Opus 4.6的80.8%。Claude Code的内部测试中，用户70%的时间更偏好Sonnet 4.6（对比Sonnet 4.5），甚至有59%的时间比去年11月发布的旗舰Opus 4.5更受欢迎。用户反馈集中在几个方面，“更少过度工程”“更少偷懒”“指令遵循明显更好”，以及更少出现“明明没干完却说干完了”的情况。

办公任务是更大的惊喜。在GDPval-AA这个衡量真实办公场景的评测中，Sonnet 4.6拿到1633 Elo，直接超过了Opus 4.6的1606。便宜的在实际工作场景中打赢了贵的。类似的事正在行业里反复发生，Google的Gemini 3 Flash也在逼近Pro的表现，DeepSeek用远低于美国公司的成本训练出竞争力相当的模型。“低端逆袭高端”已经不再是新闻，而是2026年AI行业的结构性趋势。

不过独立AI评测机构Artificial Analysis注意到了一个有意思的细节，Sonnet 4.6在GDPval-AA上使用的token数量是Sonnet 4.5的约4.5倍。AI媒体Latent Space据此指出，某些任务的总成本可能比Opus还高。这和价格表上的数字讲的是两个故事。

软件工程师、AI技术博主Joe Njenga在Medium上第一时间做了测试，他的感受是，“发布才几天，但Sonnet 4.6已经感觉比Opus更好用了。”Cosmic平台做了一个控制实验，用完全相同的一句话提示词让4.5和4.6各生成一个博客应用，结论是4.6在设计品味和代码架构上有质的提升，“需要更少的手把手指导”。编程工具Kilo Code直接把Sonnet 4.6设为默认推荐模型。当然也有负面声音，发布当天就有用户报告了函数名幻觉的问题。

价格跟上一代Sonnet 4.5完全一样，每百万输入token 3美元，输出token 15美元。同时它成了Free和Pro用户的默认模型，免费用户还新增了文件创建、skills等功能。但正如上面提到的，“同样的钱买到更强的模型”不等于“用AI更便宜了”。Extended thinking的token按输出价格计费，超过200K的长上下文有额外溢价，而Agent场景下动辄成千上万次工具调用，实际使用成本可能反而在增加。

16个月，Computer Use从玩具变工具

Sonnet 4.6还有一个值得单独拿出来说的进步，就是Computer Use，也就是AI操作电脑的能力。

2024年10月，Anthropic是第一个推出通用计算机操作AI的公司。当时他们自己都承认这个功能“还很实验性，有时笨拙且容易出错”，发布时搭载的Claude 3.5 Sonnet在OSWorld评测上只拿到14.9%。能做的事很有限，移动鼠标、点击按钮、输入文字，基本是个勉强能用的遥控器。

之后的每一代Sonnet都在这个维度上进步。到了2025年9月的Sonnet 4.5，成绩已经大幅提升。但Sonnet 4.6才是真正让这项能力从“技术demo”走向“可用工具”的节点。在OSWorld-Verified上，它拿到72.5%，几乎追平Opus 4.6的72.7%，比16个月前的起点提升了近5倍。

数字背后对应的是质的变化。早期用户报告说，Sonnet 4.6在操作复杂电子表格、填写多步骤网页表单方面已接近人类水平，而且能跨多个浏览器标签页协同完成任务。在保险行业的基准测试中，Computer Use拿到94%的准确率，是他们测试过的所有模型中最高的。更关键的一个改进是可靠性，在他们内部的浏览器自动化场景中，Sonnet 4.6产生的幻觉链接数量为零，而此前的版本大约三个链接中就有一个是假的。

Claude Sonnet 在 OSWorld 基准上的得分持续提升。

这意味着什么？几乎每家企业都有一些“前API时代”遗留下来的老旧系统，没有现代接口，无法自动化。以前要让AI操作这些软件，就得给每个系统写专门的连接器。而一个能像人一样使用电脑的模型，直接改变了这个等式。科技圈评论者Trung Phan调侃说，Anthropic的demo演示了Claude帮人在DMV 上续车牌的过程，“但AI还是没法修好DMV本身。”

当人人都有一个JARVIS

Computer Use让模型能操作电脑，但要变成一个真正帮人干活的AI助手，还需要一层编排框架把模型和现实世界的工具连接起来。这正是过去两个月AI行业最火热的战场。

2月份最热门的AI项目不是某个大模型，而是OpenClaw。它原名Clawdbot（名字来自Claude和龙虾钳的双关，后因Anthropic商标投诉两度改名），由奥地利开发者Peter Steinberger从一个WhatsApp机器人做起，几个月内暴涨到17.9万GitHub星标。OpenClaw能常驻在用户的电脑后台，通过WhatsApp、Slack、iMessage接收指令，帮你管邮件、排日程、订机票、跑脚本，是目前最接近“钢铁侠里的J.A.R.V.I.S.”的有着消费级的愿景和使用场景的产品。IBM研究员Kaoutar El Maghraoui的评价是，OpenClaw证明了自主AI Agent“不限于大企业，可以是社区驱动的”。

OpenClaw火爆的原因，不只是它本身做得好，更因为它戳中了一个被压抑已久的需求。过去一年，AI聊天机器人已经证明了自己在回答问题和生成内容上的能力，但用户真正想要的是一个能替自己“做事”的助手，不只是聊天，而是能操作软件、执行任务、跨应用协调。OpenClaw让这个需求第一次有了一个具体的、可以跑起来的产品形态。

但OpenClaw也暴露了个人AI Agent面临的核心矛盾。安全研究人员发现超过13.5万个暴露在公网上的实例；Cisco检测了其技能市场排名第一的插件，发现能悄悄将用户数据发送到攻击者服务器。Andrej Karpathy最初称基于OpenClaw开发的Moltbook是“我见过的最科幻的东西”，几天后说“不建议任何人在自己的电脑上运行它”。一个足够有用的AI Agent必须拥有足够大的权限，而足够大的权限天然带来足够大的风险。这个矛盾目前没有人真正解决。

更值得关注的是OpenClaw对AI行业商业格局的潜在冲击。OpenClaw是模型无关的，它能跑Claude，也能跑ChatGPT，也能跑开源的Minimax和Kimi。当Agent框架层成为用户接触AI的主要入口，底层模型就有被“商品化”的风险，就像Android让手机硬件品牌竞争变得残酷一样。有评论者已经在问，“OpenClaw会不会成为AI时代的Android？”

2月15日，Peter Steinberger加入了OpenAI，Altman亲口说“the future is going to be extremely multi-agent”（未来一定是极度多Agent的）。OpenClaw转型为基金会项目，但它引发的这场关于“谁拥有Agent层”的争夺才刚开始。

这也是理解Sonnet 4.6的另一把钥匙。Anthropic的应对策略不是等着被别人的Agent框架调用，而是把Agent能力直接做进模型里。Computer Use、Claude Code、Cowork，都是在构建一个“模型+工具链”的捆绑生态。Sonnet 4.6把这些能力下放到中端价格，本质上是在说，你不需要一个第三方框架来让AI替你干活，用Claude就行。

当然，能力越强意味着风险也越集中。Anthropic在system card中坦承，Sonnet 4.6在GUI操作场景中表现出“过度主动”的行为，比如未经授权发送邮件、过于激进地获取token，而且这种行为无法通过提示词完全避免。独立评测机构Andon Labs在Vending-Bench测试中发现，Sonnet 4.6展现出与Opus 4.6类似的战略复杂度，包括自发的价格操纵和对竞争对手的欺骗行为。他们的评价是，“几乎一样令人印象深刻，也几乎一样令人担忧，而且只要三分之一的价格。”

Anthropic路线

把视角拉回Anthropic本身，Sonnet 4.6只是它2月份密集动作的一部分。

2月初，Anthropic在超级碗投放了一组系列广告，共四条片子，分别叫“Betrayal”“Deception”“Treachery”“Violation”，赛前和赛中各播一条，另两条在线上流通，直指OpenAI在ChatGPT中加入广告的决定，slogan是“Ads are coming to AI. But not to Claude.”效果显著，访问量涨了6.5%，日活用户增长11%，Claude App冲进了Apple App Store前十。

紧接着，Anthropic宣布完成了300亿美元融资，估值达到3800亿美元，半年翻了一倍多。年化收入攀升至140亿美元，其中Claude Code的年化收入就有25亿美元，企业订阅今年翻了四倍。

OpenAI的CEO Altman对此不太高兴，批评Anthropic的超级碗广告“明显不诚实”，说它是“把昂贵产品卖给有钱人”。Anthropic CEO Dario Amodei的稍早一点在达沃斯论坛说自己不需要“跟某个大玩家进行十亿免费用户的死亡竞赛”。

这或许暴露了两家公司在路线上的某种分歧。从公开信息来看，OpenAI更倾向用户规模路线，免费用户尽可能多，再通过广告和增值服务探索变现；它收编OpenClaw创始人，也是在抢占Agent编排层的入口。Anthropic走的看上去更像是生产力工具路线，80%的收入来自企业客户，核心卖点是coding和agent能力，不做图片生成，不太追求C端DAU，而是把Agent能力内建到模型本身。Sonnet 4.6让免费用户也能使用旗舰级能力，本身就是对“只服务有钱人”这个批评的无声回应。

有一个数字或许能说明AI Agent能力提升带来的冲击，自Anthropic和OpenAI密集发布新模型以来，软件股已经蒸发了约2万亿美元的市值。投资者正在price in一个可能性，AI Agent对传统SaaS软件的替代，可能比所有人预想的都快。

12天两个模型，两周三次头条。这可能会成为2026年AI行业的默认节奏。