Anthropic新模型性能提升80%，价格大幅下降引爆市场

首页/科技数码/文章详情

Anthropic新模型性能提升80%，价格大幅下降引爆市场

时间：2026-02-18 15:07

距离ClaudeOpus 4 6的发布仅过去12天，Anthropic就发布了新的中档模型Claude Sonnet 4 6。这次发布的核心不在于技术突破本身，而在于它以低得多的价格，达到了与竞品齐

距离ClaudeOpus 4.6的发布仅过去12天，Anthropic就发布了新的中档模型Claude Sonnet 4.6。

这次发布的核心不在于技术突破本身，而在于它以低得多的价格，达到了与竞品齐平的性能。。

Sonnet 4.6的定价保持在每百万token输入3美元、输出15美元，与前代 Sonnet 4.5相同。

然而在多项基准测试中，Sonnet 4.6接近甚至超越了价格高出五倍的Opus 4.6。

Anthropic表示，便宜不一定就没有好货。

当然了，在一些关键的测试里，仍然还是Opus 4.6领先。

具体表现如何呢？

Sonnet 4.6究竟有多惊艳？

在SWE-bench Verified这个衡量真实软件编码能力的基准测试中，Sonnet 4.6得分79.6%，几乎追平Opus 4.6的 80.8%，同时略微领先于OpenAI的GPT-5.2。

在代理式金融分析任务中，Sonnet 4.6以63.3%的成绩领先所有竞争对手，包括Opus 4.6的60.1%和GPT-5.2的59.0%。

在办公任务的GDPval-AA Elo评分中，Sonnet 4.6达到 1633 分，超过Opus 4.6的1606分和GPT-5.2的1462分。

过去需要旗舰模型才能完成的任务，现在用Sonnet 4.6这种中档模型就能做到。

对于每天需要处理数百万token的企业来说，这意味着可以大幅节省成本。

Opus 4.6仍然在某些高复杂度领域保持优势。

在终端编码任务Terminal-Bench 2.0中，Opus 4.6得分65.4%，Sonnet 4.6为59.1%。

在代理式搜索BrowseComp中，Opus 4.6达到84.0%, Sonnet 4.6为74.7%。

在新颖问题解决测试ARC-AGI-2中，Opus 4.6得分68.8%，Sonnet 4.6为58.3%。

这些差距表明，对于前沿研究和需要顶级准确度的场景，Opus 4.6仍是最好的模型。但对于大多数生产环境，这个差距已经缩小到可以接受的程度。

Sonnet 4.6最引人注目的进步出现在计算机使用能力上。在OSWorld-Verified基准测试中，它得分72.5%，高于Sonnet 4.5的61.4%，远超GPT-5.2的38.2%。

计算机使用能力指的是AI像人类一样操作计算机的能力，通过鼠标点击、键盘输入来与软件交互，而不依赖API接口。

前一阵引发热议的豆包手机助手，其底层的UI-TARS模型，就是在OSWorld基准上完成了权威测试，取得了47.5%的成绩。

豆包手机助手的表现是非常出色的，已经能够完成除了支付以外所有的操作。

那么以此作为判断依据，进而不难推测，Sonnet 4.6的实际表现将会非常惊艳。

这项能力之所以重要，是因为它打开了最广泛的企业应用场景。

一个能够直接看屏幕并与之交互的模型，可以在不构建定制连接器的情况下，自动操作将所有可交互的系统。

Anthropic在发布时提到，早期用户已经看到接近人类水平的表现，能够完成复杂的电子表格任务和多步骤网页表单。

保险科技公司Pace的CEO贾米·考夫（Jamie Cuffe）表示，Sonnet 4.6在他们复杂的保险计算机使用基准测试中达到94%的成绩，是所有测试过的Claude模型中最高的。

他说：“它以我们之前未见过的方式推理失败原因并自我纠正。”

恶意行为者可能在网页中隐藏指令来劫持模型，这被称为提示注入攻击。

Anthropic在公告中表示，Sonnet 4.6在抵御此类攻击方面比Sonnet 4.5有重大改进。

对于部署需要浏览网页和与外部系统交互的代理的企业来说，这种安全防护是必须的。

价格只要五分之一

那么Sonnet 4.6到底有多便宜呢？

外媒报道，一些早期的Sonnet 4.6用户表示，原本企业需要花五倍的钱才能买到的能力，现在用Sonnet 4.6就能获得差不多的效果。

这意味着运营成本可能直接降到原来的五分之一，而工作质量几乎不受影响。

数据分析平台Hex Technologies的CTO，同时也是Anthropic联合创始人、首席产品官的凯特琳-科尔格罗夫 (Caitlin Colgrove)说，公司正在将大部分流量迁移到Sonnet 4.6。

她指出通过自适应思考和高努力模式（high effort mode），“除了最困难的分析任务外，我们在所有任务上都看到了Opus级别的性能，且配置更高效灵活。以Sonnet的价格，这将降低工作成本。”

云存储公司Box的CTO本·喀什（Ben Kus）表示，Sonnet 4.6在真实企业文档的重度推理问答中，比Sonnet 4.5的表现提高了15个百分点。

Sonnet 4.6配备了100万token的超长上下文窗口，以容纳整个代码库、法律文件或数十篇研究论文。

Anthropic声称模型能够在整个上下文中有效推理，并通过Vending-Bench Arena这个基准测试来表现出Sonnet 4.6的有效推理。

Vending-Bench Arena测试的是模型运营模拟企业的能力，不同AI模型相互竞争以获得最大利润。

在没有人类提示的情况下，Sonnet 4.6发展出一种新颖策略：在前十个模拟月份中大量投资产能，支出远超竞争对手，然后在最后阶段急转弯专注于盈利能力。

模型在365天模拟结束时的余额约为5700美元，而Sonnet 4.5约为2100美元。

Anthropic开启印度市场

Anthropic正处于上市前最关键的阶段，因此他们不止要发布模型，还要借着模型去扩张业务。

在Sonnet 4.6发布当天，印度IT巨头Infosys宣布与Anthropic合作，构建企业级agent，将Claude模型集成到Infosys的Topaz AI平台中，服务于银行、电信和制造业。

与此同时，Anthropic也在印度的班加罗尔开设了首个印度办事处，印度现在占全球Claude使用量的约6%，仅次于美国。

Anthropic的进步也导致了最近几天软件股的大规模抛售，就连业绩大涨的微软，也经历了股价暴跌。

投资者越来越担心AI对这些业务的潜在颠覆，Sonnet 4.6可能会加剧这种不安的氛围。

也不知道是不是Anthropic飘了，他们还将其免费层级默认升级到了Sonnet 4.6，开发者可以通过Claude API直接调用。

来源：https://www.163.com/dy/article/KM27958M05399DAP.html

基准推理上下文计算机 anthropic

上一篇AI时代百度生态下内容创作者的生存法则 下一篇欧盟新规：电动车需含70%本土部件才能获补贴，车企立场分化

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时，同比增长5 0%。充换电服务业用电增速高达48 8%，信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市联体风扇售价429元

追风者冰川360S25液冷散热器售价429元，三联一体风扇便捷安装，冷头小体积纯铜底座噪音18dB，风扇转速300-2000RPM、风量75CFM、静压2 96mmAq，五年质保漏液包赔。

科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映，GooglePlayServices后台耗电异常，电量占比最高达99 97%，远超正常水平，严重影响续航。目前故障原因不明，谷歌尚未发布官方声明。

科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足盼新CEO改进

罗永浩批评苹果iOS27创新不足，称仅有双iPhone同号、音量分离等数十项细节改进，认为库克时代缺乏突破性创新，股市虽好但消费者只能被迫接受挤牙膏式升级。

科技数码 · 2026-06-29

年国产车出口710万辆，两家车企销量破百万

2025年国产汽车出口总量达710万辆，同比增长21%。奇瑞以134万辆居首，比亚迪105万辆次之，上汽乘用车出口占比60%最高，长城出口51万辆。吉利、长安等主流品牌同步增长，小鹏、零跑等新兴品牌海外拓展加速。