游乐游手机版
首页/AI教程/文章详情

最新AI大模型Claude Sonnet 4.5正式发布 多个领域性能超越GPT-5和Gemini 2.5 Pro

时间:2026-06-24 11:55
ClaudeSonnet4 5发布,编程SWE-bench77 2%,连续工作30小时。操作准确率61 4%,数学推理金融法律增强,推出AgentSDK和Chrome扩展,安全对齐优化,价格不变。

Anthropic 正式发布了 Claude Sonnet 4.5。首先给出核心判断:这是当前最强的编程模型,没有之一。其在 SWE-bench Verified 上取得了 77.2% 的优异成绩,直接大幅领先其他竞争对手。更令人印象深刻的是,该模型能够连续稳定运行超过 30 个小时来处理复杂任务,且注意力不会涣散——这已经超越了传统 AI 的表现范畴。

Chart showing frontier model performance on SWE-bench Verified with Claude Sonnet 4.5 leadingChart showing frontier model performance on SWE-bench Verified with Claude Sonnet 4.5 leading

除了编程能力的显著提升,Claude Sonnet 4.5 在电脑操作方面也实现了实质性突破。在 OSWorld 测试中,其准确率达到了 61.4%——作为对比,四个月前 Sonnet 4 的成绩仅为 42.2%。结合新推出的 Chrome 扩展,Claude 现在可以直接在浏览器中导航网站、在线填写表单、执行各类任务,大大扩展了应用场景。

数学与推理能力同样有肉眼可见的提升。在金融、法律、医学、STEM 等专业领域,经过专家测试发现,该模型的知识储备和推理能力相比前几代有了质的飞跃。

Benchmark table comparing frontier models across popular public evalsBenchmark table comparing frontier models across popular public evals

产品更新与开发者生态

在产品层面,Claude Code 新增了 checkpoint 功能,允许随时保存进度并回滚到之前版本——这对于需要长时间执行的任务来说极为实用。同时发布的还有原生 VS Code 扩展。API 层面引入了上下文编辑与记忆工具,使 AI Agent 能够处理更复杂的多步骤任务。Claude 应用现在支持代码执行和文件创建,涵盖表格、幻灯片和文档等类型。

本次更新中最值得关注的当属 Claude Agent SDK。Anthropic 将自己构建 Claude Code 所用的基础设施直接开放出来。这意味着开发者现在可以利用同样的工具来构建自己的 AI Agent,想象空间非常广阔。

在安全性方面,这是 Anthropic 迄今为止发布的最“对齐”的前沿模型。模型在谄媚、欺骗、权力追求等行为问题上有了明显改善,同时针对提示注入攻击的防御能力也得到了增强。

\

价格方面保持不变,每百万 token 仍为 3/15 美元。开发者直接调用 claude-sonnet-4-5 即可使用。

来自合作方的实际反馈

多个深度合作方的反馈具有很强说服力。Cursor 的 CEO 直言这是他们见过的最强编程模型。GitHub 的产品负责人表示,Sonnet 4.5 显著提升了 Copilot 处理复杂任务的表现。Replit 的实际使用数据显示错误率从 9% 降至 0——这个数字本身就说明问题。Canva 的评价是模型“明显更智能了”。特别是在金融领域,Sonnet 4.5 的优势极为突出:在金融 Agent 基准测试中大幅领先其他基础模型,堪称目前最适合实际金融分析工作的模型。

\

Anthropic 还放出了一个临时研究预览,名为 "Imagine with Claude",展示了模型实时生成软件的能力。Max 订阅用户可以体验五天。

昨天 DeepSeek 刚更新,今天 Claude 就来了。下一个会是谁?

来源:https://cloud.tencent.com.cn/developer/article/2695582
上一篇Meta开源全球首个320亿参数代码世界模型CWM 下一篇模块化流形新研究让训练更稳定
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Windows Docker Desktop RabbitMQ生产级部署完整指南
AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言 在 Windows 本地开发环境中,直接安装 RabbitMQ 确实颇为周折:需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是,版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。 相比之下,借助 Do

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践
AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年,我们与福建制造企业合作较为频繁,发现一个非常突出的现象:超过80%的企业官网,产品参数仍然存放在PDF或图片中。AI爬虫?根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富,但在AI搜索这一全新战场上,它们几乎处于隐身状态。 一、一个正在发生的行业变化 A

阿里云Token Plan团队版功能价格与省钱购买指南
AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务,这一服务专为企业与开发者量身打造,定位为AI大模型订阅平台。通过引入Credits作为统一计量单位,将文本生成、图像生成等多模态AI能力纳入单一计费体系,同时无缝兼容主流AI编程工具及智能体(Agent)生态系统。其核心亮点包括:全

阿里云物联网.NET Core客户端位置信息上报
AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标,而位置数据的来源本质上是借助设备属性进行上传。换言之,若要让设备上报位置,您需先将其视为一个普通属性进行处理。 1)添加二维位置数据 操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据,点击添加,将

年阿里云服务器选型配置与网站部署全攻略
AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年,阿里云服务器生态已高度成熟,形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网,还是运营电商平台、进行应用开发,基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维,系统梳理2026年最实用的操作要点,帮助你少走弯路,让网