首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
Claude3.5 Sonnet重磅升级:30小时连续编码能力实测

Claude3.5 Sonnet重磅升级:30小时连续编码能力实测

热心网友
67
转载
2025-09-30

划重点:

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

Anthropic发布Claude Sonnet 4.5,宣称其为全球最先进、最安全的编码及复杂软件智能体构建模型。 Claude Sonnet 4.5能够自主编码长达30小时,远超其前代Claude 4 Opus约7小时的能力。 编码工具Claude Code新增checkpoints功能,可在每次代码更改前自动保存状态,允许开发者即时回溯到之前的版本。

当地时间9月29日,人工智能初创公司Anthropic正式推出新一代AI模型Claude Sonnet 4.5,宣称其为全球最先进、最安全的编码及复杂软件智能体构建模型。

该模型在长周期任务处理上有所改进,可独立运行30小时完成从开发到安全审计的全流程工作,在SWE-bench Verified等权威测试中达到最优水平。同时,Anthropic 升级开发者生态,推出Claude Agent SDK等工具,并为Max订阅用户开放 “用 Claude 想象” 临时预览功能,支持实时生成软件演示。

Claude Sonnet 4.5定价延续前代标准,每百万输入Tokens 3美元,每百万输出Tokens 15美元,开发者无需额外成本即可升级。

当前AI编码领域竞争已进入白热化阶段,Anthropic面临多强并立的竞争态势:OpenAI已推出专注智能体编码的GPT-5-Codex,谷歌Gemini则凭借出色的问题解决能力站稳脚跟。Anthropic在今年8月刚推出Claude Opus 4.1,在5月推出Claude Sonnet 4,如此快速的迭代节奏,既凸显了当前AI领域的激烈竞争态势,也意味着没有任何一家企业能长期占据绝对领先地位,技术迭代与创新将成为行业持续发展的核心驱动力。

01.30小时自主开发成新亮点

Claude Sonnet 4.5在各项测试中的表现

Anthropic表示,Claude Sonnet 4.5在多项指标上超越了OpenAI的GPT-5和谷歌的Gemini等主要竞争对手。Claude Sonnet 4.5在SWE-bench Verified基准测试中表现突出,得分达到82.0%,该测试用于评估AI解决GitHub仓库中真实世界软件工程问题的能力。相比较而言,Claude Opus 4.1在该项测试中的得分为79.4%;Claude Sonnet 4的得分为80.2%;GPT-5的得分为72.8%;Gemini 2.5 Pro的得分为67.2%。

此外,该模型在OSWorld测试中创下新纪录,取得了61.4%的得分。相比较而言,四个月前发布的Sonnet 4得分为42.2%。

此次升级的性能提升不仅体现在分数上,更在于模型自主工作耐力方面。Anthropic研究员大卫・赫尔希(David Hershey)在接受TechCrunch采访时透露,在与部分企业客户进行的早期试用中,Claude Sonnet 4.5能够自主编码长达30小时,编写了一款类似Slack或Teams的聊天应用,共生成约 1.1 万行代码,直至任务完成才停止运行。这远超其前代Claude 4 Opus约7小时的能力。

赫尔希观察到,该模型不仅能自主构建应用程序,还能自行搭建数据库服务、购买域名,甚至完成SOC 2安全审计。这标志着其能力已从孤立的编码任务扩展至全周期的项目执行,展现出前所未有的实用长周期智能体能力。

Anthropic表示,该模型能生成更高质量的代码,更善于识别代码改进点,并能更可靠地遵循指令。该公司联合创始人、首席科学官贾里德・卡普兰(Jared Kaplan)在接受CNBC采访时表示:“Claude Sonnet 4.5更智能、更像一位同事,在遇到问题并解决它们时,与它合作会很有趣。”

此外,Claude Sonnet 4.5在金融、法律、医学和STEM(科学、技术、工程与数学)等领域的专业知识与推理能力也有所增强,得到了早期专家的正面反馈。其在数学和推理能力评估中的优异表现进一步印证了其智能广度的提升。

02.多工具解决开发痛点,Agent SDK助力定制智能体

Claude Sonnet 4.5的聊天框界面

Claude Sonnet 4.5发布的同时,Anthropic对开发者生态进行了重大扩展,推出系列工具解决核心开发需求。

编码工具Claude Code新增checkpoints功能,可自动保存代码更改状态供即时回溯,并推出测试阶段的原生VS Code扩展,将能力无缝集成至IDE,提供直观图形化体验。针对长周期智能体的上下文限制,Anthropic引入高级管理工具:“上下文编辑” 可清除过时内容,“记忆工具” 能跨会话存储关键信息,二者结合使智能体复杂任务性能提升 39%,Tokens消耗减少 84%。

面向高级用户的Claude Agent SDK开放了Claude Code核心基础设施权限,支持开发者构建金融合规、网络安全等领域的定制智能体,助力实现 “人类管理多智能体” 的愿景。同时,Anthropic开放虚拟机访问权限并提供内存管理、多智能体支持等功能,相当于打包核心技术模块供开发者打造专属前沿智能体。

03.Claude Sonnet 4.5 抗攻击能力升级,降低不良行为发生率

Anthropic强调,Claude Sonnet 4.5是其“迄今为止最对齐的前沿模型”。该公司在新闻稿中详细介绍了广泛的安全训练,显著降低了谄媚、欺骗和寻求权力等不良行为的发生率。Claude Sonnet 4.5在严格的ASL-3(人工智能安全等级 3)框架下发布,部署了过滤器以检测并防止生成潜在危险输出,特别是在化学、生物、放射和核(CBRN)武器相关内容方面。

卡普兰表示:“我认为,这是我们在一两年内看到的最大安全飞跃。” 这一对安全的坚定承诺是对行业普遍关切的直接回应,旨在与企业客户建立信任。Anthropic表示,Claude Sonnet 4.5在抵御提示注入攻击及其他前代模型常见漏洞方面表现更佳。

来源:https://36kr.com/p/3488984820882306
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

G胖退出Valve游戏开发 怕员工不敢反驳
游戏资讯
G胖退出Valve游戏开发 怕员工不敢反驳

V社联合创始人G胖调整角色:从主导开发转向赋能团队,释放创意生产力 近期一则消息引发游戏行业广泛关注:Valve联合创始人加布·纽维尔(“G胖”)在公司内部进行了一次重要角色转型。此次调整的关键原因,与他个人在公司中的特殊影响力息息相关。根据透露,这位创始人决定减少在具体游戏开发工作中的直接深度参与

热心网友
04.05
红魔姜超“冒险爆料”:Pad 新品不是四月就是五月发布,一定不让大家失望
科技数码
红魔姜超“冒险爆料”:Pad 新品不是四月就是五月发布,一定不让大家失望

红魔姜超透露:全新游戏平板将于四月或五月发布,承诺带来惊艳体验 游戏硬件领域即将迎来重磅更新。努比亚红魔游戏手机的产品线负责人姜超,近日通过社交媒体进行了一次颇具悬念的“前瞻剧透”,成功引发了广大游戏玩家和科技爱好者的高度关注。他明确指出,红魔全新一代游戏平板的发布日期已锁定在四月或五月,并使用了“

热心网友
04.05
金铲铲之战S17天煞羁绊效果一览
游戏攻略
金铲铲之战S17天煞羁绊效果一览

金铲铲之战S17天煞羁绊:效果解析与实战应用 在《金铲铲之战》S17赛季中,【天煞】是一个定位独特的专属羁绊,仅由5费英雄“劫”所携带。激活这一羁绊需要特定的前置条件——玩家必须在强化符文选择阶段获得【入侵者劫】。一旦成功解锁,劫将获得全新的技能机制,从而在战局中发挥出颠覆性的作用。 金铲铲之战S1

热心网友
04.05
蓝点工作室被索尼移除 第一方阵容调整
游戏资讯
蓝点工作室被索尼移除 第一方阵容调整

索尼调整第一方工作室阵容,王牌重制团队蓝点工作室正式“退出”核心名单 近日,索尼在其PlayStation Studios官方网站的更新中做出了一项关键调整,引发了游戏玩家和行业观察者的广泛关注:曾凭借《恶魔之魂:重制版》等作品赢得盛誉的蓝点工作室,已不再出现在索尼核心第一方工作室的名单之中。此次页

热心网友
04.05
未来人类 X98W 移动“工作站”笔记本电脑上线官网,4 月内发售
科技数码
未来人类 X98W 移动“工作站”笔记本电脑上线官网,4 月内发售

未来人类X98W移动工作站正式发布:重新定义移动端专业性能的新标杆 在专业移动计算领域,总有一些产品能够打破常规认知。近日,未来人类(TerransForce)正式在其官网上线了全新的X98W高性能移动工作站,并宣布将于本月内全面发售。这款设备的问世,无疑为那些在移动办公环境中仍需要桌面级别强悍性能

热心网友
04.05