首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
Claude Opus降价三分之二上线!首测效率翻倍,程序员理想AI工具

Claude Opus降价三分之二上线!首测效率翻倍,程序员理想AI工具

热心网友
96
转载
2025-12-02

疯了,全都杀疯了!这个11月注定要载入AI史册。

Gemini 3的余温还没散,GPT-5.1的热度正当时,就在所有人都以为年度大戏即将落幕时,一向“人狠话不多”的Anthropic搞了一次从天而降的“偷袭”。Claude Opus 4.5横空出世,直接跳过了常规的宣发流程,用最硬核的产品硬刚对手。

最新直接摊牌:论写代码、论搞智能体,我才是最强的。这究竟是盲目自信,还是底气十足?

下面带你硬核拆解。

1. 核心亮点速览:性能飙升与成本暴跌

Claude Opus 4.5不仅仅是能力的提升,更是一次对效率和普惠性的重新定义。

——性能登顶

Anthropic内部有一项针对“顶尖工程师”候选人的入职测试,以高难度和时间紧迫著称,限时只有2小时。

结果显示:Claude Opus 4.5的得分高于该公司历史上任何一位人类候选人。

注意,这可不止是写出一段代码,而是综合考量技术能力和高压下的判断力。虽然通过测试并不意味着AI拥有了人类的沟通协作能力,但表明在纯技术执行层面,Claude Opus 4.5已经捅破了人类工程师的天花板。

再看行业通用的SWE-bench Verified(真实软件工程基准测试)数据,Opus 4.5以80.9% 的准确率傲视群雄:

· Claude Opus 4.5: 80.9%

· GPT-5.1-Codex-Max: 77.9%

· Claude Sonnet 4.5: 77.2%

· Gemini 3 Pro: 76.2%

Claude Opus 4.5突袭上线,直接降价23!首批用户实测:效率直接翻2倍!这才是程序员想要的AI

在AI编程领域,3个百分点的提升往往意味着从“经常还要我自己改bug”到“这代码写得比我溜”的质变。

Opus 4.5的前端开发、视觉处理能力显著提升,更擅长操作电脑,真实场景的软件工程测试中创新高。

Claude Opus 4.5突袭上线,直接降价23!首批用户实测:效率直接翻2倍!这才是程序员想要的AI

此外,Opus 4.5编写的代码质量更高,SWE-bench Multilingual测试的8种编程语言中,Opus 4.5有7种都处于领先地位。

Claude Opus 4.5突袭上线,直接降价23!首批用户实测:效率直接翻2倍!这才是程序员想要的AI

——价格革命:成本直降三分之二

上一代Opus(Opus 4.1)虽然聪明,但每百万输入Token 15美元/每百万输出Token 75美元的价格简直是“贵到离谱”。

这次Anthropic终于听劝了。Opus 4.5的定价大幅下调至每百万输入Token 5美元/每百万输出Token 25美元。

相比上一代Opus,价格直接砍掉三分之二。

虽然比GPT-5.1(每百万输入Token 1.25美元/每百万输出Token 10美元)还是要贵一些,但考虑到Opus 4.5是专为解决复杂难题打造的“重型武器”,这个价格已经进入了企业和开发者的“甜蜜区”。

这一策略也给竞争对手带来了性能和定价的双重压力。

——效率飞跃:Token用量大幅减少

通过引入可设置高、中、低的“努力程度”(effort)效率参数,Opus 4.5能让开发者在效率和能力之间作出取舍。

在中等努力(Medium Effort)水平下,Opus 4.5在SWE-bench Verified上达到了Sonnet 4.5的最佳分数,但输出Token使用量减少76%。

在最高努力(High Effort)水平下,Opus 4.5的性能比Sonnet 4.5高出4.3个百分点,同时Token使用量仍减少48%。

2. 产品力全面升级:面向日常办公的超强智能体

Anthropic同时发布针对Agent和日常生产力工具的重大更新,让Opus 4.5更具实用价值。

——突破上下文的“无限聊天”

以前和AI聊久了就得重开对话框。现在Anthropic解决了长对话任务的痛点,通过上下文压缩(Context Compaction)和内存管理实现了面向付费用户的“无限聊天”功能。模型会智能地压缩历史对话记忆,有效解决了传统上下文窗口的限制,使Agent任务能够持续运行而不会“失忆”。这对于长周期的项目开发简直是救命稻草。

——Agentic能力与创造性思维

Opus 4.5在智能体任务中展现出卓越的情境管理和高级工具使用能力,甚至能高效管理多智能体系统。

此外在解决实际问题时,模型表现出更像人的“变通能力”。在一项模拟航空客服的测试中,规则是不允许修改经济舱机票,之前的模型因此会直接拒绝客户。但Opus 4.5想到了一个“骚操作”:先帮客户升舱,然后再修改航班。虽然这在测试中因为没守规矩而被判了“失败”,但这种创造性的解决问题能力,恰恰是人类最看重的。

——全新集成与开发工具

· 办公集成:Claude for Excel现已向Max、Team、Enterprise用户全面开放,支持数据透视表、图表等复杂操作。Chrome浏览器插件也已经向所有Max用户开放。

· Claude Code增强:引入更精细的 “计划模式”(Plan Mode),Agent会在执行前生成一个用户可编辑的plan.md文件。Anthropic还面向开发者发布了“程序化工具调用”功能,允许Claude编写和执行直接调用函数的代码。同时,Claude Code现已在桌面应用上推出,支持并行运行多个本地和远程会话。

3. 用户测评与各方评价:Opus 4.5究竟“神”在哪?

新模型的发布激起了行业内外的强烈反响。除了最新的基准数据,来自开发者和企业的真实反馈更具说服力。

Anthropic的早期测试者和客户反馈高度一致:Opus 4.5展现出显著增强的判断力和处理复杂模糊任务的能力。

Anthropic开发者关系负责人亚历克斯·艾尔伯特(Alex Albert)提到,测试人员一致认为Opus 4.5在处理复杂的多系统错误时能直接找出解决方案,并能在无需人工干预的情况下权衡利弊,拥有了“一种直觉和判断力”,这标志“质的飞跃”。

企业客户初步验证了效率方面的说法。

· 日本电子商务和互联网公司乐天测试了Claude Opus 4.5在办公任务自动化方面的表现。基于Opus 4.5的智能体仅用4次迭代就达到最佳性能,而其他模型在10次迭代后仍无法匹敌。乐天商业AI总经理加藤裕介(Yusuke Kaji)表示,这展现了其具备“自我改进”智能体的潜力。

· Fundamental Research Labs的报告则称其内部评估准确性提高了20%,效率提升了15%,以前遥不可及的复杂任务现在变得可以实现。

· GitHub首席产品官马里奥·罗德里格斯(Mario Rodriguez)表示,早期测试显示Opus 4.5超越了内部编码基准,并将Token使用量削减了一半,特别适用于代码迁移和重构等任务。

· 云编码平台Replit总裁米歇尔·卡塔斯塔(Michele Catasta)则盛赞Opus 4.5在内部基准测试中优于Sonnet 4.5和竞品,并强调这种效率提升在规模化应用时会产生复利效应。

从社媒用户反应来看,评价多为正面,大家普遍认为Opus 4.5性能优异,有助于提升生产力。

Andon Labs在社交平台X发布了自己用Vending-Bench 2测试Opus 4.5的结果,显示紧随Gemini 3 Pro之后,位列第二,表现出色。

Claude Opus 4.5突袭上线,直接降价23!首批用户实测:效率直接翻2倍!这才是程序员想要的AI

HyperWriteAI CEO马特·舒默(Matt Shumer)则用Claude Opus 4.5测试生成类似Colab的用户界面。他认为,绝对比之前用GPT-5.1和Gemini 3做的类似测试要好得多。

Claude Opus 4.5突袭上线,直接降价23!首批用户实测:效率直接翻2倍!这才是程序员想要的AI

用户@deredleritt3r则提到,Anthropic公司调查了18名内部员工使用Opus 4.5 + Claude Code后的感受。其中半数员工表示效率翻倍,其中甚至有人认为自己的生产力提升高达220%。

Claude Opus 4.5突袭上线,直接降价23!首批用户实测:效率直接翻2倍!这才是程序员想要的AI

4. 资深开发者深度体验:前沿模型趋同性不可避免

知名开发者和技术评论家西蒙·威利森(Simon Willison)提前拿到了内测资格,他在两天内用Claude Opus 4.5对开源项目sqlite-utils进行了大规模重构。

战绩如下:

· 20次代码提交;

· 修改了39个文件;

· 增加了2024行代码,删除了1,173行代码。

威利森还测试了用Opus 4.5编写代码(SVG)来绘制鹈鹕骑自行车的经典案例。

结果显示,提示词越详细。Opus 4.5的表现就更好。

Claude Opus 4.5突袭上线,直接降价23!首批用户实测:效率直接翻2倍!这才是程序员想要的AI

Claude Opus 4.5突袭上线,直接降价23!首批用户实测:效率直接翻2倍!这才是程序员想要的AI

威利森的评价很中肯:“它显然是一个卓越的新模型。”然而他坦言,在编程任务切换回Sonnet 4.5后,工作速度并未感觉明显放缓。

换言之,对于日常任务,很难明显感知到Opus 4.5和Sonnet 4.5的巨大差异。这说明现在的模型在处理“简单任务”时已经出现了边际效应递减。

威利森指出,对于当下的一系列“前沿模型”(Frontier LLMs),要找到能明确区分它们与上一代模型的具体任务示例变得越来越困难。他呼吁AI实验室提供“一个在Sonnet 4.5上失败但在Opus 4.5上成功的具体提示示例”,这比基准测试上个位数的提升更具吸引力。

威利森还提到,尽管Anthropic声称Opus 4.5在对抗提示词注入(Prompt Injection)攻击方面比业界其他任何前沿模型都更具鲁棒性,但安全问题依然存在。数据显示,单次尝试提示注入的成功率约为1/20;如果攻击者尝试十种不同的攻击,成功率则上升到1/3。这表明,在设计应用程序时,仍需假定攻击者能够找到绕过模型防御的方法。

用户@peterwildeford也在X上提到,“基准测试指数已不再能可靠排除风险。最终判断很大程度上依赖于专家意见。”虽然他认为Claude 4.5 Opus足够安全,“但这种从基准指数向主观感受的转变令人担忧。”

Claude Opus 4.5突袭上线,直接降价23!首批用户实测:效率直接翻2倍!这才是程序员想要的AI

5. 竞争格局:AI大战持续升温

Opus 4.5的发布,发生在OpenAI和Google模型更新的“混战”之后,充分体现了AI市场的白热化竞争。

Anthropic自身的高速增长为这场竞争奠定了基础。在2025年第一季度,Anthropic的年化收入达到20亿美元,相比上一季度的10亿美元翻了一倍多。同时,年消费超过10万美元的客户数量也实现了同比八倍的增长。

然而,Opus 4.5在Haiku 4.5(10月)和Sonnet 4.5(9月)发布后仅数周内即上线,这种快速迭代清晰反映了整个行业的动态:竞争压力迫使厂商不断加速。

Anthropic开发者关系主管艾尔伯特承认,他们之所以能如此快速地迭代,部分原因在于使用Claude自身来加速产品开发和模型研究。

另一方面,Opus 4.5的定价大幅下调虽然会压缩利润空间,但却能扩大潜在市场。艾尔伯特预测,降价将促使大量初创企业更广泛地将Opus 4.5集成到其产品中并作为核心功能展示。

对于开发者和企业而言,这种激烈的竞争带来了最直接的好处:AI能力的迅速提升和价格的不断下降。更强的性能、更低的成本和“无限聊天”等实用功能,意味着AI智能体将在日常工作流中扮演更核心的角色。Opus 4.5的到来,或许正是我们工作方式彻底变革的开始。

6. 总结:开发者的新玩具,行业的新标杆

Claude Opus 4.5的发布,标志着AI模型竞争进入了“拼落地、拼逻辑、拼成本”的下半场。

它不再只是单纯地堆参数,而是通过“Effort”参数控制思考深度,通过“无限对话”解决实际工作流痛点。对于需要处理复杂逻辑、长代码重构、深度研究的用户来说,这无疑是目前的地表最强工具。

如果你是普通用户,Sonnet 4.5依然是性价比之王;但如果你是需要处理复杂架构的程序员,或者需要AI进行深度调研的研究员,每个月花点钱升级到Opus 4.5,可能是今年最划算的一笔投资。

来源:https://www.163.com/tech/article/KF6U0C8400097U7T.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

程序员删光96个美国政府数据库获刑45年
业界动态
程序员删光96个美国政府数据库获刑45年

近日,美国科技行业发生了一起极具警示意义的网络安全事件:一对曾有犯罪记录的双胞胎程序员,在遭到公司解雇后,利用系统遗留漏洞,于一小时内删除了96个美国政府核心数据库,并盗取大量敏感政府文件,情节之严重堪称“教科书级”的职场极端报复案例。 事件主角为34岁的穆尼布·阿赫特尔(Muneeb Akhter

热心网友
05.15
全家桶杀到!OpenAI决定停止“瞎折腾”,要把打工人的桌面彻底包圆
业界动态
全家桶杀到!OpenAI决定停止“瞎折腾”,要把打工人的桌面彻底包圆

编辑 | 王凤枝 OpenAI这是要把电脑桌面“一锅端”了。 想想看,现在很多人的工作流是什么状态?无非是开着网页版ChatGPT提问,切换到浏览器查资料,再点开代码编辑器或文档软件埋头苦干。窗口切来切去,效率难免打折。但就在3月19日,这家AI巨头对外证实,他们正计划把ChatGPT、Codex编

热心网友
04.22
每天3小时就够了,技术大牛:在AI时代坚持8小时工作制,你不是在努力,是在自杀
业界动态
每天3小时就够了,技术大牛:在AI时代坚持8小时工作制,你不是在努力,是在自杀

编辑 | 王凤枝 “AI时代,每天干3个小时就足够了。” 这句话出自前亚马逊资深工程师、技术大牛史蒂夫·雅吉(Steve Yegge)之口,算得上是对当前AI狂热的一剂清醒剂。 当整个行业都在为“10倍提效”而欢呼雀跃时,雅吉却点出了一个被普遍忽视的代价:在AI的高强度辅助下,程序员的产出固然爆炸式

热心网友
04.22
35岁程序员辞职摆摊卖肉蛋堡:月入5万 食材来自胖东来、山姆
业界动态
35岁程序员辞职摆摊卖肉蛋堡:月入5万 食材来自胖东来、山姆

35岁程序员辞职摆摊卖肉蛋堡:月入5万 食材来自胖东来、山姆 最近,一位35岁的程序员刘先生,成了社交媒体上热议的人物。这事儿说起来挺有意思:他辞掉了那份看似稳定、实则高压的软件开发工作,转身在街头支起了一个卖肉蛋堡的小摊。更让人惊讶的是,这个不起眼的小生意,竟然让他实现了月入5万元的目标。 你可能

热心网友
04.15
“全民编程”时代,苹果应用商店一个季度新APP数量飙升84%
科技数码
“全民编程”时代,苹果应用商店一个季度新APP数量飙升84%

沉寂多年的苹果应用商店,正在经历一场由AI驱动的新应用爆发。据市场研究机构Sensor Tower数据,2026年第一季度,苹果App Store全球新上架应用数量同比激增84%,达到235,800

热心网友
04.07

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

量化人才价值转变从因子猎手到AI品味把关人
科技数码
量化人才价值转变从因子猎手到AI品味把关人

当一家头部量化私募机构,凭借自主研发的AI Agent智能体矩阵,仅耗时7天就高效完成了以往需要长达90天甚至180天才能走完的完整研究流程时,一个明确的行业信号已然显现:人工智能在量化投资领域的应用深度,已从初期锦上添花的辅助角色,全面升级为足以重构整个行业生产力底层逻辑的核心基础设施。 然而,这

热心网友
05.27
PPT制作思维导图的几种实用方法与技巧
AI教程
PPT制作思维导图的几种实用方法与技巧

思维导图能有效梳理思路并提升信息传递效率。在PPT中可通过三种方法制作:一是利用SmartArt图形快速插入并编辑层次结构;二是手动绘制形状和连接线以实现高度自定义;三是借助专业软件制作后以图片形式插入。这些方法均旨在通过视觉化工具使幻灯片内容更清晰有条理。

热心网友
05.27
港股AI大模型板块表现活跃 MiniMax与智谱股价显著上涨
AI资讯
港股AI大模型板块表现活跃 MiniMax与智谱股价显著上涨

港股AI大模型板块持续走强,MiniMax与智谱被视为“双子星”引领板块。MiniMax被纳入相关指数带来资金支撑,智谱凭借GLM架构占据核心地位。板块驱动因素包括监管趋于明确、商业化进展不断兑现以及被动资金持续流入。市场正从概念炒作转向验证真实技术与商业落地能力,推动相关标的价值重估。

热心网友
05.27
饼干人联盟欢乐果冻森林1-10关通关攻略与技巧详解
游戏资讯
饼干人联盟欢乐果冻森林1-10关通关攻略与技巧详解

在《饼干人联盟》的冒险旅程中,欢乐果冻森林的1-10关卡是许多玩家遇到的第一个重要挑战。这一关不仅是前期资源积累的关键节点,也是检验队伍配置与操作技巧的绝佳机会。为了帮助大家顺利攻克难关并获取丰厚奖励,我们准备了这份详细的通关攻略。 一、关卡BOSS解析:幸福花 本关的守关首领是幸福花。虽然名字听起

热心网友
05.27
伊朗国际互联网服务已全面恢复
科技数码
伊朗国际互联网服务已全面恢复

伊朗电信基础设施迎来重要升级。该国于26日正式宣布,其国际互联网带宽与连接已实现稳定、全面的恢复。 此次恢复意味着,伊朗境内的固定宽带用户现已能够顺畅访问全球网络,正常使用国际网站、在线应用及各类数字服务。此前,伊朗通信部门已多次表明,正在有序推进国际互联网接入的修复与优化工作。官方强调,此举旨在从

热心网友
05.27