Anthropic发布Opus 4.7模型回应质疑
一家AI公司,究竟做了什么,能让开发者在GitHub上公开声讨,直指其模型“退化到没法用”?
过去几周,关于Claude Opus 4.6“疯狂降智”的讨论就没停过。AMD的一位资深总监在GitHub上发帖,直言“Claude已退化到无法信任执行复杂工程的地步”,一石激起千层浪,无数开发者跟帖补刀,分享着相似的糟糕体验。
就在这场信任危机发酵到顶点时,2026年4月16日,Anthropic悄无声息地推出了Claude Opus 4.7。
这个时机,耐人寻味。
“退化”风波,Anthropic欠开发者一个答案
要理解Opus 4.7的意义,得先搞清楚它出现之前发生了什么。
Opus 4.6上线初期,口碑其实不错。但随着时间的推移,开发者们陆续发现不对劲:这个模型在处理复杂工程任务时,变得越来越“保守”,动不动就在多步骤任务中途放弃,甚至开始给出一些“看起来合理、实则错误”的答案。
这种“退化感”,在AI产品里堪称最致命的信任危机。用户或许能接受一个能力平平的工具,但绝对无法忍受一个用熟了的伙伴突然变得不可靠。
从数据视角看,财报分析平台Hex的评估点出了问题的本质。他们发现,Opus 4.6在遇到数据矛盾时,倾向于给出“看似合理的错误回退”,而不是老老实实承认“数据缺失,我无法回答”。对于一个被用来做数据分析的工具而言,这比单纯的“不会”更危险。
面对如潮的反馈,Anthropic的回应方式很直接:上新版本。没有公开的解释,也没有“我们听到了”的官方声明,就是一个新模型悄然上线。
对技术公司来说,这大概是最硬核的道歉方式了。
Opus 4.7到底强在哪
Anthropic给Opus 4.7贴的标签是“软件工程领域的显著提升”,并引入了一个全新的“xhigh”努力等级。
官方数字显示,其编码基准提升了13%,生产级任务的自主完成率提升了3倍,同时还带来了高达3.75兆像素的高分辨率视觉支持和更新的分词器。
但这些数字对开发者而言有些抽象。更有说服力的是来自Cursor团队的反馈。作为目前最受开发者青睐的AI编程工具之一,Cursor用其内部基准CursorBench测试了Opus 4.7,结果是自主编码成功率从Opus 4.6的58%跃升至70%。
12个百分点的差距,听起来不大,但放在“自主完成复杂任务”这个维度上,意义就完全不同了。过去在Opus 4.6上需要两到三次提示才能搞定的任务,在4.7上通常一次就能跑通。对于那些深度依赖AI工作流的开发者来说,这直接意味着来回调试的成本能减少一半以上。
Hex对Opus 4.7的评价,则从另一个维度印证了这次升级的含金量。他们直接称其为“评估过最强大的模型”,核心理由是它在面对数据矛盾时,不再试图编造貌似合理的答案,而是选择如实告知“数据缺失”。这听起来像是个微小的行为变化,但它指向的是模型“自知能力边界”这一更深层的进步。
价格倒是没变。输入每百万token 5美元,输出每百万token 25美元,与Opus 4.6保持一致。
两周三更新,Anthropic在打什么算盘
如果只看单次发布,Opus 4.7是一次扎实的迭代升级。但把时间线拉长到过去两个月,这次更新背后的逻辑就更有看头了。
自2026年1月以来,Anthropic大约保持着每两周一次重大更新的节奏。这个频率,在AI军备竞赛白热化的今天,本身就是一种战略表态:“我们在跑,而且不会停”。
更值得关注的是另一件几乎同时发生的事。就在Opus 4.7发布前几周,Anthropic向精选企业客户悄悄开放了Claude Mythos Preview,这是其“Project Glasswing”网络安全计划的一部分。据报道,这个模型能力极强,甚至能够渗透主要银&行系统,且具备同时攻击多个目标的潜力。Anthropic联合创始人杰克·克拉克为此专门向特朗普政府做了汇报,随后财政部长斯科特·贝森特和美联储主席鲍威尔也紧急召集了与银&行高管的会议。
这意味着,Anthropic现在同时在打两场战争。一场是公开的、面向开发者和企业客户的产品战,Opus 4.7是这场战争里的一枚棋子;另一场则是关于AI能力边界的政策博弈,Mythos和Project Glasswing是这条线上更为敏感的棋局。
两件事放在一起看,你会发现Anthropic的产品哲学正在发生微妙转变。他们越来越清楚,最强大的模型不能直接扔给所有人用,但也不能把那个“足够强”的通用模型给做差了。Opus 4.7扮演的,正是这个“足够强且可控部署”的角色。
开发者生态的新格局
Opus 4.7的发布,对整个开发者工具生态的影响,远不止“Claude又更新了”那么简单。
编程助手这个赛道,今天比拼的已经是“工作流深度绑定”的能力。Cursor选择将Opus 4.7作为核心模型接入,这背后是一个明确的判断:在当前竞争格局下,Claude系列对复杂软件工程任务的理解深度,依然拥有明显优势。
VentureBeat的一个分析视角很有意思,他们认为Opus 4.7代表着AI正从“创意助手”向“可靠执行者”的角色迁移。这个说法道出了企业采购决策的核心逻辑:创意助手可以偶尔出错,但执行者不行。
当然,也有值得留意的隐患。新分词器的引入意味着,同样的输入文本可能会消耗更多token。虽然单价不变,但实际使用成本可能悄然上涨。这对于高频调用API的企业来说,是一个需要重新测算的变量。
还有一个更根本的问题,正如Decrypt的评论所指出的,AI行业至今仍缺乏一套被广泛认可的能力评估标准。Anthropic说编码基准提升了13%,但这个基准与真实开发场景之间的距离,每个人的感受都不一样。Cursor那个70%的成功率数据,之所以比所有官方基准都更有说服力,正是因为它源于真实工作流中的实际验证。
几周前,开发者在GitHub上公开抱怨Opus 4.6“不能用了”。今天,Anthropic用一个新版本回应了这份不满,并用实打实的性能数据,赢回了Cursor、Hex这些头部工具团队的背书。
但用户的信任,不是靠一次发布就能彻底修复的。每两周一次的迭代节奏,既是优势,也是压力。因为它意味着,每一次发布都必须足够好,否则下一轮关于“退化”的声讨,只会来得更快、更猛。
对Anthropic而言,真正的考验不在于今天能否推出一个更好的版本,而在于能否让开发者相信,这种“更好”是持续的、可预期的。这对任何一家AI公司来说,都是一个巨大的挑战。
*头图来源:LLM Stats
相关攻略
一家AI公司,究竟做了什么,能让开发者在GitHub上公开声讨,直指其模型“退化到没法用”? 过去几周,关于Claude Opus 4 6“疯狂降智”的讨论就没停过。AMD的一位资深总监在GitHub上发帖,直言“Claude已退化到无法信任执行复杂工程的地步”,一石激起千层浪,无数开发者跟帖补刀,
3月2日,一个普通的周末下午,全球众多Claude用户却意外遭遇了服务中断。协调世界时11点49分(北京时间19点49分),人工智能公司Anthropic官方正式确认,其AI助手Claude出现全球性服务故障,影响范围广泛。 此次Claude服务中断的消息迅速引发了用户社区的广泛关注。无论是通过Cl
AI助手之间的“数据孤岛”正在被打破。最近,Anthropic公司为其Claude AI推出了一项颇具战略意义的免费功能——“记忆导入”。简单来说,用户现在可以将自己在其他AI服务(比如ChatGPT等)中积累的对话历史和偏好设置,一键迁移到Claude中。这意味着,你无需在更换AI助手时从零开始,
近期,二级市场传来一则备受关注的消息。在Forge Global等未上市企业股权交易平台上,人工智能领域的明星公司Anthropic的估值已飙升至约1万亿美元。这一数字甚至超越了其重要竞争对手OpenAI当前约880亿美元的估值,引发了市场的广泛讨论。 推动这一惊人估值的关键因素,在于市场供需关系的
谷歌计划向人工智能公司Anthropic投资高达400亿美元。此举旨在深化双方合作,同时反映出科技巨头在AI领域的战略竞争。该投资将影响人工智能行业格局,凸显了领先企业通过资本布局抢占未来技术高点的趋势。
热门专题
热门推荐
灵兽品阶决定成长上限,需按职业选择走兽、飞禽或鳞甲类。养成应与角色境界同步,集中资源优先培养主力至高星。技能分先天与后天,后天技能可动态调整应对战局。属性差异有限,后期培养深度更为关键。新手建议从中品起步,非重氪玩家以上品灵兽作为中期主力性价比更高。长期养成需分。
马斯克起诉OpenAI违背非营利使命一案因超过诉讼时效被法院驳回。马斯克原承诺出资10亿美元实际仅投入3800万美元,后因控制权之争离开。此后OpenAI转型营利并估值飙升,本案虽凸显非营利初心与资本扩张的冲突,但法庭未就实质问题作出裁决。
《天下归心》新版本“风起官渡”开启预约。鲁肃、孟获两位新名将登场,其技能将改变阵容搭配逻辑。跨服官渡之战复刻历史多阶段阵营对抗,重现史诗战场。新增藏品阁系统,陈列藏品可提升全队战力。士兵系统革新,装配军旗与令箭可释放觉醒技能,深化战术策略。预约即可领取专属礼包。
长城汽车创始人魏建军以“怕”为引,强调敬畏造车规律、珍视用户信任。面对行业内卷与营销泡沫,长城坚持长期主义,投入巨资研发并延长验证周期,以归元平台及魏牌V9X展现技术实力与品质承诺。通过将个人声誉与品牌绑定,长城构建以信任为核心的持久竞争力,其探索对行业良性发展具有重。
深蓝S05轴距达2880毫米,搭载AI大模型与L2+级智驾,注重科技体验与纯电性能。皓瀚DH-i轴距2775毫米,配备L2级辅助驾驶与实用智能座舱,强调经济可靠与混动平衡。两者分别吸引追求前沿科技的年轻群体和重视实用性的家庭用户,体现了新能源市场技术路线多元化并存的趋势。





