GPT-5.5发布后,Anthropic道歉了
智东西4月24日消息
过去这一个多月,不少Claude Code用户心里直犯嘀咕:怎么感觉这工具“变笨了”?回复变短、记性变差、生成的代码质量也打了折扣,甚至有人直接调侃它“降智了”。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
有意思的是,就在今天凌晨GPT-5.5正式亮相后,Anthropic立刻发布了一份技术报告,正面回应了近期关于Claude Code的种种质疑。报告的核心结论很明确:问题并非模型本身能力退化,而是过去一个多月里,三项独立的产品调整意外叠加、共同失效导致的。Anthropic特别强调,公司绝无可能蓄意降低模型性能,并宣布从今天起,重置所有订阅用户的使用额度,算是对用户体验损失的一种补偿。
经过全面排查,团队最终锁定了三个具体的技术“病灶”:
1、推理难度调整失当:3月4日,为了解决部分用户在“高”难度下遇到的界面卡顿问题,Anthropic将Claude Code的默认推理难度下调到了“中”。但用户反馈很快表明,大家其实更倾向于默认使用更高的智能级别,只在处理简单任务时才手动切换到低难度。于是,团队在4月7日撤销了这项更改,恢复了原有设置。这次调整主要影响了Sonnet 4.6与Opus 4.6版本。
2、缓存优化漏洞致模型“健忘”:3月26日上线的一个会话缓存优化功能,本意是好的——清除闲置超过一小时的会话历史思维记录,以降低延迟。但程序出了个漏洞,导致这个清除操作在会话的剩余时间里被反复触发。结果就是,模型开始出现回答重复、工具选择异常的情况。该漏洞在4月10日被修复,影响范围覆盖了Sonnet 4.6与Opus 4.6版本。
3、系统提示调整损害代码质量:4月16日,Anthropic新增了一条系统提示,目的是精简输出、减少冗余。没想到,这条新指令与其他现有规则叠加后,产生了意想不到的化学反应,反而导致了代码生成质量的下降。团队在4月20日迅速撤销了这条提示。这次变更影响了Sonnet 4.6、Opus 4.6及新发布的Opus 4.7版本。
01.默认推理强度调整引发连锁反应
在最新的排查公告里,Anthropic详细解释了这次性能波动的复杂性。它并非由单一问题引起,而是上述三项功能调整在时间和影响范围上相互叠加的结果。需要明确的是,问题仅限于Claude Code、Claude Agent SDK及Claude Cowork这三款产品,其核心的API服务并未受到影响。截至4月20日(版本号v2.1.116),所有相关问题都已修复完毕。
公告也坦言,由于三次变更各自的影响范围和持续时间不同,导致用户端的体验是“普遍感到性能下降,但问题表现并不稳定”。这种不稳定性,无疑给初期的问题排查增加了巨大难度。事实上,团队从3月初就启动了调查,但一开始很难区分这到底是正常的性能波动,还是确实出现了异常。内部的测试环境也没能第一时间复现故障。为了弥补用户,Anthropic才做出了重置所有用户使用额度的决定。
如果把时间线拉长,这场风波的伏笔早在今年2月就已埋下。当时,Anthropic在Claude Code中上线了Opus 4.6版本,并且将默认推理强度设置为“高”,旨在最大化模型的智能表现。然而,上线后不久,用户反馈就来了:高强度模式下,模型“思考”的时间太长,不仅带来了明显的响应延迟,Token消耗量也显著增加。

Opus 4.7与Opus 4.8不同模式下token消耗量
为此,Anthropic对默认设置动了一次手术。Claude Code里的“工作量级别”功能,其设计初衷是让用户在“思考时间、输出质量和成本”三者之间做出自己的权衡。内部测试显示,中等强度虽然在智能表现上略有妥协,但能显著降低延迟、避免极端的等待时间,同时提高使用效率。于是,团队一度将默认模式切换为“中”,并通过产品内的弹窗向用户说明了情况。
可是,这一调整很快引发了新的连锁反应,大量用户直观地感觉到模型“变弱了”。尽管团队随后尝试通过增加启动提示、内嵌难度选择器等方式引导用户自行调整,但大多数用户依然习惯沿用默认配置,导致负面反馈持续累积。

Claude通过产品内对话框解释了更改原因
在综合权衡了各方意见后,Anthropic最终在4月7日撤回了这项调整:将Opus 4.7的默认工作量设为1(对应xhigh级别),其余模型设为2(对应high级别),全面恢复了更高的默认推理强度。
02.让模型“健忘”的缓存漏洞
要理解这个漏洞,得先知道Claude的正常工作逻辑。在理想状态下,当Claude完成一轮推理后,它的整个思考过程会被完整地保存在对话历史中。这样,在接下来的每一次交互里,模型都能回溯自己之前为什么执行了某项编辑、调用了某个工具,从而保持决策的一致性和连贯性。
3月26日,Anthropic上线了一项旨在提升效率的性能优化,引入了“提示缓存”机制。简单说,就是为了降低连续API调用的成本并加快响应速度。具体做法是,Claude在发起请求时会把输入内容写入缓存;而当会话长时间不活跃后,这些缓存内容会被清理掉,以释放系统资源。
按照最初的设计,这个机制应该很简单:会话闲置超过一小时,系统就一次性清理掉旧的推理记录,以减少恢复会话时的资源开销。等用户再次回来交互时,再重新建立完整的推理历史。
但实际的代码实现出了个关键纰漏:推理历史并没有只被清理一次,而是在后续的每一轮对话中被持续、反复地清除。一旦会话触发了闲置阈值,之后的每个请求都会指示API只保留最新的一段推理数据,而丢弃之前所有的记录。
更麻烦的是,在工具调用过程中,如果用户插入了新消息,系统甚至可能在“上下文已经损坏”的状态下开启新一轮交互,连当前回合的推理信息都被一并清除。最终表现出来的症状就是,Claude虽然还能继续执行任务,但它越来越记不清自己之前为什么那么做,这正是用户反馈的“健忘”、回答重复、工具选择异常等问题的根源。
与此同时,由于这个漏洞持续地移除上下文信息,导致后续请求频繁出现缓存未命中的情况,Token消耗量不降反增。Anthropic认为,这也是部分用户反馈“使用额度消耗异常加快”的一个重要原因。

这个问题之所以难以被迅速发现,主要有两个原因:第一,它只在“长时间闲置会话”这类相对极端的条件下才会触发;第二,当时内部有两项并行的实验在一定程度上掩盖了问题的表现。其中一项是关于消息队列的服务器端实验,另一项则是对“思维过程展示”功能的调整,后者恰好在多数测试场景中抑制了异常现象,使得问题在测试阶段没有暴露出来。
从技术架构上看,这个漏洞位于Claude Code的上下文管理、Anthropic API与扩展推理机制三者的交汇处。相关的代码变更其实已经通过了多轮人工和自动化审查,也完成了单元测试、端到端测试和内部验证。但由于触发条件苛刻、复现难度极高,团队最终花费了超过一周时间才定位到根本原因,并在4月10日发布的v2.1.101版本中完成了修复。
在事后的复盘分析中,团队使用Opus 4.7对相关的代码提交进行了回溯。在提供了完整的代码仓库上下文后,Opus 4.7成功识别出了这个漏洞,而Opus 4.6则未能发现。Anthropic表示,未来将优化代码审查流程,考虑引入更大规模的上下文支持,以提升模型辅助开发工作的有效性。
03.系统提示优化的“副作用”
另一方面,随着Claude Opus 4.7的发布,模型在处理复杂任务时的能力确实显著增强了,但随之而来的一个“副作用”是输出内容更为详尽,这自然也带来了更高的Token消耗。
为此,Anthropic在Opus 4.7发布前的几周,就已经开始对Claude Code进行适配优化。由于不同模型在行为模式上存在差异,每次大版本更新前,团队都会对提示策略和产品体验进行系统性的调整。
在减少冗余输出方面,团队尝试了多种手段,包括模型训练优化、提示词设计以及交互体验改进。其中,一项关键调整是在系统提示中加入明确的长度限制指令:
工具调用之间的文本不超过25字;最终回复不超过100字(除非任务确有需要)。
这项改动在内部测试阶段没有暴露出明显问题,多组评估结果也没有显示性能下降,因此团队在4月16日随Opus 4.7版本一同上线了这项策略。
然而,在后续更大规模的评估中,通过消融实验(即逐条移除提示语以分析其具体影响)发现,这条长度限制对模型能力产生了负面影响,导致Opus 4.6与Opus 4.7的整体性能均下降了约3%。
基于这一确凿的评估结果,Anthropic在4月20日立即撤销了这条提示。
为了避免类似问题再次发生,Anthropic表示将从产品使用、研发流程与沟通机制等多个层面进行系统性改进。首先,团队将扩大内部真实使用场景,确保更多员工直接使用Claude Code的公开版本,而不是仅仅依赖测试环境中的预发布版本,以便更早地嗅探到潜在问题。同时,公司也将升级内部的代码审查工具,并计划将相关改进能力逐步开放给外部开发者使用。
在技术流程上,Anthropic将进一步收紧对系统提示变更的管理。未来,任何针对Claude Code的提示调整,都需要在不同模型版本上进行全面评估,并且要通过持续的消融测试来确保稳定性。团队还开发了新的审查与审计工具,以提升提示变更的可追溯性与可控性。此外,在内部的CLAUDE.md规范文件中,也已补充了相关条款,明确了不同模型的提示调整边界,防止出现跨模型干扰。
对于那些可能影响模型智能表现的改动,Anthropic表示将采取更谨慎的策略:延长测试周期、扩大评估数据集,并采用渐进式的发布方式,以便在影响范围较小时就能识别并修复问题。
在对外沟通方面,公司已经在X平台上线了@ClaudeDevs账号,用于更透明地解释产品决策背后的技术考量;同时,也会在GitHub的集中讨论帖中同步更新进展,增强与开发者社区的互动。
Anthropic在报告最后特别提到,此次问题的定位与修复,离不开用户社区的持续反馈。无论是通过官方反馈渠道提交的问题,还是用户在公开社区分享的可复现案例,都为排查工作提供了至关重要的线索。作为对这份支持的回应,公司于今日重置了所有订阅用户的使用额度。
04.结语:不只是更聪明,更要更可靠
回顾这场“降智”风波,其本质并非模型智力水平的退步,而更像是一个警示:在复杂的AI工程系统里,看似独立的产品决策与工程优化,可能会产生意想不到的叠加效应,最终引发连锁反应。
对Anthropic而言,这次公开、详细的技术复盘,既是一次对用户关切的危机应对,也是一次对外的清晰信号释放。在当下与OpenAI等竞争对手加速角逐的背景下,稳定、可靠的产品体验,或许正在成为与“追求更强模型”同等重要的竞争维度。毕竟,再聪明的模型,如果时不时“闹点小脾气”,用户体验也会大打折扣。
相关攻略
就在前天,一场堪称AI行业“核弹级”的乌龙事件,彻底打破了硅谷大模型圈的平静 明星AI独角兽Anthropic旗下的核心产品——Claude Code(AI编程助手),竟然因为一次极低级的打包错误,将其最核心的51万行源代码直接“开源”到了公共网络上。 不过,这还仅仅是开始。更富戏剧性的是Anthr
4月21日报道:OpenClaw之父TED首秀,揭秘“龙虾”出逃与AI新形态 4月18日,TED舞台迎来了一位特别的演讲者——“龙虾之父”、OpenClaw创始人彼得・斯坦伯格。这场演讲,是他经历三年精神空虚后的一次意外回归。开发OpenClaw本是一次重新寻找动力的尝试,没想到却意外引爆了全球热潮
这次事件根本不是什么高明的黑客攻击,纯粹是流程上的低级失误叠加,而且,这已经是第二次了! Anthropic的源码,又,又,又,又泄露了…… 到底发生了什么事? 简单来说,Claude Code在发布npm包时,一不小心把一个50多兆的调试用 map文件给打包进去了。 不就是多打了个文件吗?听上去,
OpenAI高估值面临市场审视:Anthropic崛起引发行业格局变动 近期《金融时报》的一篇深度报道,在科技与投资领域引发了广泛关注。核心议题直指行业焦点:部分资深投资者开始重新审视OpenAI高达8520亿美元的估值合理性。这一市场压力的重要来源,是竞争对手Anthropic的快速崛起,其发展势
人工智能 这一转向专业推理能力的趋势表明AI市场正在成熟,基础文本生成功能正逐渐商品化,服务提供商被迫通过高价值能力来实现差异化,以获取溢价收入…… 最近一份来自AI平台Poe的使用报告,揭示了一些耐人寻味的变化。OpenAI和谷歌在关键领域的领先地位持续巩固,而Anthropic的份额则有所下滑。
热门专题
热门推荐
在网络信息的浩瀚海洋中,热门文章总是吸引着无数人的目光 而蛙漫,这个备受关注的平台,其在线阅读入口自然成了许多读者探寻的焦点。怎么找到它,进去之后又能看到什么?咱们这就来聊聊。 蛙漫的魅力所在 简单来说,蛙漫的魅力在于它的“全”。这里就像一个内容集市,汇聚了各类精彩文章,题材包罗万象。你想看情节跌宕
指乎账号注销全流程详解 决定告别指乎,准备注销账号?这个操作确实需要谨慎,毕竟一旦完成,所有数据都将无法找回。下面,我们就来把注销账号的完整路径和关键细节,给你理得清清楚楚。 第一步:进入个人中心 首先,打开指乎App。在主界面底部导航栏,找到那个醒目的“我的”标签,点击进入。这里是你管理个人账号一
出行计划有变?一文读懂12306车票改签手续费 行程临时调整,车票改签是常事。但改签手续费怎么算,常常让人摸不着头脑。今天,我们就来把铁路12306的改签收费规则彻底讲清楚,让你下次改签时心里有本明白账,既不错过时机,也不花冤枉钱。 开车前48小时以上改签 如果你的行程变动得早,这可是最理想的改签窗
考研备考的得力助手:考研必题库App深度解析 在考研这场持久战中,选对工具往往能让复习效率倍增。今天要聊的这款考研必题库App,正是许多备考学子口中那个能“事半功倍”的得力助手。 海量真题:备考的核心资源库 说到备考,什么资源最金贵?历年真题绝对排在首位。这款App的核心优势之一,便是汇聚了各大学科
在无名骑士团这款游戏中,符文的选择对于各职业的发展至关重要 玩过《无名骑士团》的朋友都知道,职业强不强,一半看操作,另一半就得看符文怎么搭。一套合理的符文组合,往往能让你角色的战斗力产生质变,无论是刷本还是PK,都能更加得心应手。 战士职业符文选择 作为团队前排的绝对核心,战士的定位非常明确:既要扛





