首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
GPT-5.5发布后,Anthropic道歉了

GPT-5.5发布后,Anthropic道歉了

热心网友
68
转载
2026-04-24

智东西4月24日消息

过去这一个多月,不少Claude Code用户心里直犯嘀咕:怎么感觉这工具“变笨了”?回复变短、记性变差、生成的代码质量也打了折扣,甚至有人直接调侃它“降智了”。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

有意思的是,就在今天凌晨GPT-5.5正式亮相后,Anthropic立刻发布了一份技术报告,正面回应了近期关于Claude Code的种种质疑。报告的核心结论很明确:问题并非模型本身能力退化,而是过去一个多月里,三项独立的产品调整意外叠加、共同失效导致的。Anthropic特别强调,公司绝无可能蓄意降低模型性能,并宣布从今天起,重置所有订阅用户的使用额度,算是对用户体验损失的一种补偿。

经过全面排查,团队最终锁定了三个具体的技术“病灶”:

1、推理难度调整失当:3月4日,为了解决部分用户在“高”难度下遇到的界面卡顿问题,Anthropic将Claude Code的默认推理难度下调到了“中”。但用户反馈很快表明,大家其实更倾向于默认使用更高的智能级别,只在处理简单任务时才手动切换到低难度。于是,团队在4月7日撤销了这项更改,恢复了原有设置。这次调整主要影响了Sonnet 4.6与Opus 4.6版本。

2、缓存优化漏洞致模型“健忘”:3月26日上线的一个会话缓存优化功能,本意是好的——清除闲置超过一小时的会话历史思维记录,以降低延迟。但程序出了个漏洞,导致这个清除操作在会话的剩余时间里被反复触发。结果就是,模型开始出现回答重复、工具选择异常的情况。该漏洞在4月10日被修复,影响范围覆盖了Sonnet 4.6与Opus 4.6版本。

3、系统提示调整损害代码质量:4月16日,Anthropic新增了一条系统提示,目的是精简输出、减少冗余。没想到,这条新指令与其他现有规则叠加后,产生了意想不到的化学反应,反而导致了代码生成质量的下降。团队在4月20日迅速撤销了这条提示。这次变更影响了Sonnet 4.6、Opus 4.6及新发布的Opus 4.7版本。

01.默认推理强度调整引发连锁反应

在最新的排查公告里,Anthropic详细解释了这次性能波动的复杂性。它并非由单一问题引起,而是上述三项功能调整在时间和影响范围上相互叠加的结果。需要明确的是,问题仅限于Claude Code、Claude Agent SDK及Claude Cowork这三款产品,其核心的API服务并未受到影响。截至4月20日(版本号v2.1.116),所有相关问题都已修复完毕。

公告也坦言,由于三次变更各自的影响范围和持续时间不同,导致用户端的体验是“普遍感到性能下降,但问题表现并不稳定”。这种不稳定性,无疑给初期的问题排查增加了巨大难度。事实上,团队从3月初就启动了调查,但一开始很难区分这到底是正常的性能波动,还是确实出现了异常。内部的测试环境也没能第一时间复现故障。为了弥补用户,Anthropic才做出了重置所有用户使用额度的决定。

如果把时间线拉长,这场风波的伏笔早在今年2月就已埋下。当时,Anthropic在Claude Code中上线了Opus 4.6版本,并且将默认推理强度设置为“高”,旨在最大化模型的智能表现。然而,上线后不久,用户反馈就来了:高强度模式下,模型“思考”的时间太长,不仅带来了明显的响应延迟,Token消耗量也显著增加。

Opus 4.7与Opus 4.8不同模式下token消耗量

为此,Anthropic对默认设置动了一次手术。Claude Code里的“工作量级别”功能,其设计初衷是让用户在“思考时间、输出质量和成本”三者之间做出自己的权衡。内部测试显示,中等强度虽然在智能表现上略有妥协,但能显著降低延迟、避免极端的等待时间,同时提高使用效率。于是,团队一度将默认模式切换为“中”,并通过产品内的弹窗向用户说明了情况。

可是,这一调整很快引发了新的连锁反应,大量用户直观地感觉到模型“变弱了”。尽管团队随后尝试通过增加启动提示、内嵌难度选择器等方式引导用户自行调整,但大多数用户依然习惯沿用默认配置,导致负面反馈持续累积。

Claude通过产品内对话框解释了更改原因

在综合权衡了各方意见后,Anthropic最终在4月7日撤回了这项调整:将Opus 4.7的默认工作量设为1(对应xhigh级别),其余模型设为2(对应high级别),全面恢复了更高的默认推理强度。

02.让模型“健忘”的缓存漏洞

要理解这个漏洞,得先知道Claude的正常工作逻辑。在理想状态下,当Claude完成一轮推理后,它的整个思考过程会被完整地保存在对话历史中。这样,在接下来的每一次交互里,模型都能回溯自己之前为什么执行了某项编辑、调用了某个工具,从而保持决策的一致性和连贯性。

3月26日,Anthropic上线了一项旨在提升效率的性能优化,引入了“提示缓存”机制。简单说,就是为了降低连续API调用的成本并加快响应速度。具体做法是,Claude在发起请求时会把输入内容写入缓存;而当会话长时间不活跃后,这些缓存内容会被清理掉,以释放系统资源。

按照最初的设计,这个机制应该很简单:会话闲置超过一小时,系统就一次性清理掉旧的推理记录,以减少恢复会话时的资源开销。等用户再次回来交互时,再重新建立完整的推理历史。

但实际的代码实现出了个关键纰漏:推理历史并没有只被清理一次,而是在后续的每一轮对话中被持续、反复地清除。一旦会话触发了闲置阈值,之后的每个请求都会指示API只保留最新的一段推理数据,而丢弃之前所有的记录。

更麻烦的是,在工具调用过程中,如果用户插入了新消息,系统甚至可能在“上下文已经损坏”的状态下开启新一轮交互,连当前回合的推理信息都被一并清除。最终表现出来的症状就是,Claude虽然还能继续执行任务,但它越来越记不清自己之前为什么那么做,这正是用户反馈的“健忘”、回答重复、工具选择异常等问题的根源。

与此同时,由于这个漏洞持续地移除上下文信息,导致后续请求频繁出现缓存未命中的情况,Token消耗量不降反增。Anthropic认为,这也是部分用户反馈“使用额度消耗异常加快”的一个重要原因。

这个问题之所以难以被迅速发现,主要有两个原因:第一,它只在“长时间闲置会话”这类相对极端的条件下才会触发;第二,当时内部有两项并行的实验在一定程度上掩盖了问题的表现。其中一项是关于消息队列的服务器端实验,另一项则是对“思维过程展示”功能的调整,后者恰好在多数测试场景中抑制了异常现象,使得问题在测试阶段没有暴露出来。

从技术架构上看,这个漏洞位于Claude Code的上下文管理、Anthropic API与扩展推理机制三者的交汇处。相关的代码变更其实已经通过了多轮人工和自动化审查,也完成了单元测试、端到端测试和内部验证。但由于触发条件苛刻、复现难度极高,团队最终花费了超过一周时间才定位到根本原因,并在4月10日发布的v2.1.101版本中完成了修复。

在事后的复盘分析中,团队使用Opus 4.7对相关的代码提交进行了回溯。在提供了完整的代码仓库上下文后,Opus 4.7成功识别出了这个漏洞,而Opus 4.6则未能发现。Anthropic表示,未来将优化代码审查流程,考虑引入更大规模的上下文支持,以提升模型辅助开发工作的有效性。

03.系统提示优化的“副作用”

另一方面,随着Claude Opus 4.7的发布,模型在处理复杂任务时的能力确实显著增强了,但随之而来的一个“副作用”是输出内容更为详尽,这自然也带来了更高的Token消耗。

为此,Anthropic在Opus 4.7发布前的几周,就已经开始对Claude Code进行适配优化。由于不同模型在行为模式上存在差异,每次大版本更新前,团队都会对提示策略和产品体验进行系统性的调整。

在减少冗余输出方面,团队尝试了多种手段,包括模型训练优化、提示词设计以及交互体验改进。其中,一项关键调整是在系统提示中加入明确的长度限制指令:

工具调用之间的文本不超过25字;最终回复不超过100字(除非任务确有需要)。

这项改动在内部测试阶段没有暴露出明显问题,多组评估结果也没有显示性能下降,因此团队在4月16日随Opus 4.7版本一同上线了这项策略。

然而,在后续更大规模的评估中,通过消融实验(即逐条移除提示语以分析其具体影响)发现,这条长度限制对模型能力产生了负面影响,导致Opus 4.6与Opus 4.7的整体性能均下降了约3%。

基于这一确凿的评估结果,Anthropic在4月20日立即撤销了这条提示。

为了避免类似问题再次发生,Anthropic表示将从产品使用、研发流程与沟通机制等多个层面进行系统性改进。首先,团队将扩大内部真实使用场景,确保更多员工直接使用Claude Code的公开版本,而不是仅仅依赖测试环境中的预发布版本,以便更早地嗅探到潜在问题。同时,公司也将升级内部的代码审查工具,并计划将相关改进能力逐步开放给外部开发者使用。

在技术流程上,Anthropic将进一步收紧对系统提示变更的管理。未来,任何针对Claude Code的提示调整,都需要在不同模型版本上进行全面评估,并且要通过持续的消融测试来确保稳定性。团队还开发了新的审查与审计工具,以提升提示变更的可追溯性与可控性。此外,在内部的CLAUDE.md规范文件中,也已补充了相关条款,明确了不同模型的提示调整边界,防止出现跨模型干扰。

对于那些可能影响模型智能表现的改动,Anthropic表示将采取更谨慎的策略:延长测试周期、扩大评估数据集,并采用渐进式的发布方式,以便在影响范围较小时就能识别并修复问题。

在对外沟通方面,公司已经在X平台上线了@ClaudeDevs账号,用于更透明地解释产品决策背后的技术考量;同时,也会在GitHub的集中讨论帖中同步更新进展,增强与开发者社区的互动。

Anthropic在报告最后特别提到,此次问题的定位与修复,离不开用户社区的持续反馈。无论是通过官方反馈渠道提交的问题,还是用户在公开社区分享的可复现案例,都为排查工作提供了至关重要的线索。作为对这份支持的回应,公司于今日重置了所有订阅用户的使用额度。

04.结语:不只是更聪明,更要更可靠

回顾这场“降智”风波,其本质并非模型智力水平的退步,而更像是一个警示:在复杂的AI工程系统里,看似独立的产品决策与工程优化,可能会产生意想不到的叠加效应,最终引发连锁反应。

对Anthropic而言,这次公开、详细的技术复盘,既是一次对用户关切的危机应对,也是一次对外的清晰信号释放。在当下与OpenAI等竞争对手加速角逐的背景下,稳定、可靠的产品体验,或许正在成为与“追求更强模型”同等重要的竞争维度。毕竟,再聪明的模型,如果时不时“闹点小脾气”,用户体验也会大打折扣。

来源:https://36kr.com/p/3780358673863687
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Anthropic源码泄露后续:爆破数千个代码仓库,开发者集体怒了
科技数码
Anthropic源码泄露后续:爆破数千个代码仓库,开发者集体怒了

就在前天,一场堪称AI行业“核弹级”的乌龙事件,彻底打破了硅谷大模型圈的平静 明星AI独角兽Anthropic旗下的核心产品——Claude Code(AI编程助手),竟然因为一次极低级的打包错误,将其最核心的51万行源代码直接“开源”到了公共网络上。 不过,这还仅仅是开始。更富戏剧性的是Anthr

热心网友
04.22
“龙虾之父”TED首秀:谈中国养虾热,吐槽Anthropic,回应安全问题
AI
“龙虾之父”TED首秀:谈中国养虾热,吐槽Anthropic,回应安全问题

4月21日报道:OpenClaw之父TED首秀,揭秘“龙虾”出逃与AI新形态 4月18日,TED舞台迎来了一位特别的演讲者——“龙虾之父”、OpenClaw创始人彼得・斯坦伯格。这场演讲,是他经历三年精神空虚后的一次意外回归。开发OpenClaw本是一次重新寻找动力的尝试,没想到却意外引爆了全球热潮

热心网友
04.22
Anthropic 源码又泄露了,让你把这个瓜吃明白?(Claude Code被动开源)
业界动态
Anthropic 源码又泄露了,让你把这个瓜吃明白?(Claude Code被动开源)

这次事件根本不是什么高明的黑客攻击,纯粹是流程上的低级失误叠加,而且,这已经是第二次了! Anthropic的源码,又,又,又,又泄露了…… 到底发生了什么事? 简单来说,Claude Code在发布npm包时,一不小心把一个50多兆的调试用 map文件给打包进去了。 不就是多打了个文件吗?听上去,

热心网友
04.22
OpenAI 投资者因 Anthropic 崛起而重新审视投资策略
业界动态
OpenAI 投资者因 Anthropic 崛起而重新审视投资策略

OpenAI高估值面临市场审视:Anthropic崛起引发行业格局变动 近期《金融时报》的一篇深度报道,在科技与投资领域引发了广泛关注。核心议题直指行业焦点:部分资深投资者开始重新审视OpenAI高达8520亿美元的估值合理性。这一市场压力的重要来源,是竞争对手Anthropic的快速崛起,其发展势

热心网友
04.22
AI实力排名洗牌:OpenAI、谷歌崛起,Anthropic下滑
AI
AI实力排名洗牌:OpenAI、谷歌崛起,Anthropic下滑

人工智能 这一转向专业推理能力的趋势表明AI市场正在成熟,基础文本生成功能正逐渐商品化,服务提供商被迫通过高价值能力来实现差异化,以获取溢价收入…… 最近一份来自AI平台Poe的使用报告,揭示了一些耐人寻味的变化。OpenAI和谷歌在关键领域的领先地位持续巩固,而Anthropic的份额则有所下滑。

热心网友
04.22

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

蛙漫在线阅读入口在哪-蛙漫在线阅读入口怎么找
手机教程
蛙漫在线阅读入口在哪-蛙漫在线阅读入口怎么找

在网络信息的浩瀚海洋中,热门文章总是吸引着无数人的目光 而蛙漫,这个备受关注的平台,其在线阅读入口自然成了许多读者探寻的焦点。怎么找到它,进去之后又能看到什么?咱们这就来聊聊。 蛙漫的魅力所在 简单来说,蛙漫的魅力在于它的“全”。这里就像一个内容集市,汇聚了各类精彩文章,题材包罗万象。你想看情节跌宕

热心网友
04.24
指乎如何注销账号-指乎怎样注销账户
手机教程
指乎如何注销账号-指乎怎样注销账户

指乎账号注销全流程详解 决定告别指乎,准备注销账号?这个操作确实需要谨慎,毕竟一旦完成,所有数据都将无法找回。下面,我们就来把注销账号的完整路径和关键细节,给你理得清清楚楚。 第一步:进入个人中心 首先,打开指乎App。在主界面底部导航栏,找到那个醒目的“我的”标签,点击进入。这里是你管理个人账号一

热心网友
04.24
铁路12306车票改签手续费怎么算-铁路12306车票改签手续费规定
手机教程
铁路12306车票改签手续费怎么算-铁路12306车票改签手续费规定

出行计划有变?一文读懂12306车票改签手续费 行程临时调整,车票改签是常事。但改签手续费怎么算,常常让人摸不着头脑。今天,我们就来把铁路12306的改签收费规则彻底讲清楚,让你下次改签时心里有本明白账,既不错过时机,也不花冤枉钱。 开车前48小时以上改签 如果你的行程变动得早,这可是最理想的改签窗

热心网友
04.24
考研必题库app有什么作用-考研必题库app的用途是什么
手机教程
考研必题库app有什么作用-考研必题库app的用途是什么

考研备考的得力助手:考研必题库App深度解析 在考研这场持久战中,选对工具往往能让复习效率倍增。今天要聊的这款考研必题库App,正是许多备考学子口中那个能“事半功倍”的得力助手。 海量真题:备考的核心资源库 说到备考,什么资源最金贵?历年真题绝对排在首位。这款App的核心优势之一,便是汇聚了各大学科

热心网友
04.24
无名骑士团各职业符文如何选择-无名骑士团各职业符文怎样挑选
游戏攻略
无名骑士团各职业符文如何选择-无名骑士团各职业符文怎样挑选

在无名骑士团这款游戏中,符文的选择对于各职业的发展至关重要 玩过《无名骑士团》的朋友都知道,职业强不强,一半看操作,另一半就得看符文怎么搭。一套合理的符文组合,往往能让你角色的战斗力产生质变,无论是刷本还是PK,都能更加得心应手。 战士职业符文选择 作为团队前排的绝对核心,战士的定位非常明确:既要扛

热心网友
04.24