游乐游手机版
首页/业界动态/文章详情

Claude变蠢是新模型发布前的黑暗时刻吗

时间:2026-06-16 13:52
ClaudeOpus被用户反馈推理深度下降67%,回答更快但更敷衍,出现“AI缩水式通胀”。Anthropic解释为系统层调整与自适应推理机制,但用户感受是模型变蠢且不稳定,旧模型被边缘化可能为新模型让路。

Claude Opus的智能感下降了吗?

你大概也有这种体验:它回复速度更快了,但似乎不如从前那么机敏。思考链条缩短了,有时候感觉就像跳过了不少本该仔细推敲的步骤——直接给出结论,却少了那种让人豁然开朗的惊喜效果。

如果只是个别用户这么认为,或许只是偶然感受。但当Reddit、推特以及各大社区里类似的吐槽相继涌现,这件事就不再是单纯的“感觉不对劲”。网络上甚至开始流传一些搞笑段子,说现在的Opus像被拔光鬃毛的雄狮,远远看去跟普通狗没什么两样。

一个更加直白的说法开始蔓延:Opus被削弱了。

这到底是真实情况吗?如果是,为什么会被削弱?

01 推理深度缩减约67%

起初只是零散的议论。有用户指出Claude Opus“变懒了”“表现不如从前”。偶尔犯下低级错误,或是在复杂任务里遗漏几轮推理——那种感觉就像平日里配合无间的同事,突然某天开始漫不经心。

遇到这种情况,多数人的本能反应是自我怀疑:是不是我的prompt写得不到位?还是这类任务本身就不适合它?或许只是偶然的失误吧?

但没过多久,Reddit的Claude讨论区里,相似的反馈开始密集涌现,且描述高度一致:有人说它不再仔细审读代码;有人提到它回答更快,却经常缺失关键环节;还有人发现它在长期任务中更容易“提前收工”,好像默认目标已经达成。

当不同用户在不同场景下反复遭遇同类问题,这就不再是单纯的“主观感受”了。更像是一种行为模式的系统性变迁——模型真的在发生变化。

真正让讨论升温的是这个数据:有人在Claude Code的使用过程中,对历史交互日志做了对比,发现模型在复杂任务中的推理过程显著缩短——自2月更新以来,推理深度下降了大约67%。

作者本人坦诚地表示,这个67%是基于签名长度与思考内容长度的相关性估算,并非直接测量结果。加上一月份的日志已被删除,基线对比不够精确。相比之下,报告里更具参考价值的是那些行为层面的变化——比如read:edit(读取代码与修改代码的比率)从6.6降至2.0;3月8日之后,被stop hook捕捉到的违规行为达173次,而此前记录为零。

老实说,数据是否精确到小数点并不关键。重要的是,它让原本模糊的主观体验,第一次被量化为一个可讨论的趋势。

由此,一个新词汇开始在社区流行:“AI shrinkflation”(AI缩水式通胀)。缩水式通胀原本是经济学术语,指商品分量或数量减少而价格不变。放在这里含义也很直接——模型实际提供的能力减少了,但名字还是同一个名字。

02 能力打折,敷衍感从何而来

面对社区的热烈反应,Anthropic并未直接承认“模型变差”。Claude Code的开发负责人Boris给出的解释是,这些变化源于系统层的调整:工具调用方式、推理策略、资源分配机制——而非模型本身能力下降。

他举了个例子:在Claude Code中,部分问题其实源自工具链和系统prompt,并非模型自身;与此同时,在高负载环境下,系统需对算力、token和请求进行管控,自然会影响用户体验。最新版本中,Anthropic引入了一项叫做“自适应推理”(adaptive thinking)的机制——模型会根据任务难度,动态决定是否进行推理以及投入多少推理资源。

也就是说,并非模型变差了,而是模型开始自行判断要用多少算力。

从工程角度看,这是一种合理的优化:简单任务少思考,复杂任务多思考,整体效率自然提升。

但问题在于——效率优化和能力削弱,在用户体验层面并无差别。当一个模型开始更少阅读上下文、更快给出答案、更频繁地提前结束任务,用户感受到的不会是优化,而是敷衍。

更重要的是,这种“自适应推理”在感性上确实让人不太舒服。还是拿人际交往打比方:凭什么一开始好好的,用着用着就觉得我的事情不重要了?

这种不适感很快被另一个变化放大。Claude Mythos Preview——被Anthropic称为“能力跃迁的一代”——在代码与安全任务上表现远超以往,被限制性地提供给少数机构使用,用于加固“全球最关键的软件系统”。当“更强的新模型”与“体感变差的旧模型”同时出现,一个在社区中不断被提及的猜测开始成型:把旧模型削弱再抬升新模型,一捧一踩,显得新模型升级巨大。

这个逻辑没有直接证据,但它正被越来越多用户所接受。

03 模型不再稳定可靠

实际上,类似现象在AI行业并不新鲜。早在2024年就有研究对比了GPT-4在不同时间段的表现,发现同一模型在数月内,推理方式和输出行为都发生了明显变化——被解释为推理策略调整、安全策略收紧、成本与响应速度优化的叠加结果。

抛开阴谋论不谈,即便真的存在资源倾斜,这在AI行业也算常态。无论是OpenAI还是Google,几乎所有公司都会优先优化最新一代模型,而旧模型逐渐被边缘化。算力既是成本,也是生产力。当新模型的能力上限更高、潜在价值更大,将更多资源投入其中,本身就是理性的选择。在这个过程中,旧模型的状态自然发生变化——被“降权”、推理深度被压缩、资源分配被重新调整——这些都可以理解为工程上的取舍。

但理解归理解。新模型不对外开放给大众使用,旧模型又在毫无征兆的情况下变成这样,谁能轻易接受?

从用户视角看,最令人不满的其实不是模型“变蠢”,而是它的“不稳定”。当一个模型从稳定的工具变成一个会不断变化的系统,它自行做出了调整——没有提示,没有版本说明,也没有边界。作为用户,你不知它何时变了,不知它具体变了什么,更不知这种变化是否会影响你正在做的事情。

你只能感受到——它变了,变得不如以前好用了。

而这时候,一个新模型就摆在眼前,看起来更稳定、更可靠。于是选择变得微妙起来:不是你主动选择新模型,而是旧模型的变化将你推向更新的那一个。即便清楚,新模型也可能在某一天变成下一个旧模型,可能在某个节点猝不及防地“优化”成让人难受的版本——但在那一刻,差距已经摆在眼前。

来源:https://36kr.com/p/3768986624160515
上一篇徐可意专访:热爱是坚持生态摄影的最大动力 下一篇马斯克宣布特斯拉AI5自驾芯片流片完成
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
长安汽车明年一季度发布首款车载人形机器人小安
业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略,采用“1+N+X”布局,联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm,体重69kg,移动速度0 8m s,具备40个自由度,续航超2小时。预计明年一季度发布首款车载组件机器人,已在广州车展展示。

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影
业界动态 · 2026-06-29

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影

3月25日,光通信领域迎来又一个里程碑:中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司,成功实现了2 5Pb s 24芯光纤超大容量实时光传输,再次刷新了世界纪录。 这一研究成果不仅入选国际顶级光通信会议OFC(2026)并荣获“高分论文”称号,还受国际权威SCI

美国调查18万辆特斯拉Model3车门应急释放装置易找性
业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查,焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿,不意味着立即召回,但可能引发后续监管措施。

doc个人图书馆停服 创始人称无偿转让失败
业界动态 · 2026-06-29

doc个人图书馆停服 创始人称无偿转让失败

运营长达20年,累计服务8000万用户的360doc个人图书馆,最终还是迎来了谢幕时刻。2026年5月1日,这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失,而是始终未能寻得一位能够安全接管的合适人选。 创始人蔡智在告别信中坦言,近两个月来,他一直在尝试将360doc无偿转

年Q1随身WiFi实测安全靠谱高性价比机型推荐
业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月,艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证,紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后,折射出一个清晰的市场趋势:移动办公、户外出行、宿舍上网等场景的需求正在快速增长,随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿