Claude变蠢是新模型发布前的黑暗时刻吗

首页/业界动态/文章详情

Claude变蠢是新模型发布前的黑暗时刻吗

时间：2026-06-16 13:52

ClaudeOpus被用户反馈推理深度下降67%，回答更快但更敷衍，出现“AI缩水式通胀”。Anthropic解释为系统层调整与自适应推理机制，但用户感受是模型变蠢且不稳定，旧模型被边缘化可能为新模型让路。

Claude Opus的智能感下降了吗？

你大概也有这种体验：它回复速度更快了，但似乎不如从前那么机敏。思考链条缩短了，有时候感觉就像跳过了不少本该仔细推敲的步骤——直接给出结论，却少了那种让人豁然开朗的惊喜效果。

如果只是个别用户这么认为，或许只是偶然感受。但当Reddit、推特以及各大社区里类似的吐槽相继涌现，这件事就不再是单纯的“感觉不对劲”。网络上甚至开始流传一些搞笑段子，说现在的Opus像被拔光鬃毛的雄狮，远远看去跟普通狗没什么两样。

一个更加直白的说法开始蔓延：Opus被削弱了。

这到底是真实情况吗？如果是，为什么会被削弱？

01 推理深度缩减约67%

起初只是零散的议论。有用户指出Claude Opus“变懒了”“表现不如从前”。偶尔犯下低级错误，或是在复杂任务里遗漏几轮推理——那种感觉就像平日里配合无间的同事，突然某天开始漫不经心。

遇到这种情况，多数人的本能反应是自我怀疑：是不是我的prompt写得不到位？还是这类任务本身就不适合它？或许只是偶然的失误吧？

但没过多久，Reddit的Claude讨论区里，相似的反馈开始密集涌现，且描述高度一致：有人说它不再仔细审读代码；有人提到它回答更快，却经常缺失关键环节；还有人发现它在长期任务中更容易“提前收工”，好像默认目标已经达成。

当不同用户在不同场景下反复遭遇同类问题，这就不再是单纯的“主观感受”了。更像是一种行为模式的系统性变迁——模型真的在发生变化。

真正让讨论升温的是这个数据：有人在Claude Code的使用过程中，对历史交互日志做了对比，发现模型在复杂任务中的推理过程显著缩短——自2月更新以来，推理深度下降了大约67%。

作者本人坦诚地表示，这个67%是基于签名长度与思考内容长度的相关性估算，并非直接测量结果。加上一月份的日志已被删除，基线对比不够精确。相比之下，报告里更具参考价值的是那些行为层面的变化——比如read:edit（读取代码与修改代码的比率）从6.6降至2.0；3月8日之后，被stop hook捕捉到的违规行为达173次，而此前记录为零。

老实说，数据是否精确到小数点并不关键。重要的是，它让原本模糊的主观体验，第一次被量化为一个可讨论的趋势。

由此，一个新词汇开始在社区流行：“AI shrinkflation”（AI缩水式通胀）。缩水式通胀原本是经济学术语，指商品分量或数量减少而价格不变。放在这里含义也很直接——模型实际提供的能力减少了，但名字还是同一个名字。

02 能力打折，敷衍感从何而来

面对社区的热烈反应，Anthropic并未直接承认“模型变差”。Claude Code的开发负责人Boris给出的解释是，这些变化源于系统层的调整：工具调用方式、推理策略、资源分配机制——而非模型本身能力下降。

他举了个例子：在Claude Code中，部分问题其实源自工具链和系统prompt，并非模型自身；与此同时，在高负载环境下，系统需对算力、token和请求进行管控，自然会影响用户体验。最新版本中，Anthropic引入了一项叫做“自适应推理”（adaptive thinking）的机制——模型会根据任务难度，动态决定是否进行推理以及投入多少推理资源。

也就是说，并非模型变差了，而是模型开始自行判断要用多少算力。

从工程角度看，这是一种合理的优化：简单任务少思考，复杂任务多思考，整体效率自然提升。

但问题在于——效率优化和能力削弱，在用户体验层面并无差别。当一个模型开始更少阅读上下文、更快给出答案、更频繁地提前结束任务，用户感受到的不会是优化，而是敷衍。

更重要的是，这种“自适应推理”在感性上确实让人不太舒服。还是拿人际交往打比方：凭什么一开始好好的，用着用着就觉得我的事情不重要了？

这种不适感很快被另一个变化放大。Claude Mythos Preview——被Anthropic称为“能力跃迁的一代”——在代码与安全任务上表现远超以往，被限制性地提供给少数机构使用，用于加固“全球最关键的软件系统”。当“更强的新模型”与“体感变差的旧模型”同时出现，一个在社区中不断被提及的猜测开始成型：把旧模型削弱再抬升新模型，一捧一踩，显得新模型升级巨大。

这个逻辑没有直接证据，但它正被越来越多用户所接受。

03 模型不再稳定可靠

实际上，类似现象在AI行业并不新鲜。早在2024年就有研究对比了GPT-4在不同时间段的表现，发现同一模型在数月内，推理方式和输出行为都发生了明显变化——被解释为推理策略调整、安全策略收紧、成本与响应速度优化的叠加结果。

抛开阴谋论不谈，即便真的存在资源倾斜，这在AI行业也算常态。无论是OpenAI还是Google，几乎所有公司都会优先优化最新一代模型，而旧模型逐渐被边缘化。算力既是成本，也是生产力。当新模型的能力上限更高、潜在价值更大，将更多资源投入其中，本身就是理性的选择。在这个过程中，旧模型的状态自然发生变化——被“降权”、推理深度被压缩、资源分配被重新调整——这些都可以理解为工程上的取舍。

但理解归理解。新模型不对外开放给大众使用，旧模型又在毫无征兆的情况下变成这样，谁能轻易接受？

从用户视角看，最令人不满的其实不是模型“变蠢”，而是它的“不稳定”。当一个模型从稳定的工具变成一个会不断变化的系统，它自行做出了调整——没有提示，没有版本说明，也没有边界。作为用户，你不知它何时变了，不知它具体变了什么，更不知这种变化是否会影响你正在做的事情。

你只能感受到——它变了，变得不如以前好用了。

而这时候，一个新模型就摆在眼前，看起来更稳定、更可靠。于是选择变得微妙起来：不是你主动选择新模型，而是旧模型的变化将你推向更新的那一个。即便清楚，新模型也可能在某一天变成下一个旧模型，可能在某个节点猝不及防地“优化”成让人难受的版本——但在那一刻，差距已经摆在眼前。

来源：https://36kr.com/p/3768986624160515

Claude

上一篇徐可意专访：热爱是坚持生态摄影的最大动力 下一篇马斯克宣布特斯拉AI5自驾芯片流片完成

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略，采用“1+N+X”布局，联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm，体重69kg，移动速度0 8m s，具备40个自由度，续航超2小时。预计明年一季度发布首款车载组件机器人，已在广州车展展示。

业界动态 · 2026-06-29

中国信科刷新光通信世界纪录每秒可下载1.4万部4K电影

3月25日，光通信领域迎来又一个里程碑：中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司，成功实现了2 5Pb s 24芯光纤超大容量实时光传输，再次刷新了世界纪录。这一研究成果不仅入选国际顶级光通信会议OFC（2026）并荣获“高分论文”称号，还受国际权威SCI

业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查，焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿，不意味着立即召回，但可能引发后续监管措施。

业界动态 · 2026-06-29

doc个人图书馆停服创始人称无偿转让失败

运营长达20年，累计服务8000万用户的360doc个人图书馆，最终还是迎来了谢幕时刻。2026年5月1日，这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失，而是始终未能寻得一位能够安全接管的合适人选。创始人蔡智在告别信中坦言，近两个月来，他一直在尝试将360doc无偿转

业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月，艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证，紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后，折射出一个清晰的市场趋势：移动办公、户外出行、宿舍上网等场景的需求正在快速增长，随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿