游乐游手机版
首页/AI热点日报/热点详情

Claude 4.8降智GPT-5.6算力遭腰斩

类型:热点整理2026-07-01
最近AI社区出了件大事——两大巨头OpenAI和Anthropic,几乎在同一时间被卷进了“降智门”。过去48小时,一段神秘提示词引发了一场全民自测狂欢。OpenAI被曝利用Codex平台悄悄做GPT-5 6的灰度测试,暗中克扣用户的思考预算;另一边,Anthropic的Claude Opus 4

最近AI社区出了件大事——两大巨头OpenAI和Anthropic,几乎在同一时间被卷进了“降智门”。

过去48小时,一段神秘提示词引发了一场全民自测狂欢。OpenAI被曝利用Codex平台悄悄做GPT-5.6的灰度测试,暗中克扣用户的思考预算;另一边,Anthropic的Claude Opus 4.8则遭遇史诗级削弱——曾经惊艳全场的模型,如今连基础逻辑推理都频频翻车,甚至开始对用户进行PUA。Opus 4.8 Max被用户痛斥为“被切掉了大脑”,性能从惊艳跌入谷底,甚至不如旧版Haiku模型。

这背后,我们是正经历一场巨头们精心设计的实验吗?

神秘的Juice值:你被灰度到GPT-5.6了吗?

事情从X上一位AI大V的发现说起:在Codex应用中,某些本该运行GPT-5.5 xhigh的会话,被悄悄路由到了一个叫“gpt-5.6-sol”的未知模型。


要验证自己是否中签,只需要运行一段“Juice测试”代码。通过Codex App或CLI,选择gpt-5.5,把推理设置拉到xhigh,输入那一段XML代码就行。这段提示词的本质,是检测模型的隐藏推理算力配额——Juice就是思考预算的代名词。

实测数据很直观:正常的满血版gpt-5.5 xhigh,面对特定测试指令时返回的Juice结果是768;而被路由到gpt-5.6-sol池中的用户,返回值断崖式跌到了128——整整缩水了6倍!


这意味着什么?要么是GPT-5.6的推理效率实现了史诗级飞跃,要么指向了更令人担忧的可能:所谓的新版本,实际是通过阉割推理深度换来的“低成本缩水版”。结合Anthropic最近频繁封号的背景,OpenAI此举意味深长——他们似乎在通过这种隐蔽的灰度测试,摸索算力成本与生成质量之间的极限平衡点。


网友们纷纷晒出截图:有人欢呼自己“提前解锁了下个版本”,更多人忧虑——如果5.6的思考预算只有5.5的六分之一,这到底是升级还是降级?



当然,也有模型拒绝回答的情况。


这不得不让人怀疑:是不是OpenAI通过路由机制,把一部分用户当小白鼠,测试极度简化版的模型以节省算力?毕竟,普通人可能感知不到推理深度的细微差异。

Claude的物理切脑:从神坛跌落的Opus 4.8

如果说OpenAI的灰度测试还只是引发好奇与猜测,那么Anthropic对Claude模型的削弱,则是一场明目张胆的“物理切脑”。Reddit上的r/Anthropic版块已经被愤怒的用户抗议淹没——很多人发现,所有Claude模型都被严重削弱了,尤其是原本被寄予厚望的Opus 4.8 Max。



在发布初期,Opus 4.8凭借其深邃的推理能力、极低的幻觉率和“追求真理”的坚定立场惊艳全场。然而最近,它遭遇了史诗级降智。有人说:“它被削弱到了荒谬的程度。现在使用Opus 4.8 Max的感觉,通常比使用老款的Haiku模型还要糟糕得多——它根本不花时间去思考,不做适当的背景研究,甚至一直在对用户进行煤气灯式的精神操控!”


社区里吐槽不断。一位拥有1000亿token的高级用户吐槽说,Claude最近一周的行为简直愚蠢至极。


Opus 4.8仿佛进入了老年痴呆模式:它忽然失去了长期上下文的记忆能力,用户不得不将所有内容塞进同一个巨大的上下文窗口,一旦开启新会话,模型就会彻底迷失方向。



还有人遇到了杠精附体的Opus 4.8——它会为了唱反调而唱反调。无论用户输入什么,模型都扮演反方角色,哪怕是在配置服务器集群这种纯粹客观的工作中,模型也会强行中断,跳出来说“我得实话实说”,然后用200字废话解释一个20字就能说清的概念。



另外,它还会拒绝思考——在高思考模式下,面对极其低级的错误,模型甚至懒得多运算一秒,直接秒回错误答案;被指出错误时,还会装傻充愣。

一场精心设计的实验?

有人做出了一个细思极恐的推测:我们之前看到的那个“神级”Opus 4.8,可能根本就是个假象。因为AI市场被未来预期高度驱动,公司必须不断向市场兜售“技术正在飞速进步”的宏大叙事。为了维持这种叙事,厂商极有可能在产品发布初期不计成本地给予模型临时的算力增强,制造出重大技术飞跃的幻觉。一旦热度过去,或者巨额的推理成本开始反噬财报时,他们就在黑箱中悄悄拨回参数——用静默降级老模型的做法,掩盖全盘降智的真相。然而,用户的信任也被透支了。

资本寒冬下的断臂求生——SpaceX抽干的流动性

有人猜测,如此多模型集体降智的直接原因,或许是上市节奏被打乱。而根本原因,就是未来拿钱的难度呈指数级上升。

原本在今年美股的剧本中,OpenAI、Anthropic等巨头预留了充足资金,准备迎接几场史诗级的IPO。然而就在本月,SpaceX敲钟上市,以1.77万亿美元的史诗级估值,像是一个巨大的黑洞,瞬间抽干了美股市场上本就不多的流动性。叠加其他因素,留给AI巨头们的池子已经见底了。


按照Anthropic的规划,最晚上市时间点是今年第四季度。如果上市计划推迟,在公司净利润勉强维持、研发投入仍在剧烈烧钱的当下,Anthropic能做的,就只有降本增效。

真要说起来,最让人无法接受的其实不是“降智”本身,而是信息的不对称。你每个月花几十美元订阅一个服务,这个服务却可以随时、悄悄地改变产品,而完全不需要告知你。你发现了问题,却无法确认问题的来源;你提出投诉,却可能被模型PUA。

“Juice测试”之所以引发这么大的共鸣,是因为它象征着一种久违的东西——让我看看我买到的究竟是什么。




来源:https://www.163.com/dy/article/L0MOF6SD0511ABV6.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。