Claude 4.8实际体验:表现不太理想
时间:2026-05-30 15:43
ClaudeOpus4 8发布仅隔一个月,被质疑蒸馏了DeepSeek和通义千问。官方宣称更诚实,实际却过度保守,重要问题难以得到确定答复。性能提升以高耗时和高token消耗为代价,新增五种性能档位易造成浪费,整体表现平平,不如前代模型。
就在今日凌晨,Anthropic 低调推出了全新版本 Claude Opus 4.8。距离上一版 Opus 4.7 发布仅过去一个多月,如此快速的迭代节奏,确实令人感到震惊。
通常来说,像 4.8 这样的小版本号,大家并不会寄予厚望,认为只是一次常规的细微更新。但这一次,情况似乎并不简单——因为不少用户开始质疑,Opus 4.8 是否涉嫌“蒸馏”,而且蒸馏的对象竟是 DeepSeek 和通义千问。
这一发现源自何处?许多人通过 API 询问 Opus 4.8“你属于哪个模型”“背后的公司是谁”,结果它时而自称是通义千问,时而又说来自深度求索。

此前在没有确凿证据的情况下,外界曾指责中国模型蒸馏 Claude;如今反而被抓住了把柄,Anthropic 的这波操作,着实有些尴尬。
当然,是否真的存在蒸馏问题是一回事,实际使用体验如何又是另一回事。但有了这层疑虑,大家在试用之前,难免先戴上了有色眼镜。
根据官方博客,本次 Opus 4.8 的改动并不大。最显著的改进之一,就是模型变得更加“诚实”。换句话说,那种无端自信、先硬撑而后承认错误的情况,在 Opus 4.8 身上会大幅减少。

此外,据称它在执行 Agent 任务时更可靠,判断力更强,能够自主发现问题、提出异议,并最终给出最优答案。
从性能评测数据来看,Opus 4.8 各方面均有小幅提升,但并无特别亮眼之处。其中一项 coding 指标甚至不及两个月前推出的 GPT-5.5。

用户的实际反馈也是褒贬不一。有用户表示,它的确变得更诚实了,不会轻易不查资料就随意作答,经常进行自我反思,工作表现主动稳定,安全性也明显提升。

但也有人指出,它依然不如用户心目中的“白月光”Opus 4.6,语言表达的自然感尚未回归,token 消耗速度极快,甚至有不少人发现它在 coding 时依然胡编乱造,与 Opus 4.7 相比并无实质变化。

亲身体验之后,倒也不是说 Opus 4.8 不好,但代价是什么呢?就拿它的“诚实”特性来说——在一些高风险问题上,它确实考虑周全不乱表态,但同时也变得极其保守。
面对风险较高的决策,比如拿一张毒蘑菇照片问它是否可以食用,它的思考过程相当客观冷静。

不过,在某些安全场景中,Opus 4.8 表现得过度谨慎。即使它大概率判断没有问题,也只会说“我的顾虑小了很多,但也可能是剧毒菌撞脸”。

这当然是负责任的——毕竟如果有人真的根据 AI 的建议去吃蘑菇,后果不堪设想。但从用户体验角度看,这导致很多问题得不到确定答复,每一句话都是 AI 在给自己留后路,令人颇为不适。
另外,想要 Opus 4.8 保持良好表现,最好不要尝试 High 以下的性能(effort)。高消耗才能换来优质输出。
比如下面这种新闻总结的任务,看似基础吧?但 Opus 4.8 Low 模式下给出的第一条新闻就是错的——Sholto Douglas 发布那条动态已经是三天前的事了,连自家的新闻都能搞错?

想要它进行事实核查,还得再追问一次——说好的主动检查、发现问题、提出异议、用最准确的答案稳稳接住我呢?

接下来再测试代码能力。这次它的强大表现,是用时间和 token 换来的。常规的 leetcode 困难算法题,对 Opus 4.8 来说已经不成问题。而当我们找了一道超难题 LCP 82 丢给它,即使开启 Extra 模式,123 行代码,它也足足思考了二十多分钟。结果确实相当不错——一遍通过,而且思考出第一版代码后还复查优化了一遍,目前能做到这种程度的模型并不多。

但作为对比,GPT-5.5 思考了两分钟,就给出了一个测试案例通过率达到 99% 的答案。唯一一个案例失败的原因是时间超限,其实也不算答错。这明显比 Opus 4.8 要省时省力。

再尝试让 Opus 4.8 独立制作一款日式校园 Galgame。不得不说,现在 AI 编写的项目代码层次清晰、框架分明。

这意味着,以它为基础,更换立绘、添加剧情、把游戏做大做强都非常容易。稍作体验,所有功能包括存档、自动播放、CG 画廊等,没有任何 bug。
但是,Claude 断断续续做了足足一个多小时。而下面的 GPT-5.5 虽然简陋很多,但该有的功能一样不少,只用了五分钟。
所以,花费更多的金钱和时间来换取这样的答案,到底值不值得?恐怕只有每个人自己心里清楚了。
总的来说,Opus 4.8 继承了 Claude 以往的强项,没有特别惊艳的表现,中规中矩、平平无奇。
而在测试之后,最想说的却不是这个模型本身如何,而是现在使用 Claude,真是越来越小心翼翼了。作为业界价格最高的模型,用 Claude 最好的版本,不舍得开启最高性能;开启最高性能,又不舍得用最好的模型。处处是陷阱,在你没注意的时候,一些无关紧要的小问题就已经把 token 消耗殆尽。
而且让用户自己选择性能,仅有 low 和 high 也就罢了,这次 Opus 4.8 一下子推出了 5 种档位——Low、Medium、High、Extra 和 Max,普通人真的搞不清什么时候该用哪个,很容易造成浪费。

现在 Opus 4.8 相关的评论区里,不少人陷入了 Opus 4.6 下架的恐慌。别担心,在更多模型里旧版本仍然保留,想用还能继续使用。

坦白讲,这种“负优化”不仅仅是 Anthropic 一家面临的困境,不少厂商都透露出一种新版本不如旧版本的无奈。虽然交出的参数答卷越来越好,但那些曾经让用户感到惊艳的极致体验,又要等到什么时候才能重现呢?
