Claude 4.8实际体验：表现不太理想

时间：2026-05-30 15:43

ClaudeOpus4 8发布仅隔一个月，被质疑蒸馏了DeepSeek和通义千问。官方宣称更诚实，实际却过度保守，重要问题难以得到确定答复。性能提升以高耗时和高token消耗为代价，新增五种性能档位易造成浪费，整体表现平平，不如前代模型。

就在今日凌晨，Anthropic 低调推出了全新版本 Claude Opus 4.8。距离上一版 Opus 4.7 发布仅过去一个多月，如此快速的迭代节奏，确实令人感到震惊。通常来说，像 4.8 这样的小版本号，大家并不会寄予厚望，认为只是一次常规的细微更新。但这一次，情况似乎并不简单——因为不少用户开始质疑，Opus 4.8 是否涉嫌“蒸馏”，而且蒸馏的对象竟是 DeepSeek 和通义千问。这一发现源自何处？许多人通过 API 询问 Opus 4.8“你属于哪个模型”“背后的公司是谁”，结果它时而自称是通义千问，时而又说来自深度求索。

此前在没有确凿证据的情况下，外界曾指责中国模型蒸馏 Claude；如今反而被抓住了把柄，Anthropic 的这波操作，着实有些尴尬。当然，是否真的存在蒸馏问题是一回事，实际使用体验如何又是另一回事。但有了这层疑虑，大家在试用之前，难免先戴上了有色眼镜。根据官方博客，本次 Opus 4.8 的改动并不大。最显著的改进之一，就是模型变得更加“诚实”。换句话说，那种无端自信、先硬撑而后承认错误的情况，在 Opus 4.8 身上会大幅减少。

此外，据称它在执行 Agent 任务时更可靠，判断力更强，能够自主发现问题、提出异议，并最终给出最优答案。从性能评测数据来看，Opus 4.8 各方面均有小幅提升，但并无特别亮眼之处。其中一项 coding 指标甚至不及两个月前推出的 GPT-5.5。

用户的实际反馈也是褒贬不一。有用户表示，它的确变得更诚实了，不会轻易不查资料就随意作答，经常进行自我反思，工作表现主动稳定，安全性也明显提升。

但也有人指出，它依然不如用户心目中的“白月光”Opus 4.6，语言表达的自然感尚未回归，token 消耗速度极快，甚至有不少人发现它在 coding 时依然胡编乱造，与 Opus 4.7 相比并无实质变化。

亲身体验之后，倒也不是说 Opus 4.8 不好，但代价是什么呢？就拿它的“诚实”特性来说——在一些高风险问题上，它确实考虑周全不乱表态，但同时也变得极其保守。面对风险较高的决策，比如拿一张毒蘑菇照片问它是否可以食用，它的思考过程相当客观冷静。

不过，在某些安全场景中，Opus 4.8 表现得过度谨慎。即使它大概率判断没有问题，也只会说“我的顾虑小了很多，但也可能是剧毒菌撞脸”。

这当然是负责任的——毕竟如果有人真的根据 AI 的建议去吃蘑菇，后果不堪设想。但从用户体验角度看，这导致很多问题得不到确定答复，每一句话都是 AI 在给自己留后路，令人颇为不适。另外，想要 Opus 4.8 保持良好表现，最好不要尝试 High 以下的性能（effort）。高消耗才能换来优质输出。比如下面这种新闻总结的任务，看似基础吧？但 Opus 4.8 Low 模式下给出的第一条新闻就是错的——Sholto Douglas 发布那条动态已经是三天前的事了，连自家的新闻都能搞错？

想要它进行事实核查，还得再追问一次——说好的主动检查、发现问题、提出异议、用最准确的答案稳稳接住我呢？

接下来再测试代码能力。这次它的强大表现，是用时间和 token 换来的。常规的 leetcode 困难算法题，对 Opus 4.8 来说已经不成问题。而当我们找了一道超难题 LCP 82 丢给它，即使开启 Extra 模式，123 行代码，它也足足思考了二十多分钟。结果确实相当不错——一遍通过，而且思考出第一版代码后还复查优化了一遍，目前能做到这种程度的模型并不多。

但作为对比，GPT-5.5 思考了两分钟，就给出了一个测试案例通过率达到 99% 的答案。唯一一个案例失败的原因是时间超限，其实也不算答错。这明显比 Opus 4.8 要省时省力。

再尝试让 Opus 4.8 独立制作一款日式校园 Galgame。不得不说，现在 AI 编写的项目代码层次清晰、框架分明。

这意味着，以它为基础，更换立绘、添加剧情、把游戏做大做强都非常容易。稍作体验，所有功能包括存档、自动播放、CG 画廊等，没有任何 bug。但是，Claude 断断续续做了足足一个多小时。而下面的 GPT-5.5 虽然简陋很多，但该有的功能一样不少，只用了五分钟。所以，花费更多的金钱和时间来换取这样的答案，到底值不值得？恐怕只有每个人自己心里清楚了。总的来说，Opus 4.8 继承了 Claude 以往的强项，没有特别惊艳的表现，中规中矩、平平无奇。而在测试之后，最想说的却不是这个模型本身如何，而是现在使用 Claude，真是越来越小心翼翼了。作为业界价格最高的模型，用 Claude 最好的版本，不舍得开启最高性能；开启最高性能，又不舍得用最好的模型。处处是陷阱，在你没注意的时候，一些无关紧要的小问题就已经把 token 消耗殆尽。而且让用户自己选择性能，仅有 low 和 high 也就罢了，这次 Opus 4.8 一下子推出了 5 种档位——Low、Medium、High、Extra 和 Max，普通人真的搞不清什么时候该用哪个，很容易造成浪费。