Anthropic Opus 4.7版本为何引发争议与批评

首页

热心网友

转载

2026-05-17

今天看到Boris Cherny发了一篇关于如何用好新版Opus 4.7的长文，里面提了6个技巧，讲得挺有道理。但有意思的是，他完全没提这次升级背后那些会“打断腿”的破坏性变更——这些才是开发者真正头疼的地方。

Boris Cherny 自我宣传他对 Opus 4.7 的使用

3 个会打断你工作流的 Breaking Changes

Anthropic 刚发布了Opus 4.7，顺带也放出了一份迁移指南——不过说实话，大多数人估计不会仔细看。

眼下你最需要警惕的，是下面这三件事：

budget_tokens 参数现在会直接返回 400 错误。
新的 tokenizer 会让同一段文本多算大约 35% 的 token 数量。
Thinking tokens 在默认情况下被隐藏了。

我们一条条拆开来看。

1. budget_tokens 坏了

如果你之前的代码里这么写：

thinking={"type": "enabled", "budget_tokens": 32000}

那么到了 Opus 4.7，这行代码会直接给你返回一个 400 错误。没有警告，没有过渡，直接失效。

这对于大规模使用 Opus 的场景来说是个大的麻烦。原本用来控制成本的 thinking budget 机制，就这么没了。

目前的替代方案是这样的：

thinking={"type": "adaptive"}
output_cnotallow={"effort": "xhigh"}

这里的 Effort 等级包括：low, medium, high, xhigh (新增), max。

需要特别注意：在 Opus 4.7 上，adaptive thinking 默认是关闭的。这意味着，如果你从 4.6 升级到 4.7，模型的默认表现会差很多，务必小心。

2. Tokenizer 现在会吃更多 Tokens

单价没变，上下文窗口也还是 100 万 token，没增加。

但坏消息是，新的 tokenizer 对同一段文本，会多算出大约 1.35 倍的 token 数量。

社区里还有很多反馈指出，新版本似乎更容易受到“上下文腐化”的影响。

这相当于变相涨价了，而且我们这边几乎没得到什么实质性的体验提升。所以，别轻信那些“信我兄弟”式的内部基准测试报告。

涨幅截图，取自 Anthropic 这篇文章。

Anthropic “trust me bro” 的内部评测截图。

由此引发的连锁反应非常要命：

任何硬编码的上下文预算现在都不准确了。
任何客户端的 token 估算现在都失灵了。
同样的提示词，你的 API 账单会肉眼可见地变高。

3. Thinking Tokens 依然被隐藏

这个问题依然很糟糕，我之前专门写过相关的内容。

简单回顾一下：在 Opus 4.6 时代，thinking 内容默认会以“总结”形式显示。到了 Opus 4.7，现在默认变成了“省略”。响应里的 thinking 区块看起来是空的，但关键是你还得为它们全额付费。

“你仍会为完整的 thinking tokens 付费。Omitting 减少的是延迟，不是成本。”——这话是 Anthropic 自己说的。

没错，你的账单里包含了一部分你现在根本看不见的 token。

Long Context Retrieval 刚刚从悬崖上掉了下去

在 100 万 token 的 MRCR v2 基准测试上，结果有点惊人：

Opus 4.6：78.3%
Opus 4.7：32.2%

长上下文理解表现更差的截图。

在 Anthropic 自己发布过的基准上，性能回退了足足 46 个百分点。

这是 Boris 对性能下降的回应，但坦白说，这个解释不太有说服力，甚至有点误导。

Alex Volkov X 对 Boris 离谱说法的回应。

Kiran Vodrahalli 的补充。

开发者实际上在报告什么

社区的总体反馈，可以说相当惨烈。

甚至 Opus 4.7 自己都在承认它会“瞎编”。

截图来自这条 reddit 帖子

在真实使用中，还出现了以下几种“诡异”模式：

幻觉出同事和随机人物
“今天就到这吧。”
已配置的偏好被忽略。

Anthropic 提高了 rate limits（据说）

在一片反对声中，Anthropic 宣布了“永久提高 rate limits”。

但我对此持保留态度。公告里既没有给出绝对数值，也没有百分比。

退一步讲，就算把速率限制提高 1.0 到 1.35 倍，那也刚好对上了新版本 thinking 用量的增长。所以这到底是“福利”，还是“找补”？大家心里自有判断。

Boris 说了什么（以及没说什么）

Boris 的帖子本身值得一读，他提到了几个使用技巧：

Auto mode 适合更长的无人值守运行。
/fewer-permission-prompts 技能可减少审批回路。
Recaps 功能便于回到长会话。
Focus mode 可隐藏中间过程。
Effort 需要调优（做编码时建议从 xhigh 开始）。
给 Claude 一种自我校验的办法。

不过，千万别指望照搬他的工作流，升级后就能一切顺畅。背后的“坑”已经摆在那儿了。

先从这几步开始

如果你只有5分钟：立刻在代码库里全局搜索 budget_tokens 这个关键词。在做编码相关工作时，记得把 effort 设为 xhigh（在 Claude Code 里也调到最高档）。

如果你有15分钟：务必通读一遍 Anthropic 的发布说明和迁移指南，了解所有变更细节。

注意

必须承认，Claude Code 和 Claude 本身都是很棒的工具，我平时也经常用。但最近的这些动作，确实让包括我在内的很多开发者感到不安。最近聊到的每个人，几乎都注意到了性能上的明显下滑。然而，我们似乎又被推上了那辆“炒作列车”。

来源:https://www.51cto.com/article/842034.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：智能体进化：超越提示词的自主决策架构设计下一篇：DeepSeek代码能力评测：编程辅助与Bug修复实战解析

相关攻略

业界动态

马斯克解散xAI并将22万张GPU算力转租Anthropic

就在刚刚，科技行业传来一则重磅消息：埃隆·马斯克正式确认，其旗下的人工智能公司xAI将被解散。根据最新安排，xAI公司及其核心产品——大语言模型Grok（包括社交平台X的相关AI业务）——将被整体整合进入SpaceX，成为一个全新的子部门，统一命名为“SpaceXAI”。这一重大组织架构调整看似

热心网友

05.16

Anthropic AI 揭示大模型注意力回路机制

Anthropic公司提出新方法，通过构建可解释的“替换模型”将大语言模型内部计算可视化，识别特征与回路，绘制“归因图”揭示输出答案的具体路径。干预实验验证了其有效性，并探讨了特征间全局关联，但存在无法解释注意力机制、替换模型与原模型不完全一致等局限。

热心网友

05.16

业界动态

百度DuMate登顶PinchBench，超越Anthropic夺全球龙虾执行赛冠军

5月8日凌晨，智能体评测领域迎来里程碑式突破：百度推出的智能体框架“搭子”DuMate，在业界公认的权威基准PinchBench上成功登顶，并在榜单前五名中强势占据三席。这一成绩标志着其综合执行能力已超越Anthropic与OpenAI的同类模型，问鼎全球智能体执行力竞赛榜首。与此同时，在另一项聚焦

热心网友

05.16

马斯克AI公司发布首个编程智能体挑战Anthropic专业编程市场

图注：xAI公司发布编程AI智能体北京时间5月15日，彭博社报道称，埃隆·马斯克旗下的人工智能公司xAI推出了其首个专注于编程领域的AI智能体——Grok Build。这一举措标志着，这家由马斯克创立的AI初创企业正式进军软件开发自动化赛道，旨在与行业领先者Anthropic旗下的Claude展开

热心网友

05.15

Anthropic产品负责人Cat Wu谈AI未来趋势预判用户需求成关键

当整个科技界的目光都聚焦于AI模型的军备竞赛时，有一家公司正悄然迎来自己的高光时刻——Anthropic。这家公司正走在一条超越主要竞争对手的快车道上。一方面，它寻求筹集数百亿美元资金，此轮融资估值或将达到约9500亿美元，这个数字已经超过了OpenAI在今年3月融资轮中创下的8540亿美元估值。

热心网友

05.15

热门推荐

游戏资讯

潮汐守望者梅丽珊卓装备搭配指南与实战出装推荐

潮汐守望者梅丽珊卓的出装策略，核心在于极致放大她的爆发伤害与控制能力，同时构建必要的生存保障。以下这套经过版本与实战验证的装备组合，将帮助她主宰峡谷战场，成为团队不可或缺的法术核心。核心装备卢登的回声通常是无可争议的首件神话装备。它提供的法术强度与技能急速完美优化了梅丽珊卓的技能循环，而其被动“

热心网友

05.17

阶跃星辰图像编辑模型实测 2分钱一张快速生成海报风格

4月29日，阶跃星辰正式发布新一代图像编辑生成模型Step Image Edit 2。这款AI图像模型主打“小身材、大能力、快响应”，参数量仅3 5B，却在轻量级图像编辑评测基准KRIS-Bench中斩获综合排名第一。它全面支持文生图、中英文渲染、局部编辑、视觉推理、主体一致性及风格迁移等多种AI图

热心网友

05.17