首页 游戏 软件 资讯 排行榜 专题
首页
AI
Anthropic Opus 4.7版本为何引发争议与批评

Anthropic Opus 4.7版本为何引发争议与批评

热心网友
46
转载
2026-05-17

今天看到Boris Cherny发了一篇关于如何用好新版Opus 4.7的长文,里面提了6个技巧,讲得挺有道理。但有意思的是,他完全没提这次升级背后那些会“打断腿”的破坏性变更——这些才是开发者真正头疼的地方。

Boris Cherny 自我宣传他对 Opus 4.7 的使用

3 个会打断你工作流的 Breaking Changes

Anthropic 刚发布了Opus 4.7,顺带也放出了一份迁移指南——不过说实话,大多数人估计不会仔细看。

眼下你最需要警惕的,是下面这三件事:

  • budget_tokens 参数现在会直接返回 400 错误。
  • 新的 tokenizer 会让同一段文本多算大约 35% 的 token 数量。
  • Thinking tokens 在默认情况下被隐藏了。

我们一条条拆开来看。

1. budget_tokens 坏了

如果你之前的代码里这么写:

thinking={"type": "enabled", "budget_tokens": 32000}

那么到了 Opus 4.7,这行代码会直接给你返回一个 400 错误。没有警告,没有过渡,直接失效。

这对于大规模使用 Opus 的场景来说是个大的麻烦。原本用来控制成本的 thinking budget 机制,就这么没了。

目前的替代方案是这样的:

thinking={"type": "adaptive"}
output_cnotallow={"effort": "xhigh"}

这里的 Effort 等级包括:low, medium, high, xhigh (新增), max

需要特别注意:在 Opus 4.7 上,adaptive thinking 默认是关闭的。这意味着,如果你从 4.6 升级到 4.7,模型的默认表现会差很多,务必小心。

2. Tokenizer 现在会吃更多 Tokens

单价没变,上下文窗口也还是 100 万 token,没增加。

但坏消息是,新的 tokenizer 对同一段文本,会多算出大约 1.35 倍的 token 数量。

社区里还有很多反馈指出,新版本似乎更容易受到“上下文腐化”的影响。

这相当于变相涨价了,而且我们这边几乎没得到什么实质性的体验提升。所以,别轻信那些“信我兄弟”式的内部基准测试报告。

涨幅截图,取自 Anthropic 这篇文章。

Anthropic “trust me bro” 的内部评测截图。

由此引发的连锁反应非常要命:

  • 任何硬编码的上下文预算现在都不准确了。
  • 任何客户端的 token 估算现在都失灵了。
  • 同样的提示词,你的 API 账单会肉眼可见地变高。

3. Thinking Tokens 依然被隐藏

这个问题依然很糟糕,我之前专门写过相关的内容。

简单回顾一下:在 Opus 4.6 时代,thinking 内容默认会以“总结”形式显示。到了 Opus 4.7,现在默认变成了“省略”。响应里的 thinking 区块看起来是空的,但关键是你还得为它们全额付费。

“你仍会为完整的 thinking tokens 付费。Omitting 减少的是延迟,不是成本。”——这话是 Anthropic 自己说的。

没错,你的账单里包含了一部分你现在根本看不见的 token。

Long Context Retrieval 刚刚从悬崖上掉了下去

在 100 万 token 的 MRCR v2 基准测试上,结果有点惊人:

  • Opus 4.6:78.3%
  • Opus 4.7:32.2%

长上下文理解表现更差的截图。

在 Anthropic 自己发布过的基准上,性能回退了足足 46 个百分点。

图片

这是 Boris 对性能下降的回应,但坦白说,这个解释不太有说服力,甚至有点误导。

Alex Volkov X 对 Boris 离谱说法的回应。

Kiran Vodrahalli 的补充。

开发者实际上在报告什么

社区的总体反馈,可以说相当惨烈。

甚至 Opus 4.7 自己都在承认它会“瞎编”。

截图来自这条 reddit 帖子

在真实使用中,还出现了以下几种“诡异”模式:

  • 幻觉出同事和随机人物
    截图来自这条帖子。Anton 到底是谁?
  • “今天就到这吧。”
    截图来自这条帖子。感觉 Opus 4.7 已经想下班了 lol。
  • 已配置的偏好被忽略。
    图片

Anthropic 提高了 rate limits(据说)

在一片反对声中,Anthropic 宣布了“永久提高 rate limits”。

图片

但我对此持保留态度。公告里既没有给出绝对数值,也没有百分比。

退一步讲,就算把速率限制提高 1.0 到 1.35 倍,那也刚好对上了新版本 thinking 用量的增长。所以这到底是“福利”,还是“找补”?大家心里自有判断。

Boris 说了什么(以及没说什么)

Boris 的帖子本身值得一读,他提到了几个使用技巧:

  • Auto mode 适合更长的无人值守运行。
  • /fewer-permission-prompts 技能可减少审批回路。
  • Recaps 功能便于回到长会话。
  • Focus mode 可隐藏中间过程。
  • Effort 需要调优(做编码时建议从 xhigh 开始)。
  • 给 Claude 一种自我校验的办法。

不过,千万别指望照搬他的工作流,升级后就能一切顺畅。背后的“坑”已经摆在那儿了。

先从这几步开始

如果你只有5分钟:立刻在代码库里全局搜索 budget_tokens 这个关键词。在做编码相关工作时,记得把 effort 设为 xhigh(在 Claude Code 里也调到最高档)。

如果你有15分钟:务必通读一遍 Anthropic 的发布说明和迁移指南,了解所有变更细节。

注意

必须承认,Claude Code 和 Claude 本身都是很棒的工具,我平时也经常用。但最近的这些动作,确实让包括我在内的很多开发者感到不安。最近聊到的每个人,几乎都注意到了性能上的明显下滑。然而,我们似乎又被推上了那辆“炒作列车”。

来源:https://www.51cto.com/article/842034.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

马斯克解散xAI并将22万张GPU算力转租Anthropic
业界动态
马斯克解散xAI并将22万张GPU算力转租Anthropic

就在刚刚,科技行业传来一则重磅消息:埃隆·马斯克正式确认,其旗下的人工智能公司xAI将被解散。 根据最新安排,xAI公司及其核心产品——大语言模型Grok(包括社交平台X的相关AI业务)——将被整体整合进入SpaceX,成为一个全新的子部门,统一命名为“SpaceXAI”。 这一重大组织架构调整看似

热心网友
05.16
Anthropic AI 揭示大模型注意力回路机制
AI
Anthropic AI 揭示大模型注意力回路机制

Anthropic公司提出新方法,通过构建可解释的“替换模型”将大语言模型内部计算可视化,识别特征与回路,绘制“归因图”揭示输出答案的具体路径。干预实验验证了其有效性,并探讨了特征间全局关联,但存在无法解释注意力机制、替换模型与原模型不完全一致等局限。

热心网友
05.16
百度DuMate登顶PinchBench,超越Anthropic夺全球龙虾执行赛冠军
业界动态
百度DuMate登顶PinchBench,超越Anthropic夺全球龙虾执行赛冠军

5月8日凌晨,智能体评测领域迎来里程碑式突破:百度推出的智能体框架“搭子”DuMate,在业界公认的权威基准PinchBench上成功登顶,并在榜单前五名中强势占据三席。这一成绩标志着其综合执行能力已超越Anthropic与OpenAI的同类模型,问鼎全球智能体执行力竞赛榜首。与此同时,在另一项聚焦

热心网友
05.16
马斯克AI公司发布首个编程智能体 挑战Anthropic专业编程市场
AI
马斯克AI公司发布首个编程智能体 挑战Anthropic专业编程市场

图注:xAI公司发布编程AI智能体 北京时间5月15日,彭博社报道称,埃隆·马斯克旗下的人工智能公司xAI推出了其首个专注于编程领域的AI智能体——Grok Build。这一举措标志着,这家由马斯克创立的AI初创企业正式进军软件开发自动化赛道,旨在与行业领先者Anthropic旗下的Claude展开

热心网友
05.15
Anthropic产品负责人Cat Wu谈AI未来趋势 预判用户需求成关键
AI
Anthropic产品负责人Cat Wu谈AI未来趋势 预判用户需求成关键

当整个科技界的目光都聚焦于AI模型的军备竞赛时,有一家公司正悄然迎来自己的高光时刻——Anthropic。 这家公司正走在一条超越主要竞争对手的快车道上。一方面,它寻求筹集数百亿美元资金,此轮融资估值或将达到约9500亿美元,这个数字已经超过了OpenAI在今年3月融资轮中创下的8540亿美元估值。

热心网友
05.15

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

潮汐守望者梅丽珊卓装备搭配指南与实战出装推荐
游戏资讯
潮汐守望者梅丽珊卓装备搭配指南与实战出装推荐

潮汐守望者梅丽珊卓的出装策略,核心在于极致放大她的爆发伤害与控制能力,同时构建必要的生存保障。以下这套经过版本与实战验证的装备组合,将帮助她主宰峡谷战场,成为团队不可或缺的法术核心。 核心装备 卢登的回声通常是无可争议的首件神话装备。它提供的法术强度与技能急速完美优化了梅丽珊卓的技能循环,而其被动“

热心网友
05.17
阶跃星辰图像编辑模型实测 2分钱一张快速生成海报风格
AI
阶跃星辰图像编辑模型实测 2分钱一张快速生成海报风格

4月29日,阶跃星辰正式发布新一代图像编辑生成模型Step Image Edit 2。这款AI图像模型主打“小身材、大能力、快响应”,参数量仅3 5B,却在轻量级图像编辑评测基准KRIS-Bench中斩获综合排名第一。它全面支持文生图、中英文渲染、局部编辑、视觉推理、主体一致性及风格迁移等多种AI图

热心网友
05.17
CVPR 2026北京论文分享会报名开启 线下深度交流前沿视觉技术
AI
CVPR 2026北京论文分享会报名开启 线下深度交流前沿视觉技术

2026年的AI圈,时钟仿佛被拨快了。技术迭代的浪潮一波未平,一波又起。 尤其是进入四月以来,整个行业像是踩下了油门。Meta携Muse Spark高调回归,ChatGPT Images 2 0的生成效果在社交媒体上持续刷屏,而GPT-5 5的发布,再次将技术天花板向上推升了一个量级。视线转回国内,

热心网友
05.17
谁将率先突破全模态世界模型技术瓶颈
AI
谁将率先突破全模态世界模型技术瓶颈

从DeepMind到阿里、腾讯,各路顶尖玩家正涌入“世界模型”这个新战场。但大家争夺的,远不止是算力与资源,更核心的较量在于:究竟什么样的架构,才能真正构建起对物理世界的理解? 过去一年半,世界模型已然成为AI领域竞争最密集的焦点。参与者名单几乎涵盖了所有前沿方向:全球科技巨头、视频生成公司、机器人

热心网友
05.17
柴犬币价格预测:关键阻力位0.0000076美元能否推动20%上涨
web3.0
柴犬币价格预测:关键阻力位0.0000076美元能否推动20%上涨

柴犬币自低点反弹约30%,正尝试复苏。当前面临0 0000076美元附近的200日移动均线关键阻力,若能突破可能上涨约21%,但该位置存在解套抛压。价格需放量突破0 0000064美元以确认短期上涨趋势,下一目标0 0000072美元,下方关键支撑位于0 000006美元附近。

热心网友
05.17