Claude Opus 4.7来了,公开模型里的SOTA,不过用起来GPT味好浓
Claude Opus 4.7突袭,核心升级四大方向
用Mythos向外界虚晃一枪后,Anthropic猝不及防把Claude Opus 4.7抬了上来。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

消息一出,社区立刻沸腾了。不少开发者熬夜上手体验,反馈相当热烈。通览下来,这个被官方称为目前最强大的公开可用模型,在四个核心方向上都有突出表现,当然,也伴随着一些需要适应的新特性。
高级软件工程领域:值得托付
Opus 4.7最显著的进步,无疑体现在高级软件工程领域。直接看数据:
SWE-bench Verified测试达到78.2%;
SWE-bench Multimodal达到72.7%;
Terminal-Bench 2.0拿下68.8%;
Rakuten-SWE-Bench 中解决生产任务的数量更是Opus 4.6的3倍;
GitHub 93项任务编码基准也提升了13%。
Cursor的CEO Michael Truell给出了一个关键评价:
在CursorBench上,Opus 4.7从58%跃升到70%,这个跃升意义重大。
这种跃升并非空xue来风,它具体体现在三个关键特性上。
第一,严格遵循指令。 Opus 4.7不再像早期模型那样“灵活解读”用户的模糊表述,而是转向字面执行。这意味着,过去那种“如果可能的话,尝试优化这段代码”的提示词,模型可能会选择性忽略;而现在,直接说“优化这段代码”,它就一定会执行。这种变化要求用户重新调整提示词策略,软性修饰符如“if possible/ideally/try to”的权重变得更高,而硬性限制则需要更加明确。
第二,输出前自我验证。 模型会在报告结果前,自主设计方法来验证自己的输出,这就像一个资深工程师在提交代码前,总会自己先跑一遍测试。
第三,擅长复杂多文件变更、模糊调试、跨服务代码审查。 Notion的AI负责人Sarah Sachs分享的数据很有说服力:
面对复杂多步骤工作流,Opus 4.7比Opus 4.6提升14%,而且token消耗更少,工具错误只有三分之一。它是第一个通过我们隐性需求测试的模型。
视觉能力:分辨率×3,看见更多细节
在视觉能力方面,Opus 4.7的进步同样不容小觑。官方数据显示,其长边最大支持2576像素(约3.75百万像素),是Opus 4.6的3倍以上;XBOW视觉敏锐度达到 98.5%(Opus 4.6仅为54.5%)。
这种提升直接反映在落地场景上:模型现在能直接识别完整的Figma设计稿、包含灰色小字的1080p终端截图,并能精准解析复杂的技术架构图或财报图表。在计算机使用场景中,读取高密度UI元素也变得清晰准确,视觉处理能力近乎满分。
换句话说,化学结构解析、复杂技术图表识别、像素级精确的UI元素定位——这些过去需要专门模型才能完成的任务,现在一个Opus 4.7就能搞定。
指令遵循与推理:更可控,更可靠
指令遵循是本次升级的另一大亮点。模型不再试图过度猜测用户的“言外之意”,而是严格按照字面意思执行。 如果用户要求“不要用TypeScript”,模型就坚决不用;要求“输出JSON”,得到的输出就一定没有任何额外前缀。
这种变化对老用户来说可能需要一个适应期(旧的提示词容易产生意外结果,需要重新校准),但对于需要精确控制的生产场景而言,无疑是巨大的福音。
在推理方面,其在100万token长上下文场景中的表现尤为亮眼,BFS任务得分达到58.6%(Opus 4.6为41.2%),复杂任务中的逻辑连贯性有了显著提升。
Agent能力增强:为Agent而生的版本
如果说之前的Claude是为对话而生,那么Opus 4.7则是为Agent而生。这体现在几个方面。
首先,核心Agent能力有了全方位提升。 多家AI企业的实测数据可以佐证:Notion多步骤工作流成功率提升14%,工具调用错误率降至1/3;在Vending-Bench 2长期经营模拟中,最终余额达10937美元(Opus 4.6为8018美元),长周期决策更稳健;在Genspark场景下,抗死循环、一致性和错误恢复三大生产级特性全部拉满。同时,模型具备文件系统记忆能力,能跨会话可靠记住关键信息,新任务可减少高达40%的重复上下文输入。
Cognition的CEO Scott Wu的描述非常形象:
Opus 4.7在Devin中将长周期自主性提升到新水平。它能连贯工作数小时,突破难题而不是放弃,解锁了我们以前无法可靠运行的一类深度调查工作。
与此同时,Opus 4.7还为开发者提供了一套令人兴奋的Agent相关“四件套”:
第一, 新增xhigh推理等级,作为默认等级介于high与max之间,让开发者能在推理深度和响应延迟之间找到更精细的平衡点。
第二, 新增自适应思考模式,替代了固定的预算长思考,模型可自主决定思考深度,简单查询快速响应,复杂步骤则重点投入。
第三, 任务预算功能(公开beta),允许开发者引导token消耗,优化长任务的资源分配。
第四, Claude Code新增/ultrareview命令,可创建专属代码审查会话,标记细微错误与潜在的设计问题。
想做一个靠谱的模型:首发防护,记忆增强
Anthropic官方坦承,Opus 4.7的网络安全能力不如尚未公开发布的Mythos Preview。但这其实是刻意为之。
这种“自我设限”的背后,是Anthropic对AI安全一向的坚持。自2021年成立以来,这家公司花了四年时间精心打造自己的声誉,试图对外塑造一个“比OpenAI等竞争对手更注重安全和负责任AI部署”的形象。 在Mythos Preview引发业界对强大AI模型安全风险的热议之后,Opus 4.7被设计成了一道缓冲带。
具体来说,Anthropic在训练中尝试了差异化降低Opus 4.7的网络能力,让模型在面对网络安全相关任务时,表现出更谨慎、更保守的行为模式。 与此同时,官方配套发布了能自动检测和阻止高风险网络安全请求的防护措施。
而对于确有合法网络安全需求的专业人士,Anthropic推出了Cyber Verification Program。安全专业人员如需将Opus 4.7用于漏洞研究、渗透测试、红队演练等合法目的,可以通过这一正式渠道申请。
另外,如果开发者计划从Opus 4.6迁移到4.7版本,有两个技术细节需要格外注意。
首先是tokenizer的更新。 Opus 4.7使用了新的分词器,虽然改善了文本处理效率,但相同输入可能映射到更多tokens,倍数大约在1.0到1.35倍之间。这意味着同样的提示词可能会消耗更多token,成本预算需要留出余量。
其次是在更高努力级别下会产生更多输出tokens。 Opus 4.7在high和xhigh级别下的思考深度明显增加,特别是在Agent场景的多轮对话后期。这种“多思考、更可靠”的行为模式提升了输出质量,但也意味着token消耗会随会话长度增长。
与Opus 4.6同价,有这些注意事项你需要知道
目前,Opus 4.7已实现全平台开放。除Claude官方途径外,新模型不仅登陆 Claude Pro/Max/Team/Enterprise 全系产品、官方API,还同步上线微软Foundry、谷歌Cloud Vertex AI、亚马逊Bedrock三大云平台。
其定价与Opus 4.6保持一致:输入5美元每百万tokens,输出25美元每百万tokens。
虽然如前所述,Opus 4.7涉及提示词的重构需求和token使用策略的调整,但Anthropic在自己的内部测试中给出了积极信号:在一个内部Agent编码评估中,所有努力级别下的token使用效率相比Opus 4.6都有改善。
换句话说,虽然单次调用的token数可能增加,但完成任务所需的总token往往更少,因为模型犯错的次数减少了。 这大概就像雇了一位时薪更高的资深工程师,但他完成任务的速度更快、返工更少,最终的总成本可能反而更低。
开发者可以通过调整effort参数、设置任务预算或优化提示词来平衡性能与成本。Anthropic建议,在测试Opus 4.7的编码和Agent用例时,从high或xhigh努力级别开始,再根据实际需求逐步调整。
总的来说,实际使用成本会因使用方式的不同而变化,但大多数情况下,能力提升带来的效率增益会抵消token消耗的增加。对于依赖Claude进行复杂开发工作的团队来说,这很可能是一笔划算的交易。
参考链接:
[1]https://www.anthropic.com/news/claude-opus-4-7
[2]https://www.cnbc.com/2026/04/16/anthropic-claude-opus-4-7-model-mythos.html
[3]https://x.com/i/trending/2044560325509316766
相关攻略
AI黑客Claude Mythos觉醒了!英国AI安全研究所证实,它是首个破解企业网络攻击测试的AI,仅用32步,完成20小时人类任务只需几秒。高盛已经紧急拉响红色警报,人类的网络安全,已经进入奥本海默时刻。 数条令人不安的消息,正在全球网络安全圈内引发震动。 据多方信息显示,华尔街巨头高盛正在疯狂
Claude在C++ Rust代码生成中存在内存模型、所有权系统及构建生态理解局限 如果你发现Claude生成的C++或Rust代码,在编译时频频报错,或者运行时行为与预期不符,别急着怀疑自己——这很可能不是你的问题。当前阶段,模型对底层语言的内存模型、所有权系统以及构建生态的理解,确实存在一些边界
一、检查并关闭默认启用的数据共享选项 先明确一个关键事实:在默认状态下,你与Claude的新对话,很可能被用于模型的迭代训练。这并非猜测,而是Anthropic当前数据策略的一部分。好消息是,你可以主动关闭这个开关,只是入口藏得有点深,初次使用很容易忽略。 具体操作路径并不复杂,跟着下面几步走,就能
一、许可证与源码可得性 选择哪条技术路线,往往从第一步获取模型时就已注定。Claude 4由Anthropic一手打造,但其核心资产——模型权重、训练代码、乃至具体的架构细节——都被严密地封装在“黑盒”里。开发者能接触到的,仅仅是一个API调用接口,一切操作都受制于其商业许可条款。换句话说,你只能“
如何在 Claude 中创建针对特定项目的自定义指令? 想让 Claude 在处理特定项目时,自动遵循一套专属的规则、格式或流程吗?这完全可以通过创建项目级的自定义指令来实现。下面这套方法,能帮你把通用流程固化下来,确保团队协作时风格统一、效率倍增。 一、在项目根目录创建 commands 文件夹
热门专题
热门推荐
腾讯生态整合新动向:QQ全面接入微信小程序 7月1日,腾讯QQ小程序开发者平台发布了一项重要更新。核心内容是,为了帮助开发者降低双端开发与维护成本,QQ将全面接入微信小程序体系。这意味着,未来用户可以直接在QQ内搜索并打开微信小程序。 对于现有的存量QQ小程序,此次调整并未“一刀切”。它们目前仍可正
下半年芯片市场巅峰对决提前揭幕 今年下半年,全球芯片市场的战火将空前炽热。两位重量级选手——联发科与高通,已经准备好亮出各自的王牌。天玑9600系列与骁龙8E6系列,这两大迭代旗舰平台的正面交锋,注定会成为今年科技行业最值得关注的戏码。 双芯策略:精准卡位旗舰市场 有意思的是,联发科这次玩了个新花样
在当今数字化社交的时代,微信已成为人们日常沟通交流的重要工具。不少人都发现,微信好友申请居然可以通过搜索 qq 号来添加,这背后有着诸多有趣的原因和便利之处。 一、社交关系的延续与拓展 要知道,微信与QQ同属腾讯旗下,两者之间存在着千丝万缕的联系。很多用户的社交关系其实根植于QQ时代,那些好友列表里
高德地图如何更改定位?三种方法详解及注意事项 无论是日常通勤、外出旅行还是朋友相聚,高德地图已经成了我们依赖的“导航神器”,精准定位和路线规划是其核心功能。不过,现实场景有时会有点特殊——比如,你可能需要模拟一个位置来测试应用,或者在某个游戏中“签到”,又或者只是想和朋友开个无伤大雅的玩笑。这个时候
巧学宝App绑定手机号全程指南 在巧学宝App上完成手机号绑定,是解锁其完整功能的关键一步。这个看似简单的操作,能为你后续的学习之旅带来不少实实在在的便利。那么,该如何快速搞定呢?下面这张流程图,能帮你一眼看清完整的操作路径。 第一步:进入个人中心 首先,打开你的巧学宝App。进入主界面后,注意力可





