Claude Opus 4.7发布公开模型性能新标杆对比GPT体验

首页

热心网友

转载

2026-05-19

在业界广泛猜测Mythos模型即将亮相之际，Anthropic出人意料地率先发布了Claude Opus 4.7。这款被官方定位为当前“性能最强的公开可用模型”一经推出，便吸引了大量开发者和AI研究者连夜测试。初步的用户反馈揭示了一个清晰的趋势：模型在多项核心基准测试上实现了跨越式进步，但其更严格、更字面化的新特性，也需要用户调整原有的使用习惯和提示词策略。

Claude Opus 4.7来了，公开模型里的SOTA！不过用起来GPT味好浓

Claude Opus 4.7核心升级解析：四大能力维度全面进化

综合官方发布与社区评测，这款全新的Opus 4.7模型主要在四个关键方向上实现了显著提升。值得注意的是，Anthropic暗示其尚未发布的Mythos模型在整体能力上仍领先约10%-15%，堪称其技术储备中的“王牌”。相比之下，Opus 4.7更像是一个完成了全面安全审计、定价更具竞争力且全面开放部署的“旗舰量产版”，旨在为更广泛的开发者提供顶尖的AI能力。

高级软件工程：可靠的生产力伙伴

Opus 4.7最令人瞩目的提升集中在高级软件工程领域。一系列权威基准测试数据印证了其强大实力：在SWE-bench Verified测试中达到78.2%，SWE-bench Multimodal达到72.7%，Terminal-Bench 2.0得分68.8%。更具说服力的是生产环境数据：在Rakuten-SWE-Bench中，其成功解决的生产级任务数量是前代Opus 4.6的三倍；在GitHub 93项编码任务基准上，性能提升了13%。

AI代码助手Cursor的CEO Michael Truell指出，在CursorBench上，Opus 4.7的得分从58%大幅跃升至70%，这一进步意义重大。这种提升具体归因于三个关键特性：

首先，是极其严格的指令遵循能力。模型不再“过度解读”或“脑补”用户的模糊意图，而是倾向于精确执行字面指令。这意味着以往带有“如果方便的话，请尝试优化”等软化语气的提示词，其“优化”部分可能被忽略；现在，明确的“优化这段代码”指令会得到坚决执行。这要求开发者使用更精确、限制更明确的提示词。

其次，模型在输出前会进行自我验证与推理，类似于资深工程师在提交代码前自行运行测试用例。

第三，它显著增强了处理复杂多文件变更、模糊问题调试和跨服务代码审查的能力。Notion的AI负责人Sarah Sachs分享的数据显示，面对复杂的多步骤工作流，Opus 4.7的成功率比前代提升14%，且Token消耗更低，工具调用错误率降至三分之一，并评价其为“首个通过我们所有隐性需求测试的AI模型”。

视觉理解能力：分辨率提升三倍，细节识别更强

在视觉能力方面，Opus 4.7同样取得了突破性进展。其支持的最大图像长边分辨率提升至2576像素，是Opus 4.6的三倍以上；在XBOW视觉敏锐度基准测试中达到98.5%的高分。这使得其实用场景得到极大扩展，能够直接解析完整的Figma设计稿、高清的1080p终端截图，并精准提取复杂技术架构图或财务报表图表中的数据信息。在计算机使用场景中，它可以清晰读取高密度的用户界面元素。以往需要专门视觉模型处理的化学结构式解析、复杂工程图纸识别等任务，现在或许仅靠Opus 4.7即可完成。

指令遵循与复杂推理：更可控，更可靠

指令遵循能力的强化是本次升级的另一大核心。Opus 4.7致力于减少“自由发挥”，严格遵循用户设定的边界。如果用户要求“不要使用TypeScript”，模型就会完全避免；要求“输出纯JSON”，那么输出结果将不会有任何额外的前缀或解释文本。这种变化对于习惯了模型“灵活”解读的老用户可能需要适应期，但对于追求精确控制和稳定输出的生产环境而言，无疑是重大利好。

在复杂推理方面，模型在长达100万token的上下文窗口中表现优异，在BFS（广度优先搜索）推理任务上得分58.6%，长文本中的逻辑连贯性与因果推理能力也有显著增强。

智能体（Agent）能力：为自动化任务而生

如果说之前的Claude模型更侧重于对话，那么Opus 4.7则明显是为构建高级智能体（Agent）而优化。其核心的自主任务执行能力获得了全方位增强。多家企业的实测数据提供了有力证明：Notion的多步骤工作流成功率提升14%，工具调用错误率降低67%；在Vending-Bench 2长期经营模拟中，最终余额达到10937美元，体现了其长周期规划和决策的稳健性；在Genspark测试场景下，其在抗死循环、状态一致性和错误恢复等生产级特性上表现突出。此外，模型还具备了跨会话的文件系统记忆能力，能够可靠地记住关键信息，新任务可减少高达40%的重复上下文输入。

Cognition公司CEO Scott Wu的描述非常生动：Opus 4.7将其AI程序员Devin的长周期自主性提升到了新高度，能够连贯工作数小时，坚持攻克难题而非轻易放弃，从而解锁了一类以往无法可靠运行的深度调查与开发任务。

同时，Opus 4.7为开发者提供了更精细的控制工具：新增了介于high与max之间的xhigh推理等级，便于在响应速度与思考深度间取得平衡；新增自适应思考模式，允许模型自主决定推理步骤；提供任务预算功能，以优化长耗时任务的资源分配；在Claude Code中新增/ultrareview命令，可创建专属代码审查会话，用于标记细微错误和潜在的设计缺陷。

安全第一的设计理念：主动防护与记忆增强

Anthropic特别强调，Opus 4.7的网络安全相关能力被有意设计为低于Mythos Preview版本。这种“自我设限”的背后，是公司对AI安全治理的一贯坚持。在行业对超强模型潜在风险展开广泛讨论的背景下，Opus 4.7被定位为一道可靠的“安全缓冲带”。

具体而言，Anthropic在训练过程中差异化地降低了Opus 4.7涉及网络攻防的能力权重，使其在面对相关请求时表现出更谨慎、更保守的行为模式。平台层面也部署了能够自动检测并拦截高风险网络安全请求的防护机制。对于从事漏洞研究、渗透测试等合法工作的安全专业人员，则可以通过Anthropic正式的“网络安全验证计划”提交申请以获得使用权限。

定价与迁移指南：与4.6同价，但需注意这些变化

目前，Opus 4.7已实现全平台开放，不仅登陆了Claude全系产品线及最新API，也同步上线了微软Azure Foundry、谷歌Cloud Vertex AI、亚马逊AWS Bedrock这三大主流云平台。其定价策略与Opus 4.6保持完全一致：输入每百万tokens收费5美元，输出每百万tokens收费25美元。

然而，从Opus 4.6迁移至4.7版本时，开发者需要注意以下几个技术细节：首先是分词器的更新。Opus 4.7采用了全新的分词器，虽然提升了文本处理效率，但相同文本内容所映射的tokens数量可能会增加到原来的1.0至1.35倍。这意味着完全相同的提示词可能会消耗更多token，需要在项目成本预算中预留相应余量。

其次，在更高的“努力级别”下，模型会产生更多的中间思考tokens。Opus 4.7在high和xhigh级别下的“思考深度”明显增加，这种“先思后行”的模式虽然提升了输出结果的准确性和可靠性，但也意味着token消耗会随着会话复杂度的增长而增加。

当然，也有积极的效率信号。根据Anthropic的内部测试，在一项智能体编码评估中，所有努力级别下的总体token使用效率相比Opus 4.6均有改善。简而言之，虽然单次API调用的token数可能上升，但由于模型犯错率降低、返工减少，完成整个任务所需的总token数往往更少。这类似于雇佣一位时薪更高但经验丰富的工程师，他一次做对的概率更高，最终的整体项目成本可能反而更低。

开发者可以通过灵活调整“努力”参数、为任务设置预算上限或优化提示词结构，来平衡性能与成本。Anthropic建议，在测试编码和智能体用例时，可以从high或xhigh努力级别开始，再根据实际输出质量和成本反馈进行微调。

总体而言，实际使用成本会因具体的使用模式、任务类型和参数设置而有很大差异。但对于那些依赖Claude进行复杂软件开发、数据分析或自动化工作流的团队而言，模型能力提升所带来的效率增益和错误减少，很可能完全抵消掉token消耗的潜在增加，从而成为一项性价比极高的投资。

来源:https://tech.ifeng.com/c/8sOQHGm3HR3

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：粉色蓝莓引发热议网友质疑是否为AI生成下一篇：北大彭宇新团队CPL++框架提升视觉定位模型自检与纠错能力