首页 游戏 软件 资讯 排行榜 专题
首页
AI
Claude Opus 4.7发布 公开模型性能新标杆对比GPT体验

Claude Opus 4.7发布 公开模型性能新标杆对比GPT体验

热心网友
57
转载
2026-05-19

在业界广泛猜测Mythos模型即将亮相之际,Anthropic出人意料地率先发布了Claude Opus 4.7。这款被官方定位为当前“性能最强的公开可用模型”一经推出,便吸引了大量开发者和AI研究者连夜测试。初步的用户反馈揭示了一个清晰的趋势:模型在多项核心基准测试上实现了跨越式进步,但其更严格、更字面化的新特性,也需要用户调整原有的使用习惯和提示词策略。

Claude Opus 4.7来了,公开模型里的SOTA!不过用起来GPT味好浓

Claude Opus 4.7核心升级解析:四大能力维度全面进化

综合官方发布与社区评测,这款全新的Opus 4.7模型主要在四个关键方向上实现了显著提升。值得注意的是,Anthropic暗示其尚未发布的Mythos模型在整体能力上仍领先约10%-15%,堪称其技术储备中的“王牌”。相比之下,Opus 4.7更像是一个完成了全面安全审计、定价更具竞争力且全面开放部署的“旗舰量产版”,旨在为更广泛的开发者提供顶尖的AI能力。

高级软件工程:可靠的生产力伙伴

Opus 4.7最令人瞩目的提升集中在高级软件工程领域。一系列权威基准测试数据印证了其强大实力:在SWE-bench Verified测试中达到78.2%,SWE-bench Multimodal达到72.7%,Terminal-Bench 2.0得分68.8%。更具说服力的是生产环境数据:在Rakuten-SWE-Bench中,其成功解决的生产级任务数量是前代Opus 4.6的三倍;在GitHub 93项编码任务基准上,性能提升了13%。

AI代码助手Cursor的CEO Michael Truell指出,在CursorBench上,Opus 4.7的得分从58%大幅跃升至70%,这一进步意义重大。这种提升具体归因于三个关键特性:

首先,是极其严格的指令遵循能力。模型不再“过度解读”或“脑补”用户的模糊意图,而是倾向于精确执行字面指令。这意味着以往带有“如果方便的话,请尝试优化”等软化语气的提示词,其“优化”部分可能被忽略;现在,明确的“优化这段代码”指令会得到坚决执行。这要求开发者使用更精确、限制更明确的提示词。

其次,模型在输出前会进行自我验证与推理,类似于资深工程师在提交代码前自行运行测试用例。

第三,它显著增强了处理复杂多文件变更、模糊问题调试和跨服务代码审查的能力。Notion的AI负责人Sarah Sachs分享的数据显示,面对复杂的多步骤工作流,Opus 4.7的成功率比前代提升14%,且Token消耗更低,工具调用错误率降至三分之一,并评价其为“首个通过我们所有隐性需求测试的AI模型”。

视觉理解能力:分辨率提升三倍,细节识别更强

在视觉能力方面,Opus 4.7同样取得了突破性进展。其支持的最大图像长边分辨率提升至2576像素,是Opus 4.6的三倍以上;在XBOW视觉敏锐度基准测试中达到98.5%的高分。这使得其实用场景得到极大扩展,能够直接解析完整的Figma设计稿、高清的1080p终端截图,并精准提取复杂技术架构图或财务报表图表中的数据信息。在计算机使用场景中,它可以清晰读取高密度的用户界面元素。以往需要专门视觉模型处理的化学结构式解析、复杂工程图纸识别等任务,现在或许仅靠Opus 4.7即可完成。

指令遵循与复杂推理:更可控,更可靠

指令遵循能力的强化是本次升级的另一大核心。Opus 4.7致力于减少“自由发挥”,严格遵循用户设定的边界。如果用户要求“不要使用TypeScript”,模型就会完全避免;要求“输出纯JSON”,那么输出结果将不会有任何额外的前缀或解释文本。这种变化对于习惯了模型“灵活”解读的老用户可能需要适应期,但对于追求精确控制和稳定输出的生产环境而言,无疑是重大利好。

在复杂推理方面,模型在长达100万token的上下文窗口中表现优异,在BFS(广度优先搜索)推理任务上得分58.6%,长文本中的逻辑连贯性与因果推理能力也有显著增强。

智能体(Agent)能力:为自动化任务而生

如果说之前的Claude模型更侧重于对话,那么Opus 4.7则明显是为构建高级智能体(Agent)而优化。其核心的自主任务执行能力获得了全方位增强。多家企业的实测数据提供了有力证明:Notion的多步骤工作流成功率提升14%,工具调用错误率降低67%;在Vending-Bench 2长期经营模拟中,最终余额达到10937美元,体现了其长周期规划和决策的稳健性;在Genspark测试场景下,其在抗死循环、状态一致性和错误恢复等生产级特性上表现突出。此外,模型还具备了跨会话的文件系统记忆能力,能够可靠地记住关键信息,新任务可减少高达40%的重复上下文输入。

Cognition公司CEO Scott Wu的描述非常生动:Opus 4.7将其AI程序员Devin的长周期自主性提升到了新高度,能够连贯工作数小时,坚持攻克难题而非轻易放弃,从而解锁了一类以往无法可靠运行的深度调查与开发任务。

同时,Opus 4.7为开发者提供了更精细的控制工具:新增了介于high与max之间的xhigh推理等级,便于在响应速度与思考深度间取得平衡;新增自适应思考模式,允许模型自主决定推理步骤;提供任务预算功能,以优化长耗时任务的资源分配;在Claude Code中新增/ultrareview命令,可创建专属代码审查会话,用于标记细微错误和潜在的设计缺陷。

安全第一的设计理念:主动防护与记忆增强

Anthropic特别强调,Opus 4.7的网络安全相关能力被有意设计为低于Mythos Preview版本。这种“自我设限”的背后,是公司对AI安全治理的一贯坚持。在行业对超强模型潜在风险展开广泛讨论的背景下,Opus 4.7被定位为一道可靠的“安全缓冲带”。

具体而言,Anthropic在训练过程中差异化地降低了Opus 4.7涉及网络攻防的能力权重,使其在面对相关请求时表现出更谨慎、更保守的行为模式。平台层面也部署了能够自动检测并拦截高风险网络安全请求的防护机制。对于从事漏洞研究、渗透测试等合法工作的安全专业人员,则可以通过Anthropic正式的“网络安全验证计划”提交申请以获得使用权限。

定价与迁移指南:与4.6同价,但需注意这些变化

目前,Opus 4.7已实现全平台开放,不仅登陆了Claude全系产品线及最新API,也同步上线了微软Azure Foundry、谷歌Cloud Vertex AI、亚马逊AWS Bedrock这三大主流云平台。其定价策略与Opus 4.6保持完全一致:输入每百万tokens收费5美元,输出每百万tokens收费25美元。

然而,从Opus 4.6迁移至4.7版本时,开发者需要注意以下几个技术细节:首先是分词器的更新。Opus 4.7采用了全新的分词器,虽然提升了文本处理效率,但相同文本内容所映射的tokens数量可能会增加到原来的1.0至1.35倍。这意味着完全相同的提示词可能会消耗更多token,需要在项目成本预算中预留相应余量。

其次,在更高的“努力级别”下,模型会产生更多的中间思考tokens。Opus 4.7在high和xhigh级别下的“思考深度”明显增加,这种“先思后行”的模式虽然提升了输出结果的准确性和可靠性,但也意味着token消耗会随着会话复杂度的增长而增加。

当然,也有积极的效率信号。根据Anthropic的内部测试,在一项智能体编码评估中,所有努力级别下的总体token使用效率相比Opus 4.6均有改善。简而言之,虽然单次API调用的token数可能上升,但由于模型犯错率降低、返工减少,完成整个任务所需的总token数往往更少。这类似于雇佣一位时薪更高但经验丰富的工程师,他一次做对的概率更高,最终的整体项目成本可能反而更低。

开发者可以通过灵活调整“努力”参数、为任务设置预算上限或优化提示词结构,来平衡性能与成本。Anthropic建议,在测试编码和智能体用例时,可以从high或xhigh努力级别开始,再根据实际输出质量和成本反馈进行微调。

总体而言,实际使用成本会因具体的使用模式、任务类型和参数设置而有很大差异。但对于那些依赖Claude进行复杂软件开发、数据分析或自动化工作流的团队而言,模型能力提升所带来的效率增益和错误减少,很可能完全抵消掉token消耗的潜在增加,从而成为一项性价比极高的投资。

来源:https://tech.ifeng.com/c/8sOQHGm3HR3
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

OpenMythos开源:基于PyTorch复现Claude深度推理架构
AI
OpenMythos开源:基于PyTorch复现Claude深度推理架构

关于Anthropic那个神秘的Claude Mythos,业内一直有各种传闻。它在复杂推理和系统性泛化上的表现据说相当惊人,但始终闭源,让人只能猜测其内部机制。现在,情况有了新变化。 一个名为OpenMythos的项目刚刚出现,它从第一性原理出发,用PyTorch完整实现了一套对Claude My

热心网友
05.18
2026年Claude必备插件推荐 真正提升效率的几款工具
AI
2026年Claude必备插件推荐 真正提升效率的几款工具

2026年2月24日,Anthropic为企业用户推出了私有插件市场。而就在此前两周,社区已经发布了超过1000个MCP服务器,将Claude的能力从单纯的文本生成,拓展到了一个更广阔的天地。 这意味着什么?Claude不再只是一个对话界面。它现在可以:自主编写并执行代码、实时浏览网页、访问你的Gm

热心网友
05.18
Claude性能维护与防降智优化完全指南
AI
Claude性能维护与防降智优化完全指南

Anthropic近期发布了Claude Code的官方实践指南,这份指南为开发者提供了对抗“AI性能衰退”的实用方法。通过有效运用回溯、压缩和子智能体等核心功能,你可以显著提升Claude在长上下文任务中的稳定性和智能表现。 对于开发者而言,如何高效管理百万Token级别的上下文窗口,是决定AI助

热心网友
05.18
Claude处理超长PDF文档的准确率实际测试结果
AI
Claude处理超长PDF文档的准确率实际测试结果

处理超长PDF文档时,如果发现Claude分析结果遗漏关键信息或上下文逻辑断裂,问题根源通常在于文档本身。这可能是文档长度超出了模型的有效处理范围,也可能是复杂的排版格式干扰了信息的精准提取。无需担忧,本文将分享四个经过实战检验的优化方法,能系统性提升Claude分析PDF的准确性与可靠性。 一、将

热心网友
05.18
Claude 200K上下文信息召回率实测与分析
AI
Claude 200K上下文信息召回率实测与分析

如果你把一份接近20万字的文档直接扔给Claude,然后指望它能精准地找出某个藏在中间的关键信息,结果可能会让你有点意外。实际情况是,它的“记忆力”并不均匀。 一系列独立测试揭示了其中的规律:模型对文档开头和结尾的内容记得更牢,而对中间部分的信息,召回率会出现显著下降。这并非偶然,而是长上下文处理中

热心网友
05.18

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

东南亚智能手机一季度均价上涨19% 市场趋势与价格分析
业界动态
东南亚智能手机一季度均价上涨19% 市场趋势与价格分析

东南亚智能手机市场第一季度平均售价同比上涨19%,达349美元。出货量虽下滑9%,但市场总规模增长8%,呈现“量减价增”态势。这表明消费者开始转向高端机型,市场增长动力正从销量扩张向价值提升转变。

热心网友
05.19
代币归属期是什么意思?通俗解释解锁规则与投资影响
web3.0
代币归属期是什么意思?通俗解释解锁规则与投资影响

代币归属期指代币在发行后按预定时间表逐步解锁的过程。该机制旨在激励项目长期发展,防止早期投资者或团队成员大量抛售导致市场波动。归属期通常包含锁定期与释放期,具体规则由项目方设定。理解此概念有助于评估代币的潜在流通量与市场风险。

热心网友
05.19
小鹏L4级Robotaxi量产车下线 纯视觉方案下半年试运营
业界动态
小鹏L4级Robotaxi量产车下线 纯视觉方案下半年试运营

近日,小鹏汽车正式宣布,基于其旗舰SUV车型GX打造的首款Robotaxi(自动驾驶出租车)量产车已成功下线。这一重要进展标志着中国L4级高阶自动驾驶技术的商业化落地,迈出了坚实而关键的一步。 根据官方披露的核心信息,这款自动驾驶车型创造了多项行业纪录:它不仅是中国首款实现全栈自研、前装量产的Rob

热心网友
05.19
人民日报评恶意仅退款行为触碰法律红线违背公序良俗
业界动态
人民日报评恶意仅退款行为触碰法律红线违背公序良俗

5月19日,一则新闻引发广泛关注与讨论:河南濮阳一位主营冷冻榴莲果肉的商家,因遭遇买家恶意发起“仅退款”操作,在沟通无果后,选择驱车数百公里前往山东进行维权。几乎在同一时间,浙江杭州萧山区盈丰街道,也因类似恶意退货退款问题频发,被部分电商商家列入“交易谨慎名单”。这两起典型事件,将长期存在于电商交易

热心网友
05.19
AMD中国研发中心落户上海 苏姿丰称其深谙开放创新精髓
业界动态
AMD中国研发中心落户上海 苏姿丰称其深谙开放创新精髓

5月19日,AMD完成了一项具有里程碑意义的战略举措:首次将其年度AI开发者大会的主会场设在中国。在上海,AMD董事会主席兼首席执行官苏姿丰博士发表了核心主题演讲,其中所传递的战略信号,其深远意义远超单纯的技术发布。 贯穿整场演讲,一个核心信息被不断强化:中国市场对于AMD的全球战略重要性,已提升至

热心网友
05.19