游乐游手机版
首页/AI教程/文章详情

Claude Opus 4.8发布后,还是最强的大模型吗?

时间:2026-06-01 12:59
Anthropic 昨天发布了最新旗舰模型 Claude Opus 4 8,官方公告称其在编码、袋里任务和专业工作方面表现更出色,具备持续处理长期任务所需的稳定性和自主性。SuperCLUE 团队基于中文大模型测评基准体系对 Claude Opus 4 8 进行了全面测试,以下是具体的测评结果与分析

Anthropic 昨天发布了最新旗舰模型 Claude Opus 4.8,官方公告称其在编码、袋里任务和专业工作方面表现更出色,具备持续处理长期任务所需的稳定性和自主性。SuperCLUE 团队基于中文大模型测评基准体系对 Claude Opus 4.8 进行了全面测试,以下是具体的测评结果与分析。

一、SuperCLUE 智能指数

这个智能指数是一个综合得分,涵盖幻觉控制、数学推理、科学推理、精确指令遵循、代码生成、智能体(任务规划)六种任务,相当于看谁才是真正的“六边形战士”。即使在中文评测环境下,“御三家”依然牢牢占据领先位置。Gemini 后来居上,老牌技术公司的底蕴确实深厚。DeepSeek 紧随其后,国产模型和芯片随时有可能像汽车行业那样,在新的领域从追赶者变为领路人。这个榜单目前还未纳入新出的小米模型 Mimo,但从实际体验来看,它的表现也不错。

图片图片

二、模型象限图

从应用能力和推理能力两个维度绘制各家大模型的擅长领域。新出的 Hy3 位于最末。

图片图片

三、性价比区间分布

这部分的结论很直观:DeepSeek-V4-Pro 最具性价比。作为全球首家宣布降价四分之一的模型平台,它让大家能用上便宜又好用的 AI。

图片图片

四、推理效能区间分布

推理速度最快的仍然是“御三家”包揽前三。

图片图片

五、总体表现(2026年5月)

图片图片

测评结果与分析

一、代码生成:Claude-Opus-4.8 以 83.58 分位列第一

领先 Gemini-3.1-Pro-Preview(81.47 分)超过 2 分,相比上个版本(Claude-Opus-4.7)提升超过 4.5 分。在 SWE(软件工程)子任务中表现尤为亮眼,取得 73.33 分,占据榜单第一,相比 Opus 4.7 提升较大,同时在独立函数生成和 Web Coding 子任务中均处于头部位置。

二、幻觉控制:87.48 分,榜单第一

相比 Opus 4.7 提升超过 6 分。

三、科学推理:77.19 分,榜单第一

相比 Opus 4.7 提升 8.77 分。

四、Claude-Opus-4.8 与 Claude-Opus-4.7 对比

新版在幻觉控制、科学推理和代码生成上均有较大幅度提升。其中幻觉控制从 81.11 分提升到 87.48 分(+6.37 分),科学推理从 68.42 分提升至 77.19 分(+8.77 分),代码生成从 79.01 分提升至 83.58 分(+4.57 分)。但在智能体(任务规划)、数学推理和指令遵循方面有一定下降,尤其是指令遵循任务,从 56.19 分降至 44.76 分,下降超过 11 分。

五、推理速度和性价比无明显变化

Claude-Opus-4.8 的推理耗时(97.76 秒/题)与上个版本(99.34 秒/题)几乎持平,依旧位于高效能区间。API 价格也和上个版本(74.38 元/百万 Tokens)保持一致,仍处于低性价比区间。

如今新模型的发布周期从半年缩短到数月,再到一个月,个别版本甚至只间隔几周。大家似乎都已经习以为常了——时不时看到某家发布新模型,最多看一眼,日常该用哪个还是继续用。这次第三方机构对主流大模型的评测结果,基本和日常使用体感差不多。至于 6 月份的 DeepSeek 新版本,值得关注。

来源:https://cloud.tencent.com.cn/developer/article/2679754
上一篇OpenClaw常用技能新手必读与高手进阶技巧分享 下一篇清华大学AI赋能高考志愿填报工具使用指南
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
AI驱动无代码技术降低巡检超自动化门槛
AI教程 · 2026-06-01

AI驱动无代码技术降低巡检超自动化门槛

想象一下,在IT运维场景中,超自动化巡检的远景蓝图确实令人憧憬——全栈覆盖、AI驱动、无人值守、智能闭环,听起来极具未来感。但真正了解内情的人都知道,一个现实难题长期困扰着企业:自动化的进入门槛,实在太高了。传统自动化方案往往离不开脚本编写、API对接、协议理解,每一项都对编程功底提出了严峻考验。知

提升工作总结公文写作技巧与格式范文指南
AI教程 · 2026-06-01

提升工作总结公文写作技巧与格式范文指南

工作总结是职场人回顾过去、规划未来的关键工具,广泛应用于科技、教育、医疗等行业。高质量总结需明确读者对象,涵盖完成情况、问题、改进措施和计划,采用标题、引言、正文、结尾的规范格式,提升专业度与可读性。

范文正公文集叙翻译写作技巧与专业提升
AI教程 · 2026-06-01

范文正公文集叙翻译写作技巧与专业提升

翻译《范文正公文集叙》需兼顾语言转换与文化传递,精准表达原文情感与底色。公文写作强调语言准确清晰、格式规范,各类通知、报告等均有固定结构。借鉴该书范本,可提升公文专业性与规范性。

公文申请格式与撰写技巧:提升审批效率
AI教程 · 2026-06-01

公文申请格式与撰写技巧:提升审批效率

公文申请格式标准化能显著提升审批效率,市场需求随技术从数字化迈向智能化快速翻倍。撰写申请需清晰说明需求与依据,注重逻辑严谨、排版规范,并站在审批者视角突出必要性与合理性,以增强说服力。

五大策略提升公文写作模板使用效率与规范性
AI教程 · 2026-06-01

五大策略提升公文写作模板使用效率与规范性

公文写作模板已成为职场刚需,广泛应用于政府、企业、教育等领域。通过标准化格式、智能化工具及灵活调整,可提升写作效率与规范性。结合清晰段落、简洁语言及表格等技巧,能进一步优化文书质量。