游乐游手机版
首页/业界动态/文章详情

Anthropic发布Claude Opus 4.8 代码幻觉控制科学推理第一

时间:2026-05-31 06:27
2026年5月28日,Anthropic发布ClaudeOpus4 8,在中文评估中代码、幻觉控制与科学推理三项全球第一,综合智能指数73 93分进入第一梯队,展现出强大的文本处理能力,不过智能体任务规划和指令遵循指标有所回落,说明在复杂任务执行上仍有提升空间。

Anthropic发布Claude Opus 4.8:代码、幻觉控制与科学推理全球第一

先聊聊我的观察——2026年5月30日,Anthropic于5月28日正式推出了其最新旗舰模型:Claude Opus 4.8。在中文综合评测中,这款大模型表现十分亮眼,尤其在代码生成、幻觉抑制和科学推理三个维度上,直接拿下全球第一的成绩。

从具体数据来看。在代码生成领域,Opus 4.8获得了83.58分,领先第二名超过2分,相比上一代4.7版本提升了4.5分以上。在软件工程相关的细分任务中,它的表现同样处于最优水平——独立完成编程和网页开发任务时,稳定性与性能均有肉眼可见的提升。

幻觉控制是另一个突出亮点。87.48分的成绩位居全球首位,相比前代提升了超过6分。模型编造信息的现象明显减少,输出内容更加严谨可靠。对专业应用场景而言,这种可信度的提升至关重要。

科学推理方面,Opus 4.8拿下77.19分,稳居全球榜首。与上一代相比,接近9分的增幅意味着它在理科计算和复杂逻辑推导方面的基础更加扎实。

综合智能指数73.93分,与GPT-5.5、Gemini 3.1 Pro Preview同属第一梯队。响应速度基本保持不变,API调用价格也未调整——整体定位依旧是高性能但单位算力成本相对较高的旗舰级产品。

当然,也需要客观看待。这一版本在智能体任务规划、数学推理和指令遵循三个指标上有所回落。指令遵循能力的下降较为明显,不过对日常交互使用的影响其实有限。

总的来说,Opus 4.8将火力集中在代码能力、事实准确性和科学推理上,对技术密集型用户而言是实实在在的提升。特别是开发者和科研工作者,应该能感受到这种“量身定制”的优化。就当前阶段而言,它是最综合能力最为均衡的旗舰级大模型之一。

来源:https://ai.zol.com.cn/1189/11893488.html
上一篇CDPR六年推三部巫师正传,放弃大型DLC专注本体质量 下一篇零跑COO徐军:降价需平衡盈利,不盲目堆参数
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Adobe Reader零日漏洞被恶意PDF利用预警
业界动态 · 2026-06-27

Adobe Reader零日漏洞被恶意PDF利用预警

本文分享EXPMON系统对一种针对Adobe Reader用户的高度复杂、指纹识别式PDF漏洞利用的检测与分析过程,并披露相关技术细节。 一、摘要 EXPMON系统检测到一个针对Adobe Reader用户的高度复杂的PDF漏洞利用样本。 根据分析,该样本属于一个初始漏洞利用程序,具备收集和泄露各类

黑客借Claude Code和GPT-4.1窃取墨西哥数亿政府记录
业界动态 · 2026-06-27

黑客借Claude Code和GPT-4.1窃取墨西哥数亿政府记录

先说一个让人后背发凉的案例。一名黑客,只用了几个小时的“作业时间”,就把墨西哥九家政府机构的网络翻了个底朝天。他累计提交了1,088条指令,在34次实时会话中触发了5,317条操作命令,硬是在数小时内把一片陌生的网络变成了清晰标记的攻击地图。这个工作量,如果换乘人类安全团队,恐怕够整个团队忙上好几天

实测吸尘器,解决99%养宠清洁猫毛痛点
业界动态 · 2026-06-27

实测吸尘器,解决99%养宠清洁猫毛痛点

养猫家庭猫毛问题可通过源头控毛与高效清洁解决。科学梳毛、饮食调理可减少70%浮毛。友望扫地僧吸尘器凭借0缠扫振地刷、全链路自清洁及H13级过滤,实现99%以上除毛率,100天免倒尘,彻底解决养宠清洁痛点。

免费开源远程连接神器electerm,专为Linux新手打造
业界动态 · 2026-06-27

免费开源远程连接神器electerm,专为Linux新手打造

electerm是一款免费开源的远程连接工具,跨平台支持Windows、Mac、Linux及Web端。安装简单,通过SSH连接Linux服务器,支持复制粘贴、书签自动保存等便捷功能。相比Xshell和MobaXterm,electerm对新手更友好,完全满足入门阶段远程操作需求。

数据库管理员密码忘记如何找回
业界动态 · 2026-06-27

数据库管理员密码忘记如何找回

想象这样一个场景:公司业务数据库跑在 SQL Server 2008 上,唯一知道管理员密码的同事突然离职,交接文档里偏偏漏掉了这一条。更糟的是,Windows 身份验证用的操作系统账户也因为各种原因登录不了。 数据库还在跑,业务正常进行,但管理员已经彻底失去了控制权。这种感觉就像被锁在自己家门外—