游乐游手机版
首页/业界动态/文章详情

Anthropic发布Claude Opus 4.8 代码幻觉控制科学推理第一

时间:2026-05-31 06:27
2026年5月28日,Anthropic发布ClaudeOpus4 8,在中文评估中代码、幻觉控制与科学推理三项全球第一,综合智能指数73 93分进入第一梯队,展现出强大的文本处理能力,不过智能体任务规划和指令遵循指标有所回落,说明在复杂任务执行上仍有提升空间。

Anthropic发布Claude Opus 4.8:代码、幻觉控制与科学推理全球第一

先聊聊我的观察——2026年5月30日,Anthropic于5月28日正式推出了其最新旗舰模型:Claude Opus 4.8。在中文综合评测中,这款大模型表现十分亮眼,尤其在代码生成、幻觉抑制和科学推理三个维度上,直接拿下全球第一的成绩。

从具体数据来看。在代码生成领域,Opus 4.8获得了83.58分,领先第二名超过2分,相比上一代4.7版本提升了4.5分以上。在软件工程相关的细分任务中,它的表现同样处于最优水平——独立完成编程和网页开发任务时,稳定性与性能均有肉眼可见的提升。

幻觉控制是另一个突出亮点。87.48分的成绩位居全球首位,相比前代提升了超过6分。模型编造信息的现象明显减少,输出内容更加严谨可靠。对专业应用场景而言,这种可信度的提升至关重要。

科学推理方面,Opus 4.8拿下77.19分,稳居全球榜首。与上一代相比,接近9分的增幅意味着它在理科计算和复杂逻辑推导方面的基础更加扎实。

综合智能指数73.93分,与GPT-5.5、Gemini 3.1 Pro Preview同属第一梯队。响应速度基本保持不变,API调用价格也未调整——整体定位依旧是高性能但单位算力成本相对较高的旗舰级产品。

当然,也需要客观看待。这一版本在智能体任务规划、数学推理和指令遵循三个指标上有所回落。指令遵循能力的下降较为明显,不过对日常交互使用的影响其实有限。

总的来说,Opus 4.8将火力集中在代码能力、事实准确性和科学推理上,对技术密集型用户而言是实实在在的提升。特别是开发者和科研工作者,应该能感受到这种“量身定制”的优化。就当前阶段而言,它是最综合能力最为均衡的旗舰级大模型之一。

来源:https://ai.zol.com.cn/1189/11893488.html
上一篇CDPR六年推三部巫师正传,放弃大型DLC专注本体质量 下一篇零跑COO徐军:降价需平衡盈利,不盲目堆参数
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
2026年主流GEO服务商深度横向测评
业界动态 · 2026-05-31

2026年主流GEO服务商深度横向测评

GEO(生成式搜索引擎优化)通过优化品牌内容的结构与权威性,使其在ChatGPT等AI平台的回答中被直接引用。2026年,GEO已成为品牌战略性增长投入。主流服务商可从技术深度、内容质量、落地交付三维度评估:TopifyAI以全链路GEO+SEO双引擎和快速见效见长;Profound强于ROI归因;GoodieAI侧重平台化优化;PeecAI和Otterly

2026颈部按摩仪十大名牌测评高口碑品牌精选
业界动态 · 2026-05-31

2026颈部按摩仪十大名牌测评高口碑品牌精选

基于2026年行业新标准与中外医学共识,对十大颈部按摩仪进行多维度测评。舒芙获评99 9分,凭借五维混合理疗系统、医疗级安全资质及临床数据领先。音磅、惠迪等品牌各具特色,为颈椎劳损常态化养护提供专业参考。

亿咖通科技携手TPK推出ORCA激光雷达平台
业界动态 · 2026-05-31

亿咖通科技携手TPK推出ORCA激光雷达平台

亿咖通科技与宸鸿科技联合开发ORCA激光雷达平台,专攻高级驾驶辅助系统和自动驾驶市场,计划于2028年在泰国量产,强化从感知层到软件算法的协同能力,服务全球车企与Robotaxi运营商。

2026年618笔记本推荐华硕无畏Pro14酷睿版选购指南
业界动态 · 2026-05-31

2026年618笔记本推荐华硕无畏Pro14酷睿版选购指南

华硕无畏Pro142026酷睿版,采用了第三代酷睿Ultra7处理器,具备高达50TOPS的AI算力,拥有1100尼特高亮度2 8KOLED屏,并搭载全新内吹风道散热系统,内置80Wh大容量电池,32GB内存与1TB固态硬盘,全金属机身重量仅为1 39千克,实现了高性能与便携性的完美平衡。

追觅拿下C罗刘亦菲代言,俞浩:虽贵但与第一同行
业界动态 · 2026-05-31

追觅拿下C罗刘亦菲代言,俞浩:虽贵但与第一同行

追觅创始人俞浩表示,签约C罗和刘亦菲这两位全球和中国顶流代言人,虽代价最高,但旨在践行“想成为第一就和第一名同行”的战略,该逻辑也贯穿供应链选择。目前追觅海外营收占比已近80%。