游乐游手机版
首页/科技数码/文章详情

Claude Opus 4.8上线:AI编程更可靠,减少无依据结论

时间:2026-05-29 09:15
Anthropic发布ClaudeOpus4 8,专注编程、推理与知识工作。对比4 7,代码缺陷未解释概率下降约4倍,无依据结论显著减少,亲社会指标创历史新高。新增effort控制功能,基准测试超越GPT-5 5与Gemini3 1Pro,快速模式速度提升2 5倍、成本降至三分之一。此次更新全面增强了模型的可靠性与实用性。

2025年5月29日,人工智能公司Anthropic正式推出其旗舰级新模型——Claude Opus 4.8。本次升级的核心方向聚焦于智能体编程、跨领域推理以及知识型工作,旨在提升模型在实际任务中的可靠性与实用性。

相较于一个月前发布的Opus 4.7,本次迭代幅度虽不算剧烈,且定价策略维持不变。然而,核心优化精准瞄准了用户最关注的场景:编码能力、智能体任务执行、逻辑推理以及知识密集型工作。简单来说,这些都是能让用户直观感受到模型“变得更为智能”的关键领域。


根据多家早期测试机构的反馈,Claude Opus 4.8给用户留下了“可靠性提升、判断力更为敏锐”的深刻印象。在处理复杂多步骤任务时,其判断更加稳健——不仅能够主动提出疑问,还能自行识别并纠正错误,甚至在计划不合理时提出质疑。这种自主纠偏的能力,在之前的模型版本中较为罕见。

一个非常直观的数据对比:与Opus 4.7相比,Opus 4.8在其生成的代码中遗留缺陷且未加说明的概率,大约下降了4倍。该模型更倾向于主动标注不确定性,缺乏依据的结论也显著减少。这意味着什么?模型已不再处于“埋头写代码、有错也不报告”的状态,而是开始学习以更透明的方式呈现其输出。

在对齐性能方面,Opus 4.8同样表现亮眼。它在支持用户自主性、按照用户最佳利益行动等亲社会指标上创下了新高。同时,欺骗等不匹配行为的发生率低于Opus 4.7,与Claude Mythos Preview版本的水平相近。可以说,该模型在“更顺从”与“更诚实”之间找到了一个良好的平衡点。


配套功能方面也有升级。claude.ai平台新增了effort(努力程度)控制选项,用户可以在更高质量输出与更快响应速度之间自由权衡。默认档位设置为high(高),在编码任务中,token消耗量与Opus 4.7的默认档接近,但生成效果更优。如果用户选择extra(额外)或max(最高,在Claude Code中对应xhigh)档位,模型将消耗更多token以换取更理想的结果——这相当于为用户提供了一个“性能拉满”的选项。

在基准测试方面,Anthropic公布的成绩相当出色:Opus 4.8在SWE-Bench Pro上取得了69.2%的分数,并在该测试以及其他多项基准中超越了GPT‑5.5和Gemini 3.1 Pro。不过,需要留意的是:在终端编程基准上,GPT‑5.5目前仍然保持领先。因此,“全面超越”的说法尚不成立,但至少在某些关键维度上,Anthropic确实迈出了追赶的一步。


性能与价格方面也进行了调整。Claude Opus 4.8的快速模式运行速度提升至原来的2.5倍,而成本则降低为此前模型的三分之一。具体定价方案如下:常规模式下,每100万输入令牌收费5美元、每100万输出令牌收费25美元;快速模式下,每100万输入令牌收费10美元、每100万输出令牌收费50美元。速度更快、成本更低,这显然是为了鼓励用户“多用、用得尽兴”。

来源:https://www.163.com/dy/article/KU31EVDI0511B8LM.html
上一篇互联网大厂AI战略商业化兑现收入增长 下一篇苹果iOS27最新爆料:用Gemini训练本地AI,部分Siri请求转向谷歌云
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
宫本茂亲签3DS XL拍卖价破两万美元
科技数码 · 2026-05-29

宫本茂亲签3DS XL拍卖价破两万美元

今天来说一件挺有意思的事:2015年任天堂世界锦标赛冠军约翰·戈德堡,近日将他当年夺冠时赢得的宫本茂亲笔签名版3DS XL掌机放上了拍卖平台。截至2026年5月29日,这台签名掌机的竞拍价已突破两万美元,并且价格还在持续攀升。戈德堡在社交媒体上发布声明表示,经过相当长时间的慎重考虑,他决定将这台对自

七彩虹隐星P16 Pro游戏本新配置仅售7799元
科技数码 · 2026-05-29

七彩虹隐星P16 Pro游戏本新配置仅售7799元

七彩虹近期推出隐星P16Pro游戏本新配置,售价7799元。其搭载酷睿i9-13900HX处理器与RTX5060显卡,配备16英寸2 5K高刷电竞屏及高效散热系统。存储组合为16GB内存与1TB固态硬盘,支持后续扩展。该配置主打高性能性价比,适合预算有限但追求强劲性能的游戏玩家与轻度创作者。

苹果iPhone Hikawa握把支架448元重新上架
科技数码 · 2026-05-29

苹果iPhone Hikawa握把支架448元重新上架

苹果公司重新上架了与艺术家贝利·桧川及PopSockets合作设计的iPhone专用握把支架。该配件采用磁吸设计,兼具握持与支架功能,旨在通过人性化设计降低握持负担,并提供三种配色可选,售价448元。

苹果体育应用扩展至170市场 为2026世界杯引入对阵图
科技数码 · 2026-05-29

苹果体育应用扩展至170市场 为2026世界杯引入对阵图

苹果体育应用新增覆盖90多个国家和地区,全球可用市场总数超过170个。为迎接2026年世界杯,应用加入了完整的赛程对阵图和可视化阵型卡片,方便用户追踪赛事与战术。同时,应用支持实时活动功能,可将比分固定在锁屏或表盘,并新增一键跳转至新闻的入口。目前该应用仍仅限iPhone用户使用。

小米史上最强国产巅峰芯片玄戒O3 6月台积电3nm投产
科技数码 · 2026-05-29

小米史上最强国产巅峰芯片玄戒O3 6月台积电3nm投产

据博主爆料,小米下一代自研玄戒芯片计划于今年6月正式进入量产阶段,此次将采用台积电3nm工艺。初代玄戒O1累计出货量已突破100万颗,量产验证十分扎实。新一代芯片的产能将显著提升,这意味着供货问题基本得到解决。 根据现有曝光信息,这颗迭代芯片极有可能命名为玄戒O3,首发搭载机型预计为小米MIX Fo