游乐游手机版
首页/科技数码/文章详情

Claude Opus 4.8上线:AI编程更可靠,减少无依据结论

时间:2026-05-29 09:15
Anthropic发布ClaudeOpus4 8,专注编程、推理与知识工作。对比4 7,代码缺陷未解释概率下降约4倍,无依据结论显著减少,亲社会指标创历史新高。新增effort控制功能,基准测试超越GPT-5 5与Gemini3 1Pro,快速模式速度提升2 5倍、成本降至三分之一。此次更新全面增强了模型的可靠性与实用性。

2025年5月29日,人工智能公司Anthropic正式推出其旗舰级新模型——Claude Opus 4.8。本次升级的核心方向聚焦于智能体编程、跨领域推理以及知识型工作,旨在提升模型在实际任务中的可靠性与实用性。

相较于一个月前发布的Opus 4.7,本次迭代幅度虽不算剧烈,且定价策略维持不变。然而,核心优化精准瞄准了用户最关注的场景:编码能力、智能体任务执行、逻辑推理以及知识密集型工作。简单来说,这些都是能让用户直观感受到模型“变得更为智能”的关键领域。


根据多家早期测试机构的反馈,Claude Opus 4.8给用户留下了“可靠性提升、判断力更为敏锐”的深刻印象。在处理复杂多步骤任务时,其判断更加稳健——不仅能够主动提出疑问,还能自行识别并纠正错误,甚至在计划不合理时提出质疑。这种自主纠偏的能力,在之前的模型版本中较为罕见。

一个非常直观的数据对比:与Opus 4.7相比,Opus 4.8在其生成的代码中遗留缺陷且未加说明的概率,大约下降了4倍。该模型更倾向于主动标注不确定性,缺乏依据的结论也显著减少。这意味着什么?模型已不再处于“埋头写代码、有错也不报告”的状态,而是开始学习以更透明的方式呈现其输出。

在对齐性能方面,Opus 4.8同样表现亮眼。它在支持用户自主性、按照用户最佳利益行动等亲社会指标上创下了新高。同时,欺骗等不匹配行为的发生率低于Opus 4.7,与Claude Mythos Preview版本的水平相近。可以说,该模型在“更顺从”与“更诚实”之间找到了一个良好的平衡点。


配套功能方面也有升级。claude.ai平台新增了effort(努力程度)控制选项,用户可以在更高质量输出与更快响应速度之间自由权衡。默认档位设置为high(高),在编码任务中,token消耗量与Opus 4.7的默认档接近,但生成效果更优。如果用户选择extra(额外)或max(最高,在Claude Code中对应xhigh)档位,模型将消耗更多token以换取更理想的结果——这相当于为用户提供了一个“性能拉满”的选项。

在基准测试方面,Anthropic公布的成绩相当出色:Opus 4.8在SWE-Bench Pro上取得了69.2%的分数,并在该测试以及其他多项基准中超越了GPT‑5.5和Gemini 3.1 Pro。不过,需要留意的是:在终端编程基准上,GPT‑5.5目前仍然保持领先。因此,“全面超越”的说法尚不成立,但至少在某些关键维度上,Anthropic确实迈出了追赶的一步。


性能与价格方面也进行了调整。Claude Opus 4.8的快速模式运行速度提升至原来的2.5倍,而成本则降低为此前模型的三分之一。具体定价方案如下:常规模式下,每100万输入令牌收费5美元、每100万输出令牌收费25美元;快速模式下,每100万输入令牌收费10美元、每100万输出令牌收费50美元。速度更快、成本更低,这显然是为了鼓励用户“多用、用得尽兴”。

来源:https://www.163.com/dy/article/KU31EVDI0511B8LM.html
上一篇互联网大厂AI战略商业化兑现收入增长 下一篇苹果iOS27最新爆料:用Gemini训练本地AI,部分Siri请求转向谷歌云
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。