Anthropic发布Claude Opus 4.8 代码幻觉控制科学推理第一

时间：2026-05-31 06:27

2026年5月28日，Anthropic发布ClaudeOpus4 8，在中文评估中代码、幻觉控制与科学推理三项全球第一，综合智能指数73 93分进入第一梯队，展现出强大的文本处理能力，不过智能体任务规划和指令遵循指标有所回落，说明在复杂任务执行上仍有提升空间。

Anthropic发布Claude Opus 4.8：代码、幻觉控制与科学推理全球第一

先聊聊我的观察——2026年5月30日，Anthropic于5月28日正式推出了其最新旗舰模型：Claude Opus 4.8。在中文综合评测中，这款大模型表现十分亮眼，尤其在代码生成、幻觉抑制和科学推理三个维度上，直接拿下全球第一的成绩。

从具体数据来看。在代码生成领域，Opus 4.8获得了83.58分，领先第二名超过2分，相比上一代4.7版本提升了4.5分以上。在软件工程相关的细分任务中，它的表现同样处于最优水平——独立完成编程和网页开发任务时，稳定性与性能均有肉眼可见的提升。

幻觉控制是另一个突出亮点。87.48分的成绩位居全球首位，相比前代提升了超过6分。模型编造信息的现象明显减少，输出内容更加严谨可靠。对专业应用场景而言，这种可信度的提升至关重要。

科学推理方面，Opus 4.8拿下77.19分，稳居全球榜首。与上一代相比，接近9分的增幅意味着它在理科计算和复杂逻辑推导方面的基础更加扎实。

综合智能指数73.93分，与GPT-5.5、Gemini 3.1 Pro Preview同属第一梯队。响应速度基本保持不变，API调用价格也未调整——整体定位依旧是高性能但单位算力成本相对较高的旗舰级产品。

当然，也需要客观看待。这一版本在智能体任务规划、数学推理和指令遵循三个指标上有所回落。指令遵循能力的下降较为明显，不过对日常交互使用的影响其实有限。

总的来说，Opus 4.8将火力集中在代码能力、事实准确性和科学推理上，对技术密集型用户而言是实实在在的提升。特别是开发者和科研工作者，应该能感受到这种“量身定制”的优化。就当前阶段而言，它是最综合能力最为均衡的旗舰级大模型之一。

来源：https://ai.zol.com.cn/1189/11893488.html

Anthropic

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

继续查看同栏目最近更新的文章。

名爵2026古德伍德速度节首发两款纯电概念车：MGGO!Concept面向小型市场，致敬经典跑车，为2027年量产版前瞻；MGCyberConcept定位D级大型高性能SUV，融合EX181赛车精神，兼顾实用与驾控激情。

2026年7月，苹果起诉OpenAI及其高管和前工程师，指控其系统性盗用商业秘密用于硬件业务。诉讼聚焦招聘环节窃取信息、离职员工持续访问内部资料等行为。此案标志着AI竞争重心从版权转向商业秘密，可能影响硬件研发格局。

据悉，曾因攻击字节跳动大模型训练项目被开除的实习生田柯宇，近日已成功获五源资本数千万美元投资，他所创建的世界模型项目估值约2亿美元，目前其本人已担任多家相关企业法人及高管。

资深分析师诺布尔指出SpaceX估值泡沫严重，合理股价仅30美元，远低于当前145美元。解禁后流通股将暴增900%，且公司仅星链盈利，其他业务持续烧钱，长期亏损。散户高位进场风险极高，可能血本无归。

在20万级家用MPV市场，星海V9凭借200公里纯电续航、1300公里综合续航、5 27升馈电油耗、85 2%得房率及满员593升后备箱，配合L2级辅助驾驶和7气囊，在能耗、空间、安全上全面领先传祺M8PHEV和腾势D9DM-i，起售价17 99万，性价比突出。