游乐游手机版
首页/科技数码/文章详情

Anthropic估值万亿 Claude 4.8却不够惊艳

时间:2026-05-30 07:19
Anthropic发布ClaudeOpus4 8,同步完成650亿美元融资,估值逼近万亿美元。模型为渐进式小版本迭代,无架构突破,重点提升诚实度并推出动态工作流功能。大模型竞争重心转向可靠性与性价比,43天迭代节奏反映技术与商业双重压力。

小版本迭代,试验属性强。

AI圈又迎来了一次“深夜突袭”。5月29日凌晨,大模型公司Anthropic发布了Claude最新的旗舰模型Opus 4.8,几乎是同一时间,还同步官宣了H轮650亿美元融资落地,投后估值直接拉到了9650亿美元。算下来,不到三个月,Anthropic的估值涨了大约154%,正式超过OpenAI。

这次的模型更新,覆盖了编码、智能体任务、推理与知识工作这些核心能力。其中有一个很明确的重点——提升模型的“诚实度”。此外,还新增了一个叫“动态工作流”的功能,支持大规模复杂任务的并行处理。

不过,要是只看功能列表,很容易高估这次发布的意义。实话实说,Opus 4.8并没有带来架构层面的碘伏性突破。业内普遍的看法是,它属于“渐进式进步”。

但这次发布也传递了一个信号:大模型的竞争重心,正在从技术突破转向“谁更可靠、更好用、性价比更高”。

这个转向在Claude的迭代节奏上也体现得很明显——Opus 4.8距离上一版本Opus 4.7的发布,仅仅隔了43天。如此快的更新速度,既是行业白热化竞争的缩影,也反映出Anthropic目前的处境:它必须用更快的节奏,同时向开发者、企业客户和资本市场证明,Claude是值得信赖的。

01. 进步有限,“诚实”是最大亮点

先看一眼Opus 4.8的成绩单。

在编程、多学科推理、金融分析等主流基准测试中,Opus 4.8的得分全面超过了前代Opus 4.7,也压过了竞争对手GPT-5.5。但有个细节值得多说两句:在最贴近开发者真实工作流的“终端编码”测试(Terminal-Bench 2.1)里,Opus 4.8以74.6%拿下了本次所有单项测试中最大幅度的提升,不过仍然落后于GPT-5.5的78.2%。


但这个差距在实际使用中会特别明显吗?其实未必。

有资深开发者指出,模型在“终端编码”上的表现,跟开发者具体用什么工作流关系很大。如果日常高度依赖命令行一条条调试,那GPT-5.5的领先可能更顺手;但如果核心工作是在IDE里读代码、理解架构、重构或者修复杂缺陷,那Claude在SWE-Bench Pro上的优势反而更有参考价值。

关键是,对大多数应用层开发者来说,终端操作上的这点差距,更多反映的是厂商在各自工具链和优化策略上的侧重不同,并不是模型底层编码能力的根本性短板。所以,实际开发工作中影响并不显著,属于可以接受的范围。

跟编码能力的细微得失比起来,这次更新里更值得关注的,是Anthropic重点打磨的“诚实度”。数据显示,Opus 4.8编写的代码中,缺陷被漏报的概率只有Opus 4.7的大约四分之一,在“欺骗用户”或者“协助干坏事”这类行为上的发生率也明显下降。

不过这个数字也不是没有争议。有资深从业者表示,自己并没有感受到模型变得特别诚实,“这种进步可能更多体现在沟通话术或表达方式的微妙调整上。”

有意思的是,Anthropic自己也提到,在训练过程中观察到了一个潜在矛盾:模型在推理时,越来越倾向于“揣测评分者意图”。也就是说,它可能正在形成一种“自己正在被测试”的感知,从而给出它认为能拿高分的答案,而不是真正最优或最真实的解答。这对于它追求的“诚实”原则来说,确实构成了挑战。

综合来看,Opus 4.8更像是一次扎实但幅度有限的小版本迭代,实际体验上的提升感知并不显著。

有评价认为,“Opus 4.8相比Opus 4.6和GPT-5.5都算不上越级式的提升,更多是针对上一版本Opus 4.7的修复与优化。”考虑到4.7版本的表现,对Anthropic来说,眼下最迫切的任务其实是重建用户对AI可靠性的信任。然而,仅凭目前公布的数据和表现,恐怕还很难说服整个市场相信Claude已经是“最值得托付的那一个”。

02. “动态工作流”成新王牌,但成本是个问题

不止一位从业者提到,这次发布最值得关注的,不光是Opus 4.8的各项评分,还有同步推出的Dynamic Workflows(动态工作流)。顺便提一句,Anthropic实验室里能力更强的Claude Mythos Preview并没有随这次发布对外开放——也就是说,Opus 4.8是当前最强的“通用可用版本”,但并不是Anthropic手里最强的牌。

动态工作流可以简单理解成:Claude现在能扮演一个“项目总监”的角色,把一个大型复杂任务自动拆成几百个子任务,分派给多个“子智能体”并行处理,中间结果经过交叉验证后,再整合输出给用户。


Anthropic为此展示了一个很具体的案例:开发者Jarred Sumner借助动态工作流,把Bun的底层语言从Zig迁移到了Rust,生成了大约75万行Rust代码,通过了现有测试套件的99.8%,从第一次commit到最终merge,历时11天。

也就是说,在不到两周的时间里,Claude就完成了一个通常需要高级工程师团队耗时数月的大型底层重构项目。

有从业者认为,Dynamic Workflows的出现,标志着Claude的主张从按次收费的“对话/生成”服务,转向了按流程和结果收费的“复杂任务交付”服务——企业购买的,是完成一个具体、复杂工作流程的确定性。

不过,这张“王牌”在业内也引发了不少质疑。

技术层面,有观点认为它的创新性有限。有开发者指出,动态工作流在架构上并不是碘伏性设计,演示案例验证的更多是“技术可行性”,距离在真实生产环境中稳定运行,还有很长的工程化距离,其中涉及性能、资源和边缘情况等一系列复杂挑战。

更现实的问题来自经济层面。

有从业者分析,这个模式比常规对话消耗更多Token,成本问题非常突出。“因为需要同时调度十几个智能体协同工作,成本会一下子陡升。哪怕一个工作流设计得再精巧,如果最终效果没有明显提升,成本却翻了好几倍,那对企业来说还是不划算的。”

他补充说,现实中并不是所有企业都有高预算。“微软就曾表示,在某些场景中,用AI的成本已经高于人力成本了。现在,一个成本可能数倍于普通AI的方案,它带来的价值能否带来相应的回报倍数,这需要市场和时间的验证。”在他看来,这个功能的推出本身也带有一定的实验和探索性质。

为了降低使用门槛,Anthropic在成本端也做了一些调整。

一方面,新增了effort control(投入控制)机制,用户可以根据任务复杂程度和需求,手动调节Claude在任务上的“思考投入”强度。比如在“High模式”下,Claude会进行更深度的推理,追求更好的结果;而在“轻量模式”下,则可以实现更快的响应速度和更低的token消耗。

另一方面,在定价策略上,Opus 4.8的常规模式维持了跟上一版本一样的价格,仍然是每百万token 5美元(输入)/ 25美元(输出)。但快速模式的价格大幅下调了——从4.7时代的30美元(输入)/ 150美元(输出),降到了10美元(输入)/ 50美元(输出)。速度差不多的情况下,价格降到了原来的大约三分之一,性价比提升还是很明显的。

话说回来,虽然降价能在一定程度上缓解成本压力,但动态工作流本身的ROI问题,依然是企业真正下场之前绕不过的那道坎。

03. 按月迭代背后,是技术与商业的双重压力

Claude Opus 4.8的发布时间,距离上一版本Opus 4.7只有43天。这么密集的迭代节奏,本身就是技术与商业压力叠加的体现。

技术层面,这次快速迭代被不少从业者看作是一次不得不做的修复。

Opus 4.7因为自适应推理体验不佳,一直饱受诟病。这个功能在一些场景下无法合理分配推理资源,导致模型面对复杂问题时过早“省力”,答案草率、推理链条残缺。有从业者直言,“Opus 4.8主要目的就是修复Opus 4.7遗留的问题——Opus 4.7在开发者圈里绝对不是一个口碑特别好的模型。”

与此同时,外部环境也不允许Anthropic慢下来。

竞争对手OpenAI最新发布的GPT-5.5在多项基准测试中持续领先,Google Gemini则靠着深度融入谷歌生态的分发优势,构成了另一维度的竞争。有观察者指出,这次发布某种程度上也是Anthropic和OpenAI在“舆论声量上的一次直接对冲”。


这背后有一个更深的行业现实。不止一位从业者表示,当下大模型在架构层面已经很难制造出碘伏性差距了——竞争的焦点正在转向工程化实现和工作流塑造。

也就是说,谁能先把AI做进企业的日常生产流程,谁就占据了下一阶段的关键位置。“动态工作流”的推出,正是Anthropic试图在这个新维度上抢先布局,押注复杂任务的自动化交付能力,而不是只靠单项测试分数的微弱领先。

而最直接的压力,来自资本市场。

发布新模型当天,Anthropic宣布完成650亿美元H轮融资,估值拉到9650亿美元。要知道,它在2026年2月完成G轮融资时估值只有3800亿美元,三个月增长了大约154%,离万亿美元只差一步之遥。这个数字放在任何行业里都相当惊人。

支撑这个估值的,是Anthropic的收入增速。有报道称,公司预计二季度营收将达到109亿美元,并有望首次实现季度盈利。

巨额融资带来的弹药固然充足,但资本市场同样寄予了巨大的期待——投资者需要看到跟估值匹配的实质性进展。

Opus 4.8承担的就是这个“证明自己”的任务。它在基准测试上的表现、动态工作流描绘的自动化想象,以及全线对准企业级市场的产品升级方向,共同构成了支撑这近万亿估值的底座。但动态工作流的投资回报率仍然难以量化,“更诚实”的模型承诺能否真正赢得企业客户的长期信任,还有待市场的最终检验。

所以,Opus 4.8更像是一次信心释放——用43天一个版本的节奏告诉市场,它还在加速。但能不能跑稳,才是这家公司接下来真正要做的事。

来源:https://www.163.com/dy/article/KU4NNJM80531MRZO.html
上一篇育碧40周年庆典登陆2026科隆游戏展 全球首秀与独家试玩 下一篇航天员武飞滑出舱 张陆从太空带回苹果
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
雪佛兰LS9引擎谢幕,高性能传奇延续,新品引擎预告
科技数码 · 2026-05-30

雪佛兰LS9引擎谢幕,高性能传奇延续,新品引擎预告

传奇LS9机械增压引擎正式停产,曾为C6科尔维特ZR1提供638马力与819Nm扭矩。雪佛兰性能部门预告新品引擎,或基于6 7升LS6V8开发。目前现售的LT4及LT1发动机仍为改装提供丰富选择。

快手AI业务分拆,可灵独立寻新出路
科技数码 · 2026-05-30

快手AI业务分拆,可灵独立寻新出路

快手2026年第一季度营收337 16亿元同比增长3 4%,净利润33 74亿元同比下滑26 3%。可灵AI营收超6 5亿元增长300%,传闻分拆估值200亿美元。快手全年资本支出预计260亿元押注AI视频,以应对增长放缓与叙事转型压力。

神舟二十一号航天员张陆武飞张洪章顺利出舱
科技数码 · 2026-05-30

神舟二十一号航天员张陆武飞张洪章顺利出舱

神舟二十一号航天员张陆、武飞、张洪章在圆满完成空间站各项既定任务后,于今日全部安全顺利出舱,身体状态良好。此次任务的成功,标志着中国空间站应用与发展阶段又一次任务周期圆满闭合。

宇树科技亚洲首店上海静安开业 紧邻苹果零售店
科技数码 · 2026-05-30

宇树科技亚洲首店上海静安开业 紧邻苹果零售店

宇树科技亚洲首店在上海市静安区久光百货开业,毗邻苹果零售店。门店面积超100平方米,集中展示G1人形机器人、R1双臂机器人等产品,开放沉浸式互动体验,旨在打造具身智能线下体验入口。

神舟二十一号航天员乘组创造中国在轨驻留最长纪录
科技数码 · 2026-05-30

神舟二十一号航天员乘组创造中国在轨驻留最长纪录

神舟二十一号航天员乘组圆满完成飞行任务,刷新了中国航天员乘组在轨驻留最长纪录,在轨工作生活时间创历史新高,进一步验证了空间站长期驻留保障能力,为后续深空探索奠定坚实基础。