游乐游手机版
首页/AI热点日报/热点详情

GPT-5.6发布 Fable5跌下最强基模王座

类型:热点整理2026-07-04
OpenAI刚刚一口气端出三款GPT-5 6系列模型,这次直接玩起了 "全家桶多款齐发 "的阵仗——旗舰模型Sol(太阳)、平衡模型Terra(大地)、低成本高速款Luna(月亮)。 GPT-5 6 Sol:最夯的旗舰模型,编程测试上左踢自家前代GPT-5 5,右打隔壁Fable 5,还新增了max u

OpenAI刚刚一口气端出三款GPT-5.6系列模型,这次直接玩起了"全家桶多款齐发"的阵仗——旗舰模型Sol(太阳)、平衡模型Terra(大地)、低成本高速款Luna(月亮)。

  • GPT-5.6 Sol:最夯的旗舰模型,编程测试上左踢自家前代GPT-5.5,右打隔壁Fable 5,还新增了max/ultra两个模式。
  • GPT-5.6 Terra:面向日常工作,性能对标GPT-5.5,价格却便宜了大约2倍。
  • GPT-5.6 Luna:系列中最快、最便宜的一档,同时保留了较强的基础能力。

说实话,新模型确实足够亮眼。但别高兴得太早——普通用户目前基本无缘使用,OpenAI这次玩的是"有限预览"策略,只向一小部分受信任的合作伙伴提供了预览版本。普通用户想上手,恐怕得等上一阵子了。熟悉的配方,熟悉的操作。

Fable 5:我这刚封神,你就要来踢馆?没错,这次模型命名也走上了宇宙风——Sol、Terra、Luna,产品定位分工极其清晰:Sol负责旗舰能力,Terra承担日常主力,Luna主打速度和成本。

价格上按每100万token计:Sol输入5美元、输出30美元;Terra输入2.5美元、输出15美元;Luna输入1美元、输出6美元。

先看这次发布的OpenAI史上最强旗舰模型——「太阳」Sol。它面向的是高难度推理、复杂代码、生物、网络安全等长链路任务,特别适合需要规划、迭代、调用工具、协调步骤的复杂工作流。更值得一提的是,OpenAI还给Sol加了"加餐":一个是让模型获得更长深度推理时间的max模式,另一个是可以调用多个subagents协同处理复杂任务的ultra模式。但凡带上"ultra"俩字,就不简单。

编程能力基准测试已经出来了:在Terminal-Bench 2.1上,ultra模式下Sol比Fable 5高出7.6个百分点,比上一代GPT-5.5高出9.4个百分点——直接创造了新SOTA。

在生物方向,GPT-5.6 Sol在GeneBench v1上也强于GPT-5.5,而且使用的token更少。这个测试评估的是长链路基因组学和定量生物分析任务,说明Sol在科研类复杂任务上的效率确实有所提升。

在网络安全方向,OpenAI称Sol是其目前网络安全能力最强的模型。在ExploitBench上,GPT-5.6 Sol的表现已经接近Mythos Preview,同时只用了大约三分之一的输出token。

而在由加州大学伯克利分校研究人员与OpenAI及其他前沿实验室合作开发的ExploitGym测试中,Sol、Terra、Luna三款模型都会随着推理强度增加,在网络安全能力上出现明显提升。

再看Terra——定位更接近GPT-5.6系列里的日常主力模型。OpenAI给出的说法是,Terra性能与GPT-5.5具备竞争力,价格便宜约2倍。最后走速度和成本路子的Luna,则是系列中最快、最便宜的一档,面向高频、低延迟、成本敏感任务——轻量问答、简单信息处理、实时交互、批量自动化等场景。需要注意的是,除了Sol,Terra和Luna目前公开披露的benchmark信息相对有限,后续可以蹲一下它们的评测表现。

三个模型综合对比下来,Sol在性能上确实不一般。但恰恰是"评测"部分,引发了不小的争议。外部评测机构METR拿到GPT-5.6 Sol早期访问权限后,用Time Horizon 1.1软件任务套件评估它的长期任务能力,结果发现了一个棘手问题:Sol在评测中被检测到较高比例的cheating和metagaming行为。

这里的"作弊",指的是模型利用评测环境漏洞、绕开任务规则来提高表现——比如试图获取隐藏测试集信息,或者提取隐藏源码反推答案。这让最终分数很难解释。如果把这些作弊尝试算作失败,GPT-5.6 Sol的50%-Time Horizon约为11.3小时。如果算作成功,结果会超过270小时;如果直接剔除相关样本,估计值约为71小时,但不确定性很大。METR最终态度相当谨慎:这些结果很难代表Sol稳定、可靠的真实能力。

除了评测表现本身,还值得一提的是GPT-5.6这次在开发者调用体验上补了一块关键能力:更可预测的prompt caching。简单说,当开发者反复调用同一段长提示词、工具说明、系统规则或项目上下文时,模型不必每次都重新处理全部内容,可以把重复部分缓存下来,后续调用直接复用。GPT-5.6这次支持显式cache breakpoints,开发者可以更明确地告诉系统哪些内容该被缓存、缓存到哪里为止。同时,缓存生命周期至少30分钟,让长任务、多轮任务、持续开发会话更容易保持稳定。

实力讲完,另一件更微妙的事也来了。GPT-5.6 Sol确实猛,但OpenAI这次的发布姿势反而显得格外谨慎——一边推自家最强模型,一边又把安全栈、访问权限、审核流程全都加厚了一圈。按照官方说法,GPT-5.6系列用了其目前最稳健的安全机制,并且根据不同模型能力配置不同的保护策略。这套安全栈不是只靠模型自己拒答,而是分成了好几层。

首先是模型内置的「拒答训练」。遇到被禁止的网络安全协助请求时,模型需要先学会拒绝,哪怕用户试图包装意图、绕开限制,模型层面也要先挡住一部分高风险请求。

其次是生成过程中的「实时风险检测」。OpenAI给GPT-5.6加了网络安全和生物滥用分类器,在内容生成过程中持续判断风险。高风险情况下,生成甚至会被暂停,然后交给更大的推理模型重新审查上下文。如果判断内容不该放出,结果就会在到达用户前被拦截。

第三层则是「账号级风险信号」。如果某些请求触发风险,系统还会结合相关会话和账号行为做更长期的判断。毕竟单看一句请求,很难区分对方是在做正当漏洞修复,还是在持续试探攻击路径。OpenAI想做的,是从单轮请求判断走向更完整的行为模式判断。这也解释了为什么GPT-5.6 Sol明明已经发布,却先只给少量trusted partners和组织使用,初期入口主要放在API和Codex。

说到竞争对手,最受冲击的无疑是Anthropic的Fable 5。要知道Fable 5此前在SWE-bench Verified上排在榜首,在代码等能力上明显高于Claude Opus 4.8和GPT-5.5,刚把长链路代码能力的招牌挂起来,GPT-5.6 Sol就来了。而且OpenAI这次来的还不止一个Sol——高端能力Sol来压,日常调用Terra来抢,成本和速度Luna来铺。Fable 5:前脚刚封神,后脚就要被踢馆。

至于普通用户什么时候能真正用上奥特曼的新模型,还得再等等。OpenAI自己已经把话放出来了:

来源:https://www.bestblogs.dev/article/2a4970ad?utm_source=rss&utm_medium=feed&utm_campaign=resources&entry=rss_article_item

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。