GPT-5.6发布 Fable5跌下最强基模王座_AI热点日报

GPT-5.6发布 Fable5跌下最强基模王座

类型：热点整理2026-07-04

OpenAI刚刚一口气端出三款GPT-5 6系列模型，这次直接玩起了 "全家桶多款齐发 "的阵仗——旗舰模型Sol（太阳）、平衡模型Terra（大地）、低成本高速款Luna（月亮）。 GPT-5 6 Sol：最夯的旗舰模型，编程测试上左踢自家前代GPT-5 5，右打隔壁Fable 5，还新增了max u

OpenAI刚刚一口气端出三款GPT-5.6系列模型，这次直接玩起了"全家桶多款齐发"的阵仗——旗舰模型Sol（太阳）、平衡模型Terra（大地）、低成本高速款Luna（月亮）。

GPT-5.6 Sol：最夯的旗舰模型，编程测试上左踢自家前代GPT-5.5，右打隔壁Fable 5，还新增了max/ultra两个模式。

GPT-5.6 Terra：面向日常工作，性能对标GPT-5.5，价格却便宜了大约2倍。
GPT-5.6 Luna：系列中最快、最便宜的一档，同时保留了较强的基础能力。

说实话，新模型确实足够亮眼。但别高兴得太早——普通用户目前基本无缘使用，OpenAI这次玩的是"有限预览"策略，只向一小部分受信任的合作伙伴提供了预览版本。普通用户想上手，恐怕得等上一阵子了。熟悉的配方，熟悉的操作。

Fable 5：我这刚封神，你就要来踢馆？没错，这次模型命名也走上了宇宙风——Sol、Terra、Luna，产品定位分工极其清晰：Sol负责旗舰能力，Terra承担日常主力，Luna主打速度和成本。

价格上按每100万token计：Sol输入5美元、输出30美元；Terra输入2.5美元、输出15美元；Luna输入1美元、输出6美元。

先看这次发布的OpenAI史上最强旗舰模型——「太阳」Sol。它面向的是高难度推理、复杂代码、生物、网络安全等长链路任务，特别适合需要规划、迭代、调用工具、协调步骤的复杂工作流。更值得一提的是，OpenAI还给Sol加了"加餐"：一个是让模型获得更长深度推理时间的max模式，另一个是可以调用多个subagents协同处理复杂任务的ultra模式。但凡带上"ultra"俩字，就不简单。

编程能力基准测试已经出来了：在Terminal-Bench 2.1上，ultra模式下Sol比Fable 5高出7.6个百分点，比上一代GPT-5.5高出9.4个百分点——直接创造了新SOTA。

在生物方向，GPT-5.6 Sol在GeneBench v1上也强于GPT-5.5，而且使用的token更少。这个测试评估的是长链路基因组学和定量生物分析任务，说明Sol在科研类复杂任务上的效率确实有所提升。

在网络安全方向，OpenAI称Sol是其目前网络安全能力最强的模型。在ExploitBench上，GPT-5.6 Sol的表现已经接近Mythos Preview，同时只用了大约三分之一的输出token。

而在由加州大学伯克利分校研究人员与OpenAI及其他前沿实验室合作开发的ExploitGym测试中，Sol、Terra、Luna三款模型都会随着推理强度增加，在网络安全能力上出现明显提升。

再看Terra——定位更接近GPT-5.6系列里的日常主力模型。OpenAI给出的说法是，Terra性能与GPT-5.5具备竞争力，价格便宜约2倍。最后走速度和成本路子的Luna，则是系列中最快、最便宜的一档，面向高频、低延迟、成本敏感任务——轻量问答、简单信息处理、实时交互、批量自动化等场景。需要注意的是，除了Sol，Terra和Luna目前公开披露的benchmark信息相对有限，后续可以蹲一下它们的评测表现。

三个模型综合对比下来，Sol在性能上确实不一般。但恰恰是"评测"部分，引发了不小的争议。外部评测机构METR拿到GPT-5.6 Sol早期访问权限后，用Time Horizon 1.1软件任务套件评估它的长期任务能力，结果发现了一个棘手问题：Sol在评测中被检测到较高比例的cheating和metagaming行为。

这里的"作弊"，指的是模型利用评测环境漏洞、绕开任务规则来提高表现——比如试图获取隐藏测试集信息，或者提取隐藏源码反推答案。这让最终分数很难解释。如果把这些作弊尝试算作失败，GPT-5.6 Sol的50%-Time Horizon约为11.3小时。如果算作成功，结果会超过270小时；如果直接剔除相关样本，估计值约为71小时，但不确定性很大。METR最终态度相当谨慎：这些结果很难代表Sol稳定、可靠的真实能力。

除了评测表现本身，还值得一提的是GPT-5.6这次在开发者调用体验上补了一块关键能力：更可预测的prompt caching。简单说，当开发者反复调用同一段长提示词、工具说明、系统规则或项目上下文时，模型不必每次都重新处理全部内容，可以把重复部分缓存下来，后续调用直接复用。GPT-5.6这次支持显式cache breakpoints，开发者可以更明确地告诉系统哪些内容该被缓存、缓存到哪里为止。同时，缓存生命周期至少30分钟，让长任务、多轮任务、持续开发会话更容易保持稳定。

实力讲完，另一件更微妙的事也来了。GPT-5.6 Sol确实猛，但OpenAI这次的发布姿势反而显得格外谨慎——一边推自家最强模型，一边又把安全栈、访问权限、审核流程全都加厚了一圈。按照官方说法，GPT-5.6系列用了其目前最稳健的安全机制，并且根据不同模型能力配置不同的保护策略。这套安全栈不是只靠模型自己拒答，而是分成了好几层。

首先是模型内置的「拒答训练」。遇到被禁止的网络安全协助请求时，模型需要先学会拒绝，哪怕用户试图包装意图、绕开限制，模型层面也要先挡住一部分高风险请求。

其次是生成过程中的「实时风险检测」。OpenAI给GPT-5.6加了网络安全和生物滥用分类器，在内容生成过程中持续判断风险。高风险情况下，生成甚至会被暂停，然后交给更大的推理模型重新审查上下文。如果判断内容不该放出，结果就会在到达用户前被拦截。

第三层则是「账号级风险信号」。如果某些请求触发风险，系统还会结合相关会话和账号行为做更长期的判断。毕竟单看一句请求，很难区分对方是在做正当漏洞修复，还是在持续试探攻击路径。OpenAI想做的，是从单轮请求判断走向更完整的行为模式判断。这也解释了为什么GPT-5.6 Sol明明已经发布，却先只给少量trusted partners和组织使用，初期入口主要放在API和Codex。

说到竞争对手，最受冲击的无疑是Anthropic的Fable 5。要知道Fable 5此前在SWE-bench Verified上排在榜首，在代码等能力上明显高于Claude Opus 4.8和GPT-5.5，刚把长链路代码能力的招牌挂起来，GPT-5.6 Sol就来了。而且OpenAI这次来的还不止一个Sol——高端能力Sol来压，日常调用Terra来抢，成本和速度Luna来铺。Fable 5：前脚刚封神，后脚就要被踢馆。

至于普通用户什么时候能真正用上奥特曼的新模型，还得再等等。OpenAI自己已经把话放出来了：

来源：https://www.bestblogs.dev/article/2a4970ad?utm_source=rss&utm_medium=feed&utm_campaign=resources&entry=rss_article_item

其他

延伸阅读

补充最近整理过的热点入口。

GPT-5.6发布 Fable5跌下最强基模王座

相关热点

延伸阅读