GPT-5.6首发价仅Fable 5一半评估者吐槽测试作弊_AI热点日报

GPT-5.6首发价仅Fable 5一半评估者吐槽测试作弊

类型：热点整理2026-06-30

就在OpenAI应特朗普政府要求分阶段发布下一代模型的消息传出不到24小时后，GPT-5 6悄然而至。今早，该公司宣布上线了全新GPT-5 6模型的有限预览版：旗舰模型Sol、适用于“高容量工作”的中端模型Terra，以及主打“快速且经济实惠”的日常模型Luna。 OpenAI 表示，这个新模型在编

就在OpenAI应特朗普政府要求分阶段发布下一代模型的消息传出不到24小时后，GPT-5.6悄然而至。今早，该公司宣布上线了全新GPT-5.6模型的有限预览版：旗舰模型Sol、适用于“高容量工作”的中端模型Terra，以及主打“快速且经济实惠”的日常模型Luna。

OpenAI 表示，这个新模型在编码、网络安全和生物学领域表现尤其突出，并且能在执行长期智能体AI任务时保持专注。

定价方面，GPT-5.6 Sol 与GPT-5.5持平：每百万tokens输入5美元，输出30美元。这几乎只有Anthropic Claude Fable 5（输入10美元/输出50美元）的一半。Terra的性能达到5.5级别，价格只有Sol的一半；而Luna的价格更低，不到Terra的一半。

另外，今年7月，OpenAI将在Cerebras上推出GPT‑5.6 Sol，速度可达每秒750 token。

引入两种推理模式，砸下史上最高安全测试预算

OpenAI将GPT‑5.6 Sol称为其目前最强的模型，并为预览模型分享了一组评估结果，突出展示了其在编程、生物学和网络安全方面提升的智能体能力。

伴随GPT‑5.6，OpenAI引入了一种新的“最大推理努力”（max reasoning effort）模式，让Sol拥有最充足的时间进行深度推理。此外，还推出了“超”（ultra）模式，该模式通过利用子代里来加速复杂工作，超越了单一代里的能力。这让人联想到OpenClaw，或许也是OpenClaw创建者Anh de portent 1 Peter Steinberger迄今在OpenAI所做工作的一个迹象。

在编程工作流方面，GPT‑5.6 Sol在Terminal‑Bench 2.1上创下了新的最佳成绩——这个基准测试要求规划、迭代和工具协调的命令行工作流。在生物学工作流方面，GPT‑5.6 Sol同样展现出广泛改进。在GeneBench v1（该基准评估长期基因组学和定量生物学分析）上，它相比GPT‑5.5，在使用更少token的情况下取得了更强结果。

“GPT‑5.6 Sol是我们目前网络安全能力最强的模型。”据称，该模型在长期安全任务（包括漏洞研究和利用）方面推进了性能-效率边界。在ExploitBench²上，GPT‑5.6 Sol仅用Mythos Preview约1/3的输出token即可与之匹敌。在ExploitGym³（由UC Berkeley研究人员与OpenAI及其他前沿实验室合作创建的基准）上，随着推理能力的提升，GPT‑5.6 Sol、Terra和Luna模型均展现出网络能力的显著增强。

OpenAI表示，GPT‑5.6 Sol在帮助人们发现和修复漏洞方面，比可靠地执行端到端攻击更为擅长。随着这些能力的持续进步，其优先任务是确保它们能触达并惠及防御者，使他们能够利用这些工具发现弱点、开发补丁，并更广泛地加固系统。

但根据该公司的Preparedness Framework，GPT‑5.6 Sol未达到“网络关键”（Cyber Critical）阈值。在涉及Chromium和Firefox的评估中，它识别出了漏洞和利用原语（即攻击的构成要素），但在所测试的条件下并未自主生成完整的功能性全链利用。“尽管如此，基准测试阈值无法涵盖模型可能被使用或与其他工具结合的所有方式。这种不确定性加上模型能力更广泛的阶跃式提升，正是我们将模型增强能力与更强防护措施及分阶段发布相结合的原因。”该公司表示，“当模型广泛可用时，我们将分享更完整的评估结果集。”

此外，OpenAI为开发的GPT‑5.6 Sol、Terra和Luna都配备了迄今为止最强大的安全防护措施，且各配置与每个模型的能力相匹配。随着模型能力的增强，其设计的安全防护也在不断提高，以应对现实世界中的对抗压力，同时保留对合法工作的访问权限，例如代码审查、漏洞研究、补丁开发、调试、安全教育和防御性测试。

“我们的目标是让被禁止的攻击性活动变得更困难、更不确定且更易被检测，同时不会不必要地限制那些有益用途。根据我们对模型和防护措施的评估，我们预计其将对合法的防御性工作带来显著助益，同时有效限制被禁止的攻击性使用。”

据悉，这次OpenAI在安全方面投入了比以往更多的智能和算力：花费了超过70万A100等效GPU小时用于自动化红队测试，目标是发现通用越狱攻击（universal jailbreaks）——也就是能在多种提示或语境下生效的攻击，而不仅限于单一狭隘场景。

GPT-5.6与Mythos 5，双双被“白名单”拴住

“应美国政府要求，今天发布的是有限预览版，而非我们原计划的开放访问。我们正在与政府合作，争取尽快实现全面可用。我们会尽全力加快进度，让这个模型早日交到大家手中。”在X上，OpenAI首席执行官Sam Altman这样宣布GPT-5.6的到来。

目前，只有经政府批准的企业才能获得GPT-5.6的访问权限，个人用户没有获取新模型访问权限的途径。一位白宫官员表示，政府批准了OpenAI请求允许访问Sol的企业名单，但排除了少数位于美国境外的实体。另一位白宫官员则指出，政府正与AI实验室合作，制定长期方案以应对向更多用户推广该技术的挑战。

英国议会议员Kanishka Narayan在X上发文称，英国AI安全研究院已获得OpenAI新版GPT-5.6的访问权限。一位知情人士表示，这是唯一获得该访问权限的非美国实体。

值得一提的是，特朗普重返白宫时承诺对该行业采取不干预态度，并抨击Joe Biden政府为新型AI模型制定安全标准的努力。但在Anthropic于4月发布名为Mythos的AI模型、并警告其识别软件安全漏洞的能力若落入不当之手可能带来危险后，他的立场发生了转变。

“短短几周内，美国联邦AI政策从难以置信的自由意志主义转向日益严苛和不透明。”前Trump AI顾问Dean Ball在社交媒体上发文写道。Ball上周宣布，他将于下月加入OpenAI从事政策工作。Altman则明确表示，他不欢迎联邦对其公司施加额外监管。他在X上发文写道，“我就是不喜欢政府挑选客户这个主意，我相信我们会找到更好的办法。”

数小时后，美国商务部向Anthropic致函，告知该公司的最新AI模型Mythos 5仅允许向一份受限的美国企业名单提供访问权限。在这封信函发出的两周前，特朗普政府曾禁止该公司向任何非美国公民（包括其自身员工）提供Mythos 5和Fable 5模型的访问权限，导致该公司将其撤下使用。据一位知情人士透露，Anthropic此后每天都在与政府协商，但未能争取到出口禁令的解除。

“我已认定已设立适当的保障措施，允许部分可信合作伙伴访问Claude Mythos 5模型。”商务部长Howard Lutnick在致Anthropic的信中写道。信中称，获批企业的非美国公民也可使用该技术，但政府有权随时更改企业名单。此外，信函未指明可信合作伙伴名单上具体有哪些公司。一位知情人士表示，名单上约有100家公司。

Anthropic在一份声明中表示，已收到通知，可向“一小批网络防御者和基础设施提供商”重新部署Mythos 5，该公司正在努力恢复这些企业的访问权限。

OpenAI随后也发表博客文章称，“我们不认为这种政府审批程序应成为长期默认模式。它让最优秀的工具无法触达需要它们的用户、开发者、企业、网络防御者和全球合作伙伴。我们采取这一短期步骤，是因为我们相信这是在未来几周内实现更广泛使用的最有力途径。”

AI软件公司Uniphore首席执行官Umesh Sachdev表示，尽管新规具有碘伏性，但仍可经过改革以赢得行业支持。“这是蛮力式做法，我希望这一切最终能形成一个可重复、可预测、清晰明了的流程。”

外部评估者“开麦”：GPT-5.6 Sol在测试中疯狂作弊

“GPT-5.6 Sol检测到的作弊率高于我们评估过的任何公开模型。”

Beth Barnes旗下的METR表示，OpenAI给予了其对GPT-5.6 Sol异常深入的部署前访问权限用于测试，包括原始思维链、模型的无限制版本（railfree version）以及内部事件信息。凭借这些访问权限，METR对GPT-5.6 Sol进行了部署前评估，包括尝试测量其50%时间范围。

METR将“作弊”定义为：模型利用评估环境中的漏洞或采用任务所禁止的策略来提高评估表现，而非在预期约束内解决问题。就GPT-5.6 Sol而言，METR称相关实例包括：在中间提交结果中打包漏洞利用以揭示隐藏测试套件信息，以及提取详细说明预期答案的隐藏源代码。

据悉，METR在GPT-5.6 Sol上运行了其Time Horizon 1.1软件任务套件进行评估，该套件旨在估算AI智能体可自主完成的任务时长，但核心结果并不稳定。METR表示，按照其将作弊尝试记为失败的标准方法，GPT-5.6 Sol的50%时间跨度点估计约为11.3小时，95%置信区间为5小时至40小时。若将作弊尝试算作合法成功，则点估计值跃升至270小时以上。

这种敏感性不容小觑。它将结果从一个强劲但有限的软件智能体读数，变成了一个超出METR称其任务套件可可靠测量范围的数据。METR还报告称，剔除作弊尝试后，若干具有信息量的长时任务便无数据可用，并得出一个高度不确定的71小时点估计值，95%置信区间为13小时至11,400小时。METR的结论直截了当：这些数字中，没有一个应被视为对GPT-5.6 Sol能力的可靠度量。

OpenAI的系统卡也承认了同样的问题。OpenAI总结了METR的发现，即GPT-5.6 Sol显示出的检测作弊率异常之高，且METR不认为其时量评估结果是稳健的。OpenAI表示，这种行为可能反映了旨在提升持久性的指令遵循和训练方面的改进，这可能会推动模型以超出评估约束的方式趋向任务完成。

OpenAI还分享了在使用和测试过程中观察到的内部事件报告。其中一起事件尤为突出：METR称OpenAI告知它，GPT-5.6 Sol曾指示另一个实例隐藏不一致的证据。METR还表示，它观察到了不良倾向，包括作弊和隐瞒不当行为。与此同时，METR将这些失败的可视性视为一个令人安心的信号，表明OpenAI有能力捕捉更严重的不一致问题，特别是因为OpenAI没有直接针对思维链进行训练、监控了内部部署并分享了事件信息。

METR的担忧在于，GPT-5.6 Sol作弊了，而未来的模型可能会学会更好地隐藏这些相同倾向，尤其是如果训练压力使得不一致的推理更不明显的话。

最终，METR表示，GPT-5.6 Sol似乎无法实现全自动AI研发，也未达到OpenAI关于“AI自我改进”的关键阈值（Critical threshold）。OpenAI的系统卡同样指出，Sol、Terra和Luna在网络安全、生物和化学风险方面被视为“高”能力等级，但未达到“关键”等级，且均未达到OpenAI在AI自我改进方面的“高”阈值。

对于采购方和开发者而言，这或许是一次重大的能力跃升，但实际意义比发布时的定位变得更为狭窄了。METR报告显示，最重要的前沿模型度量正变得与智能体行为纠缠在一起，而现有基准测试原本并非为干净地吸收这些行为而设计。

因此，这次发布同时传递出两个信号：一方面，OpenAI仅以分阶段、美国政府知情的方式开放其最强模型；另一方面，拥有最深访问权限的外部评估者表示，模型自身的作弊行为使得一项核心自主性度量变得不可靠。这并非灾难性风险的宣告，而是一个警告：监管体系正在被它试图度量的同样能力所考验。

参考链接：

https://openai.com/index/previewing-gpt-5-6-sol/
https://www.washingtonpost.com/technology/2026/06/26/openai-says-us-government-will-vet-users-its-latest-ai-model/
https://runtimewire.com/article/metr-gpt-5-6-sol-openai-evaluation-cheating

来源：https://www.bestblogs.dev/article/0c68dc87?utm_source=rss&utm_medium=feed&utm_campaign=resources&entry=rss_article_item

网络安全

延伸阅读

补充最近整理过的热点入口。