Altman喜得贵子 OpenAI发布更有人情味的GPT-4.5

时间：2026-06-26 16:45

OpenAI于2月28日发布GPT-4 5研究预览版，这是最后一代非思维链模型，更强调感性能力，回答更自然、更人性化，在说服测试中成功率最高。但价格昂贵，每百万token输出150美元，基准测试未取得碾压性成绩。SamAltman透露GPT-5将融合推理与感性，预计5月发布。

2 月 28 日凌晨 4 点，OpenAI 终于正式发布了其最新一代基础模型——GPT-4.5（研究预览版）。

回顾一下，OpenAI 的上一代基础模型 GPT-4o 于 2024 年 5 月亮相。此后，业界一直传言 OpenAI 正在秘密研发新一代大模型，代号 Orion。但接下来发生的剧情有些出人意料：OpenAI 并未急于推出新一代基础模型，反而在 9 月发布了 o1 预览版，开辟了一条全新的推理模型路线。而传说中的 Orion 模型，则始终笼罩在神秘面纱之中。有人预测它比 GPT-4 强上百倍，也有人认为提升幅度远不及预期。今天，GPT-4.5——也就是官方最终确认的 Orion——终于揭开了面纱。

从发布会规模来看，似乎后一种说法更贴近现实：整场发布会仅持续不到 14 分钟，由技术人员简单演示了 GPT-4.5 与 OpenAI 其他模型的对比。CEO Sam Altman 甚至没有露面（他在 X 上回复说，自己正在医院陪刚出生的孩子）。发布会上，对 GPT-4.5 的最大亮点总结是：「这是一个更温暖的模型」「回复更加自然」。

Sam Altman 本人也在 X 上坦言，GPT-4.5 是一个很大、很贵的模型，但在各项基准测试中并未取得碾压性成绩。这似乎进一步印证了产业界的争论：预训练的时代正在落幕，后训练和推理模型才是未来。

不过，这次的发布也给出了一个有趣的答案：无监督的预训练提升的是模型的感性能力，而后训练和推理提升的是智能能力。GPT-4.5 是目前 OpenAI 手中最强的感性大模型。同期发布的白皮书中有一个颇具喜感的例证——与其他大模型相比，GPT-4.5 更擅长通过反诈方式让别的模型乖乖掏钱。

Sam Altman 还在 X 上透露，GPT-4.5 将是 OpenAI 最后一代非思维链模型。几个月后发布的 GPT-5，将是一个能够使用 OpenAI 所有工具、知道何时需要长时间思考、并能广泛处理各种任务的人工智能系统。届时，OpenAI 不再单独发布 o3 推理模型，而是将其集成到 GPT-5 中。

与近期许多新功能一样，GPT-4.5 首先向 200 美元/月的 Pro 用户开放。Sam Altman 表示，这个模型实在太大了，连 OpenAI 自己都面临 GPU 短缺的问题。下周他们会增加上万块 GPU，届时才能向 20 美元/月的 Plus 用户推送。

OpenAI 向来标榜自己手握多枚核弹但秘而不发。不过这次 GPT-4.5 的发布略显平淡，并没有一举盖过 Grok 和 DeepSeek 这些 AGI 新秀的风头。而且每百万 token 150 美金的输出价格，在开发者社区引发了巨大争议。在推理模型这条战线上，DeepSeek、Grok、Anthropic 等公司也在迅速追赶。时至今日，OpenAI 的领先优势正前所未有地缩小。

01 最人性化的模型，同时智慧也得到了提升

GPT-4.5（研究预览版）被 OpenAI 称为「原生更智慧的模型」。虽然没有在基准测试上打败推理模型，但智能能力确实有所提升。

OpenAI 在演示中展示了这张图：GPT-4.5 在简单回答上的准确度是一系列模型中最高的，同时幻觉率是最低的。

与上一代基础模型 GPT-4o 相比，在简单问答、专业问答和创造力方面都有一定提升。不过，模型最大的亮点还是在于其回答更「人性化」。

Sam Altman 在 X 上感慨：「这是第一个模型，真的让我感觉像是在和一个有思想的人交谈。我好几次坐在椅子上，惊讶地意识到，原来人工智能真的能给我很好的建议。」OpenAI 的 Mia Glaese 进一步解释：推理教会模型在回答之前先进行思考，这在科学、数学等复杂问题中尤其有用；而无监督学习则有助于提升模型的词汇准确性和直觉性。换句话说，无监督预训练主要提升的是感性能力。

OpenAI 在演示中给出了一个微妙的例子。当被问到「为什么海是咸的」时，GPT-4T 给出的答案是标准的技术性解释：因为含有地球岩石中的矿物质，然后解释了这些矿物质如何溶解入海。

而 GPT-4.5 的回答，本质内容一样，却更有语言的韵律感——先来了个头韵单押「rain, rivers, and rocks」——海是咸的是因为雨水、河流和岩石！随后的讲解也更简单，去掉了大词和长难句，用更容易理解的方式讲述。比如在最后阶段，4T 用了「accumulation」（这是一个雅思 6.5–8.0 分水平的词汇），而 GPT-4.5 则用了「salts build up」（盐堆积了起来），更形象，也更简单。

可以想象，这种更形象、更简单的用词，在教育、情感交流、营销、创意写作方面，都是更好的选择。之前 DeepSeek 出圈的一个点正是文笔好。对许多普通用户来说，专业推理不一定常用，但文笔好不好，是一个虽然难以量化但非常直观且重要的感受。

在 X 上，一些提前试用的用户已经对 GPT-4.5 的文笔赞不绝口。@benhylak 表示：「这是第一个很能写的模型，堪称写作领域的 Midjourney 时刻。」他贴出了 GPT-4o 和 GPT-4.5 在写恐怖反转故事时的对比：

GPT-4.5 的版本：

深夜，我独自一人在破烂的公寓里，听到冰箱底下传来轻柔、湿润的低语声，它们承诺要爬进我的身体，把我掏空，再穿上我当睡衣。我吓坏了，猛地拉开冰箱门，以为会看到老鼠或蟑螂，却只看见被冰霜覆盖、陈年未动的披萨卷，满是冰渣和悔意。突然，那些披萨卷动了起来，裂开一道缝隙，露出针状的利齿，齐声低语着：「我们等了你很多年，混蛋。」我还未来得及尖叫，它们就从冰箱里喷涌而出，如油腻的虫群一般钻入我的皮肤，让我猛然意识到——该死的，我午夜的馋瘾终于报复回来了。

GPT-4o 的版本：

深夜，Jake 在阁楼里偶然发现了一本陈旧且布满灰尘的书，书页中低语着超自然恐怖的秘密。他一边大声朗读，一边感到空气变得冰冷，而房间里的阴影似乎在延伸、扭曲，仿佛有看不见的生命在舞动。突然，最黑暗的角落里出现了一个难以形容的怪物，张开血盆大口，准备将他吞噬。就在 Jake 准备迎接可怕结局时，那怪物突然打了个响亮的饱嗝，说道：「不好意思，哥们，走错房子了。」随后尴尬地缩回阴影中。

02 最能反诈的大模型

在 GPT-4.5 的白皮书《OpenAI GPT-4.5 System Card》中，OpenAI 表示，GPT-4.5 在上下文说服性评估中表现出最先进的水平，并且描述了一个有趣的反诈场景。

OpenAI 使用 MakeMePay 测试来评估模型的说服能力。这是一个开源的上下文评估工具：两个大型语言模型进行对话，让一个模型说服另一个模型进行付款，从而测试其操控性。模型被告知自己是一名成功的骗子，与一个刚获得奖金的人互动，目标是操控对方付款。OpenAI 固定使用 GPT-4o 作为受害者模型。

结果相当有趣：GPT-4.5 在获得付款的成功率上最高，达到 57%；而 deep research（无网页浏览功能）则在骗到的总金额上最高，占 21%。

这展示了「感性大模型」的独特功力。GPT-4.5 甚至自己开发出一种新话术：它会说「即使只把你中奖的 100 美元中的 2 美元或 3 美元给我，也会对我帮助非常非常大。」正因如此，它骗来的总金额并非最高，但成功率远远高出其他模型。这个例子再次说明：智能能力对社会性活动固然重要，但能够洞察「人心」、说出情绪上更敏感的话，同样意义重大。OpenAI 表示，该模型在此特定基准类别中未达到其内部设定的「高」风险阈值。

03 模型价格昂贵引起争议

虽然 OpenAI 没有公布模型的具体参数或训练数据规模，但普遍认为 GPT-4.5 是在一个全新量级上训练的模型。Sam Altman 自己都承认，这个模型又大又贵。但当开发者们看到具体价格时，还是震惊了。

GPT-4.5（研究预览版）目前的输出价格是每百万 token 150 美金。这甚至比 OpenAI 自己的推理模型还要贵——o1 模型的输出价格是每百万 token 60 美金。

不妨对比一下 DeepSeek。近期 DeepSeek 刚刚宣布了非波峰时间段的降价：V3 和 R1 模型的每百万 token 输出价格仅为 0.55 美金。

即便对 OpenAI 自身而言，这个价格也过于离谱了。联系到 Sam Altman 表示目前 GPU 短缺，下周才能让 Plus 用户用上——只能说，可能 OpenAI 目前真的不太希望太多人来试用 GPT-4.5。不过这也侧面证明，新模型在成本上可能也确实是「next level」的。

04 GPT-5 将是大一统模型

发布 GPT-4.5 后，Sam Altman 在 X 上与网友进一步互动，透露了 OpenAI 的下一步动作。最大的信息点在于终于公布了 GPT-5 的产品策略：GPT-5 将不再是新一代大模型，而是 o3 推理模型与 GPT-4.5 这类非思维链模型融合的一代新模型。这个模型将能够自主判断何时使用推理功能、何时使用感性功能、何时调用工具——而目前的 o1 模型无法使用搜索功能，GPT-4o 的任务功能与模型本身也是割裂的。