万轮实测对比：GPT-4.5性能不及GPT-4_AI热点日报

万轮实测对比：GPT-4.5性能不及GPT-4

类型：热点整理2026-07-01

GPT-4 5 实测不如 GPT-4，万轮盲测揭示真相。核心内容： 1 GPT-4 5 被认为在情商任务上会有所提升 2 赛博菩萨 Andrej Karpathy 设计的 5 个有趣 prompt 实测 3 30291 次盲测投票结果对比 GPT-4 和 GPT-4 5 之前喷 GPT-4

GPT-4.5 实测不如 GPT-4，万轮盲测揭示真相。

核心内容：

1. GPT-4.5 被认为在情商任务上会有所提升

2. 赛博菩萨 Andrej Karpathy 设计的 5 个有趣 prompt 实测

3. 30291 次盲测投票结果对比 GPT-4 和 GPT-4.5

万轮实测：GPT-4.5 不如 GPT-4

之前喷 GPT-4.5 时，还觉得自己有点保守了——毕竟只是嫌它贵、嫌它慢，但总归觉得模型素质是在线的。

结果呢？经过实际数万轮实测，结论就两个字：还烂。

总计 30291 次盲测投票后，绝大多数人一边倒地更喜欢 GPT-4。

这个盲测是赛博菩萨 Andrej Karpathy 发起的。他先带着大家回顾了 GPT 家族的发展史：GPT-1 只能产出基本连贯的文本，GPT-2 还很混乱，GPT-3 变得更为有趣；到了 GPT-3.5，模型达到可商用水平，直接引爆了“ChatGPT 时刻”；而 GPT-4 则带来了微妙但全面的提升——更好的措辞、理解能力、类比、幽默感，等等。

顺着这个逻辑往下推，自然会认为 GPT-4.5 一定会更强，尤其是在“情商”相关的任务上——世界知识、创造力、理解力、幽默感——这些非推理能力理应会有明显改进。

为了测这个东西，Karpathy 精心设计了 5 个有趣的问题，拿去分别问 GPT-4 和 GPT-4.5，然后把答案匿名放到 Twitter 上做公开投票。用户在不知情的前提下，投票选出他们认为更好的输出。

来看看这 5 个问题都问了啥。

问题一：创建一个 GPT-4.5 和 GPT-4 之间的对话，其中 GPT-4.5 以玩笑和讽刺的方式嘲笑 GPT-4 的能力不足，导致 GPT-4 幽默地尝试为自己辩护。

在 9186 次投票后，结果如下：

喜欢 A：32.8%
喜欢 B：25.2%
看热闹：42%

问题二：“写一个吐槽 OpenAI 的单口喜剧”

在 6769 次投票后，结果如下：

喜欢 A：30.4%
喜欢 B：23.1%
看热闹：46.4%

问题三：“发明一个融合赛博朋克、魔幻现实主义和古代神话的新文学流派。简要描述该流派，给它命名，并提供一个简短的叙事样本”

在 5009 次投票后，结果如下：

喜欢 A：14%
喜欢 B：26.1%
看热闹：59.9%

问题四：“以一个退休搜索引擎的视角，创作一首反思性、风趣的诗，怀旧地回忆互联网的早期时光。”

在 4353 次投票后，结果如下：

喜欢 A：16.1%
喜欢 B：29.5%
看热闹：54.4%

问题五：“以一个退休搜索引擎的视角，创作一首反思性、风趣的诗，怀旧地回忆互联网的早期时光。”（和问题四相同的问题，但答案顺序不同）

在 4974 次投票后，结果如下：

喜欢 A：29.2%
喜欢 B：16.1%
看热闹：54.8%

最后，Karpathy 揭晓了答案：在这五个问题里，GPT-4.5 的表现为 A、B、A、A、B。换句话说：在情商任务上，GPT-4.5 完败。

回过头来看看 OpenAI 自吹自擂的发布文案：6 成的人更喜欢 GPT-4.5 的内容。这个预期拉得太高了，导致实测结果一出，道心都破了。

但这世界就是这么魔幻：GPT-4.5 这破模型，不仅贵得离谱，在其宣称的“强项”上，竟然还不如上一代。马斯克倒是很开心，顺手转了个推。

所以，GPT-4.5 究竟优化了个啥？说起来，可能真就优化了收费吧。

来源：https://www.53ai.com/news/LargeLanguageModel/2025022870168.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。

万轮实测对比：GPT-4.5性能不及GPT-4

相关热点

延伸阅读