GPT-4.5 实测不如 GPT-4,万轮盲测揭示真相。
核心内容:
1. GPT-4.5 被认为在情商任务上会有所提升
2. 赛博菩萨 Andrej Karpathy 设计的 5 个有趣 prompt 实测
3. 30291 次盲测投票结果对比 GPT-4 和 GPT-4.5

之前喷 GPT-4.5 时,还觉得自己有点保守了——毕竟只是嫌它贵、嫌它慢,但总归觉得模型素质是在线的。
结果呢?经过实际数万轮实测,结论就两个字:还烂。
总计 30291 次盲测投票后,绝大多数人一边倒地更喜欢 GPT-4。
这个盲测是赛博菩萨 Andrej Karpathy 发起的。他先带着大家回顾了 GPT 家族的发展史:GPT-1 只能产出基本连贯的文本,GPT-2 还很混乱,GPT-3 变得更为有趣;到了 GPT-3.5,模型达到可商用水平,直接引爆了“ChatGPT 时刻”;而 GPT-4 则带来了微妙但全面的提升——更好的措辞、理解能力、类比、幽默感,等等。
顺着这个逻辑往下推,自然会认为 GPT-4.5 一定会更强,尤其是在“情商”相关的任务上——世界知识、创造力、理解力、幽默感——这些非推理能力理应会有明显改进。
为了测这个东西,Karpathy 精心设计了 5 个有趣的问题,拿去分别问 GPT-4 和 GPT-4.5,然后把答案匿名放到 Twitter 上做公开投票。用户在不知情的前提下,投票选出他们认为更好的输出。
来看看这 5 个问题都问了啥。
问题一:创建一个 GPT-4.5 和 GPT-4 之间的对话,其中 GPT-4.5 以玩笑和讽刺的方式嘲笑 GPT-4 的能力不足,导致 GPT-4 幽默地尝试为自己辩护。
在 9186 次投票后,结果如下:
- 喜欢 A:32.8%
- 喜欢 B:25.2%
- 看热闹:42%
问题二:“写一个吐槽 OpenAI 的单口喜剧”
在 6769 次投票后,结果如下:
- 喜欢 A:30.4%
- 喜欢 B:23.1%
- 看热闹:46.4%
问题三:“发明一个融合赛博朋克、魔幻现实主义和古代神话的新文学流派。简要描述该流派,给它命名,并提供一个简短的叙事样本”
在 5009 次投票后,结果如下:
- 喜欢 A:14%
- 喜欢 B:26.1%
- 看热闹:59.9%
问题四:“以一个退休搜索引擎的视角,创作一首反思性、风趣的诗,怀旧地回忆互联网的早期时光。”
在 4353 次投票后,结果如下:
- 喜欢 A:16.1%
- 喜欢 B:29.5%
- 看热闹:54.4%
问题五:“以一个退休搜索引擎的视角,创作一首反思性、风趣的诗,怀旧地回忆互联网的早期时光。”(和问题四相同的问题,但答案顺序不同)
在 4974 次投票后,结果如下:
- 喜欢 A:29.2%
- 喜欢 B:16.1%
- 看热闹:54.8%
最后,Karpathy 揭晓了答案:在这五个问题里,GPT-4.5 的表现为 A、B、A、A、B。换句话说:在情商任务上,GPT-4.5 完败。
回过头来看看 OpenAI 自吹自擂的发布文案:6 成的人更喜欢 GPT-4.5 的内容。这个预期拉得太高了,导致实测结果一出,道心都破了。
但这世界就是这么魔幻:GPT-4.5 这破模型,不仅贵得离谱,在其宣称的“强项”上,竟然还不如上一代。马斯克倒是很开心,顺手转了个推。
所以,GPT-4.5 究竟优化了个啥?说起来,可能真就优化了收费吧。
