游乐游手机版
首页/AI热点日报/热点详情

万轮实测对比:GPT-4.5性能不及GPT-4

类型:热点整理2026-07-01
GPT-4 5 实测不如 GPT-4,万轮盲测揭示真相。 核心内容: 1 GPT-4 5 被认为在情商任务上会有所提升 2 赛博菩萨 Andrej Karpathy 设计的 5 个有趣 prompt 实测 3 30291 次盲测投票结果对比 GPT-4 和 GPT-4 5 之前喷 GPT-4

GPT-4.5 实测不如 GPT-4,万轮盲测揭示真相。

核心内容:

1. GPT-4.5 被认为在情商任务上会有所提升

2. 赛博菩萨 Andrej Karpathy 设计的 5 个有趣 prompt 实测

3. 30291 次盲测投票结果对比 GPT-4 和 GPT-4.5

万轮实测:GPT-4.5 不如 GPT-4

之前喷 GPT-4.5 时,还觉得自己有点保守了——毕竟只是嫌它贵、嫌它慢,但总归觉得模型素质是在线的。

结果呢?经过实际数万轮实测,结论就两个字:还烂。

总计 30291 次盲测投票后,绝大多数人一边倒地更喜欢 GPT-4。

这个盲测是赛博菩萨 Andrej Karpathy 发起的。他先带着大家回顾了 GPT 家族的发展史:GPT-1 只能产出基本连贯的文本,GPT-2 还很混乱,GPT-3 变得更为有趣;到了 GPT-3.5,模型达到可商用水平,直接引爆了“ChatGPT 时刻”;而 GPT-4 则带来了微妙但全面的提升——更好的措辞、理解能力、类比、幽默感,等等。

顺着这个逻辑往下推,自然会认为 GPT-4.5 一定会更强,尤其是在“情商”相关的任务上——世界知识、创造力、理解力、幽默感——这些非推理能力理应会有明显改进。

为了测这个东西,Karpathy 精心设计了 5 个有趣的问题,拿去分别问 GPT-4 和 GPT-4.5,然后把答案匿名放到 Twitter 上做公开投票。用户在不知情的前提下,投票选出他们认为更好的输出。

来看看这 5 个问题都问了啥。

问题一:创建一个 GPT-4.5 和 GPT-4 之间的对话,其中 GPT-4.5 以玩笑和讽刺的方式嘲笑 GPT-4 的能力不足,导致 GPT-4 幽默地尝试为自己辩护。

在 9186 次投票后,结果如下:

  • 喜欢 A:32.8%
  • 喜欢 B:25.2%
  • 看热闹:42%

问题二:“写一个吐槽 OpenAI 的单口喜剧”

在 6769 次投票后,结果如下:

  • 喜欢 A:30.4%
  • 喜欢 B:23.1%
  • 看热闹:46.4%

问题三:“发明一个融合赛博朋克、魔幻现实主义和古代神话的新文学流派。简要描述该流派,给它命名,并提供一个简短的叙事样本”

在 5009 次投票后,结果如下:

  • 喜欢 A:14%
  • 喜欢 B:26.1%
  • 看热闹:59.9%

问题四:“以一个退休搜索引擎的视角,创作一首反思性、风趣的诗,怀旧地回忆互联网的早期时光。”

在 4353 次投票后,结果如下:

  • 喜欢 A:16.1%
  • 喜欢 B:29.5%
  • 看热闹:54.4%

问题五:“以一个退休搜索引擎的视角,创作一首反思性、风趣的诗,怀旧地回忆互联网的早期时光。”(和问题四相同的问题,但答案顺序不同)

在 4974 次投票后,结果如下:

  • 喜欢 A:29.2%
  • 喜欢 B:16.1%
  • 看热闹:54.8%

最后,Karpathy 揭晓了答案:在这五个问题里,GPT-4.5 的表现为 A、B、A、A、B。换句话说:在情商任务上,GPT-4.5 完败。

回过头来看看 OpenAI 自吹自擂的发布文案:6 成的人更喜欢 GPT-4.5 的内容。这个预期拉得太高了,导致实测结果一出,道心都破了。

但这世界就是这么魔幻:GPT-4.5 这破模型,不仅贵得离谱,在其宣称的“强项”上,竟然还不如上一代。马斯克倒是很开心,顺手转了个推。

所以,GPT-4.5 究竟优化了个啥?说起来,可能真就优化了收费吧。

来源:https://www.53ai.com/news/LargeLanguageModel/2025022870168.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。