OpenAI 员工公开指责 xAI：Grok 3 基准测试结果具有误导性

首页

热心网友

转载

2026-04-28

OpenAI员工公开指责xAI：Grok 3基准测试结果具有误导性

这周AI圈里热闹了。一位OpenAI的员工公开站出来，炮轰埃隆·马斯克旗下的xAI公司。焦点在于，后者新发布的AI模型Grok 3的基准测试结果，被认为“具有误导性”。不过，xAI的联合创始人伊戈尔·巴布什金马上站出来灭火，坚称公司做法并无不妥。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

OpenAI 员工公开指责 xAI：Grok 3 基准测试结果具有误导性

事情源于xAI在自家博客上发布的一张图表。图表展示了Grok 3在AIME 2025上的表现——这是一项邀请制数学考试中的高难度题集，虽然业内对其作为AI基准的有效性一直有讨论，但它和它的早期版本，依然是评估模型数学能力的常用标尺之一。

图表显示，Grok 3的两个版本——Grok 3 Reasoning Beta和Grok 3 mini Reasoning——在AIME 2025上的得分，超过了OpenAI当前最强的可用模型o3-mini-high。然而，OpenAI的员工很快在社交媒体上指出了关键问题：xAI的图表，巧妙地将对手的一个高分给“藏”了起来——它没有包含o3-mini-high在“cons@64”条件下的得分。

这里需要解释一下，“cons@64”也就是“consensus@64”，指的是允许模型在测试中对每个问题尝试回答64次，然后取出现频率最高的答案作为最终答案。你猜怎么着？这种“多数决”的方式，往往能显著拉升模型的测试分数。如果一张对比图刻意省略了某个模型在这个条件下的成绩，那产生的观感就可能天差地别。

事实上，如果只看首次尝试的得分（即“@1”条件），Grok 3的两个版本其实都没能超过o3-mini-high。而且，Grok 3 Reasoning Beta的得分，也略低于OpenAI的o1模型在“中等计算”设置下的表现。但即便如此，xAI依然在对外宣传中，将Grok 3称为“世界上最聪明的AI”。

面对指责，巴布什金的回应相当直接：他翻出旧账，指出OpenAI过去也发布过类似的、用于比较自家模型性能的图表，在他看来，那些图表同样存在误导性。公说公有理，婆说婆有理，这场口水战的核心，似乎从“谁对谁错”变成了“大家都这么干”。

有意思的是，有位中立的第三方看不下去了，他重新绘制了一张图表，试图呈现更完整、更“准确”的对比情况：

OpenAI 员工公开指责 xAI：Grok 3 基准测试结果具有误导性

然而，正如AI研究员内森·兰伯特在一篇文章里点出的，或许最重要的指标至今仍是笔糊涂账：每个模型为了获得这个“最高分”，究竟耗费了多少计算资源（说白了，就是烧了多少钱）。这个问题恰恰暴露了目前大多数AI基准测试的通病——它们在清晰传达一个模型的真实能力边界和成本优势方面，做得还远远不够。说到底，光看分数排座次，可能意义有限。

来源:https://www.1ai.net/29457.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：Monica：AI网页插件助手，一个好用的聚合AI平台下一篇：马斯克宣布 Grok 3 语音模式早期测试版已上线