GPT-5这次闹出的乌龙,让OpenAI颜面扫地!所有人都以为它破解了十道Erdos难题,没想到竟是查阅文献后才给出的答案。Hassabis忍不住评价道:“这简直太尴尬了。”
OpenAI团队此前大肆宣传GPT-5的突破,结果却演变成一场闹剧。
事情要从几天前说起。
OpenAI科学家Sebastien Bubeck激动地转发了一条消息:两位研究员联袂GPT-5 Pro,仅用了一个周末就解决了10个“百年悬案”——
埃尔德什难题(Erdos problems)
紧接着,OpenAI首席运营官Kevin Weil等人也纷纷跟进,开始大规模宣传。

然而真相很快浮出水面:
这十道难题其实早已被学界解决,并非由GPT-5独立破解,它只是通过检索网络文献找到了现成答案。
消息一出舆论哗然。就连谷歌DeepMind CEO Demis Hassabis也直言不讳地评价:“这也太尴尬了。”

更戏剧性的是,图灵奖得主LeCun突然在X上嘲讽:“简直就是搬起石头(GPT)砸自己的脚。”

GPT-5上演的闹剧
这场风波完全可以说是OpenAI团队自导自演的结果。
研究人员Mark Sellke和Mehtaab Sawhney在原文中明确表示,并没有声称GPT-5破解了这些难题。
他们原帖写道,通过GPT-5数千次查询后,找到了十个被列为Erdos问题的解法。
当时的结果显示,问题223、339、494、515、621、822、883、903、1043、1079都得到了解决,同时在另外11个问题上也取得了部分进展。

而另一方面,这十道难题其实早有答案,只是网站管理者没有及时更新状态。

访问地址:https://www.erdosproblems.com/
英国皇家学会研究员Thomas Bloom,作为erdosproblems.com的运营者,却对此并不知情。
他在X上解释,“开放”状态仅代表他个人不了解该问题的解法,而不是表示该问题在科学界尚未被解决。

总而言之,两个误会凑在了一起,让人们产生了“幻觉”——以为GPT-5攻克了埃尔德什难题。
一方面,难题并非未解决,只是维护者不清楚;另一方面,GPT-5仅通过检索文献完成,而非自己解决。

Sebastien Bubeck尴尬地回应道,GPT-5只是在文献中找到了解决方案,仅此而已。
即便如此,这已经非常高效了,因为我知道文献检索本身就有多困难。

业界热议:仍需同行评审
评论区的大佬们,正坐在前排吃瓜。


通过这场争议,开发者Matt Mazur认真地表示,所有人都必须谨慎对待任何关于AI发现新科学/数学成果的说法。

Hyperbolic创始人Yuchen Jin称,“关于AI发现科学/数学的新发现,需要更多的同行评审”。

不过也有人认为,这对GPT-5来说并不尴尬,毕竟它在文献检索方面表现还是相当出色的。

几天前,陶哲轩也曾发文表示,越来越觉得眼下的AI要在数学领域真正发挥作用,关键可能不在于用最牛的模型去攻克最难的题目——
当然偶尔会有这种案例,特别是当人们投入大量算力和专家精力的时候。
但更靠谱的路线,反而是用中等水平的AI工具,去帮我们搞定那些研究里绕不开的琐碎活、体力活。

无论何时,对AI原创发现保持审慎都是第一位的,但这并不妨碍AI辅助科研成为未来的必经之路。
参考资料:
https://x.com/SebastienBubeck/status/1979539604522127746
https://x.com/thomasfbloom/status/1979254235075059732
