OpenAI陷“突破”争议陶哲轩：方向错了致估值下跌

时间：2025-12-06 17:17

“搬起自己的 GPT 石头砸了自己的脚。”这是 Meta 首席 AI 科学家 Yann LeCun 对 OpenAI 研究员们的最新评价。事件起因是，此前这些研究员因 GPT-5 的一项新数

“Meta首席AI科学家Yann LeCun最近对OpenAI研究团队做出犀利点评：他们这是搬起自己的GPT石头，砸了自己的脚。”事情起因是，此前这些研究人员因GPT-5的一项新数学“突破”而高调庆祝，但在受到整个AI社区质疑后又迅速撤回了该说法。连谷歌DeepMind首席执行官Demis Hassabis也对此提出批评，称其沟通存在疏漏。

取得“突破”的消息，最早是由前微软副总裁、现OpenAI研究科学家Sebastien Bubeck放出。他在X上称，两位研究人员在周末借助GPT-5找到了10个埃尔德什问题（Erdős problems）的答案。埃尔德什问题是匈牙利数学家Paul Erdős提出的一系列数学问题的统称，其中既包含未解决的难题，也有已解决的问题，著名案例包括“不同距离问题”（Distinct Distances Problem）与“偏差问题”（Discrepancy Problem）。这类问题以难度高著称，常成为学界深入研究的对象，部分问题甚至设有现金奖励，鼓励研究者攻克。

GPT-5“突破”被证实是一个错误

10月18日，OpenAI研究员Mark Sellke正式宣布，经过数千次GPT-5的查询，其发现了10个原本还处于“未解状态”的埃尔德什问题的答案。此外，还有11个难题取得了重要的部分进展，并更新到了正式上。甚至在一道题上，他们还发现Erdős本人的原始论文里存在错误，这个错误由Martínez和Roldán-Pensado两位学者后来进行了修正。

随即，OpenAI的其他研究员也纷纷宣传起这一消息。OpenAI副总裁Kevin Weil转发了Sellke的帖子并确认了情况，“GPT-5解决了10个（！）此前未解决的埃尔德什问题（Erdős problems），并在另外11个问题上取得了进展。”

然而目前，这几位OpenAI研究员都已删除了以上帖子。

他们的表述听起来像是，GPT-5独立地为复杂的数论问题生成了数学证明，这不仅可能是一项重大科学突破，还意味着生成式AI有望发现未知解决方案，展现出推动创新性研究、为重大进展铺路的能力。但事情却并非如此，说法很快就被推翻了。

负责维护埃尔德什问题的数学家Thomas Bloom出来发声，称以上帖子+“存在严重失实”。他表示，“GPT-5只是找到了一些能解决这些问题的参考文献，而这些文献是我个人之前未曾知晓的。上标注的 ‘未解决’（open）状态，仅代表我个人尚不了解有能解决该问题的论文。”

即便在OpenAI内部，说法也发生了转变。先前高调宣传GPT-5成就的Bubeck承认，“（GPT-5）只找到了文献中已有的解决方案”。但他认为，这仍算一项切实的成就，“我清楚检索文献的难度有多大。”Hassabis对此评价道，“这太尴尬了。”

误导性声明引发“反噬”

最初的相关推文已基本删除，涉事研究员也承认了错误。

尽管如此，这起事件仍让外界进一步认为，OpenAI是一家承受着巨大压力、且行事风格较轻率的机构。人们不禁质疑：为何顶尖AI研究员会在未核实事实的情况下，就发布如此耸动的言论？尤其在这个本就充斥着炒作、且涉及数十亿美元利益的领域。

据外媒报道，在社交平台上，“OpenAIFail”等话题标签热度攀升，短短几天内就有超过1万条推文表达了对OpenAI数学领域所谓“成就” 的失望与质疑。并且，此事一出，OpenAI与股票挂钩的估值指标在盘前交易中大幅下跌。

监管机构也在加强审查。据外媒报道，美国联邦贸易委员会（FTC）已开始调查OpenAI的行为是否构成虚假广告行为，可能面临罚款或其他处罚。与此同时，立法者呼吁在人工智能研究中提高透明度，参议员Maria Cantwell表示，“我们需要确保人工智能的进步不会被夸大给公众，因为这会削弱公众对这项技术及其应用的信任。”

另外，美国监管机构在发现OpenAI通过未公开的与Epoch AI的资金关系获得了对FrontierMath基准测试的内部优先访问权后，正加强对OpenAI的审查，引发了关于公平竞争和基准测试透明度的担忧。Epoch AI的一位助理总监确认OpenAI可以访问大部分基准测试数据，但除了一个“保留”数据集外，并强调只有“口头协议”阻止了其用于训练，这为潜在的操纵留下了可能。此前，在达沃斯论坛上，著名的通用人工智能（AGI）怀疑论者Gary Marcus称OpenAI的公开演示“具有操纵性”。

AI推动数学领域的“实力”，陶哲轩认可

由于误导性的宣传，此事背后真正有价值的信息似乎被掩盖了：事实上，GPT-5在追踪相关学术论文的研究工具层面，展现出了实用价值。对于那些文献分布零散、或术语表述不统一的研究问题而言，这种能力尤为重要。

著名数学家、加州大学洛杉矶分校数学教授陶哲轩（Terrence Tao）多次在公开场合表示，AI助手可以改变数学研究。

10月17日，他在一条帖子中强调，AI在数学领域最富有效果的应用，并非是将最强大的模型用于攻克最具挑战性的难题，而是借助中等计算力的工具，去加速和规模化处理那些更普通、更耗时却依然关键的研究任务。这一过程中，需依托人类在这类任务上积累的经验与理解，来指导、验证人工智能的输出，并将其安全整合到研究流程中。陶哲轩表示，尽管AI在解决棘手问题方面有过一些+“零散的进展案例” ，但是是在投入大量计算资源和专家精力的情况下。

而这类常规任务的一个典型例子就是文献综述：为特定问题查找相关的既往文献。若某个问题已有公认的名称，且存在成熟的研究社群专门致力于该问题，那么现有的网络搜索和文献检索工具足以找到该问题的过往及最新文献。

具体而言，这些文献之间的引文网络密度较高，研究者只需从该领域的一篇核心论文入手，通过正向和反向引文检索，就能对该问题的当前研究现状形成相对完整的认知。

并且，陶哲轩也在帖子中提及了用AI找出解决埃尔德什问题的相关文献的例子。此外，他还进一步指出了应用AI来做文献综述的多方面好处：

文献检索工具的输出结果可由人类独立验证，这一特性使其成为AI的合适应用场景（前提是使用者具备足够专业能力来完成验证）。尤其是在需要依次检索多个问题、而非仅聚焦单个问题时，这一优势更为明显。在这类场景中，人工智能输出结果的成功率无需达到100％；只需满足：在投入同等时间和精力的前提下，相比传统非AI驱动的检索方式，它能带来更多有用成果（同时减少无用成果）即可。此外，学习如何正确使用AI工具的初始时间投入，可通过多次使用分摊成本。因此，当需要规模化应用检索功能时，这种AI工具的使用方式会格外具有吸引力。

若由人类进行文献综述，最终未找到相关文献时，这类结果往往不会被明确记录（尽管文献中有时会出现+ “据我们所知，这是该问题的首个已知研究进展” 这类表述）。这背后或许存在一种顾虑：若后续有人发现了一篇此前综述中被遗漏的相关论文，参与综述的研究者可能会因此感到尴尬。

这种情况可能引发两种问题：一方面，若多次检索同一问题却未发现相关文献的失败结果从未被报告，多位研究者可能会重复投入精力，徒劳地搜索不存在的文献；另一方面，人们可能会错误地认为某个问题尚未解决，但实际上此前从未有人开展过严谨的文献综述，而该问题的解决方案早已存在于现有文献中。

但当我们利用AI驱动的文献综述工具，对大量问题系统性地开展检索时，同时报告+“阳性结果”（找到相关文献）和 “阴性结果” 会变得更加自然。例如可以这样表述：“在该工具检索的36个问题中，24个（占比66％）返回了我们判定为相关的新成果，12个（占比33％）仅返回了我们已掌握的文献或无关文献。” 这种做法有利于更准确地呈现某一问题现有文献的实际状况。

此前，他还曾提到，生成式AI有望推动数学研究 “工业化” ，加速该领域的发展进程。不过他也强调，在审查、分类AI生成的结果，并将其安全整合到实际研究中时，人类的专业判断仍是关键。

参考链接：

https://the-decoder.com/leading-openai-researcher-announced-a-gpt-5-math-breakthrough-that-never-happened/

https://mathstodon.xyz/@tao/115385022005130505

来源：https://36kr.com/p/3517395760716937

上一篇真我GT8 Pro同款配置加持，10月21日告别平庸亮相 下一篇iPhone 17 Pro新配色曝光：橙变玫瑰金惊艳亮相

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。