首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
GPT破解数论猜想:尘封80年的论文暗藏答案

GPT破解数论猜想:尘封80年的论文暗藏答案

热心网友
21
转载
2026-01-20

1 月 18 日,一位前量化研究员尼尔·索马尼(Neel Somani)在社交平台宣布,他借助 GPT-5.2 Pro 独立解决了 Erdős 问题第 281 号(Problem 281)。这是一个自 1980 年由数学家保罗·埃尔德什(Paul Erdős)与葛立恒(Ronald Graham)提出后,长期未被公开解答的数学猜想。

索马尼称,该证明已获得菲尔兹奖得主陶哲轩的认可,后者评价其“或许是迄今人工智能解决未解数学问题最明确的例子”。


(来源 :erdosproblem)

OpenAI 联合创始人格雷格·布罗克曼(Greg Brockman)随即转发并评论:“GPT-5.2 Pro 用于解决另一个未解决的 Erdős 问题。数学和科学的进步将是充满活力的一年!”一时间,“AI 独立攻克 45 年数学难题”的消息在社交媒体上广泛传播。


(来源:X)

这并非索马尼首次用 AI 工具解决 Erdős 问题。几天前,他刚提交了对 Problem 397 的证明——一个关于中心二项式系数乘积的猜想。该证明同样由 GPT-5.2 Pro 生成,并通过形式化验证工具 Harmonic 的 Aristotle 系统转换为 Lean 代码,经陶哲轩确认为正确。

索马尼原本只是想测试一下大语言模型的数学能力,看看它们在何时能有效解决开放数学问题、又在哪里会遇到困难,却意外发现最新模型的能力边界已显著提升。

几天之内,大模型连续解决两个多年未解的“难题”。有评论不禁疑问:这是否意味着 AI 的数学能力已达到了人类数学家的水平?

要回答这个问题,或许需要先理解什么是“Erdős 问题”。

保罗·埃尔德什(Paul Erdős)什是 20 世纪最多产的数学家之一,一生发表论文逾 1,500 篇。他习惯提出数学猜想,并根据难度悬赏 25 至数千美元不等。他去世后留下超过一千个未解问题,涵盖数论、组合学、图论等多个领域,统称为“Erdős 问题”。这些问题目前由剑桥大学数学家托马斯·布鲁姆(Thomas Bloom)维护的 erdosproblems.com 追踪记录。


图 | 保罗·埃尔德什与10岁的陶哲轩 (来源:Wikipedia)

然而,这些未解问题的难度跨度极大:一端是公认的核心难题,另一端则是大量长期无人关注的“长尾问题”。它们并非无解,只是缺乏足够研究动力。

自 2025 年圣诞节以来,该 已有 15 个问题从“开放”转为“已解决”,其中 11 个涉及 AI 模型的参与。但并非所有“AI 解决”都具原创性。2025 年 10 月,OpenAI 曾宣称 GPT-5 解决了十个 Erdős 问题,后被布鲁姆澄清为乌龙事件:那些 GPT-5 生成的答案实为模型通过网络搜索复现了早已存在的论文成果,并非新发现。


图 | 布鲁姆回复OpenAI CPO (来源:X )

真正的转折点出现在 2026 年 1 月初。剑桥大学本科生凯文·巴雷托(Kevin Barreto)与业余数学家利亚姆·普赖斯(Liam Price)共同宣布使用 GPT-5.2 Pro 解决了 Problem 728。陶哲轩称这是“第一个在原问题精神下、以文献中未曾记载的方式被 AI 基本自主解决的 Erdős 问题”,并评价其“或多或少是由 AI 自主完成的”,真实地体现了“这些工具近几个月的能力提升”。

那么,此次引发热议的 Problem 281 情况如何?

该问题涉及整数序列在同余类中的密度性质。索马尼发布的 GPT-5.2 Pro 证明采用了遍历理论(ergodic theory)的框架。陶哲轩确认其逻辑正确,并特别指出:“它避免了在极限或量词交换时常见的错误,前几代大语言模型几乎肯定会在这些微妙之处出错。”


图 | 陶哲轩对于Problem 281的回复(来源:erdosproblem)

然而,就在讨论热烈进行时,论坛用户 KoishiChan 发帖指出:这个问题实际上可以通过 1966 年的 Rogers 定理,结合 Halberstam–Roth 著作中的 Theorem 12 直接解决。他还找到了一份存档文献,更清晰地阐述了这一论证路径。

陶哲轩顺着线索进一步追溯,发现这一解法的核心其实源自 1936 年剑桥数学家达文波特(Davenport)与埃尔德什本人合著的一篇论文。他在论坛上写道:“现在我真的很困惑,在同余领域深耕多年,埃尔德什在 1980 年肯定知道这两个定理,而且他还是后一个结果的共同作者。我不知道发生了什么。因为一旦了解 Rogers 定理,将其应用于这个问题是非常自然的;事实上,这个问题几乎就是 Davenport–Erdős 结果的一个特例。”


(来源:scite_)

随后,陶哲轩与数学家特南鲍姆(Tenenbaum)进行了邮件交流,后者是埃尔德什长期的合作对象。特南鲍姆确认:“如果使用这两个定理,可以立竿见影地解决问题。”他推测,“现有的问题的表述可能在某个环节被修改过”,但目前尚未发现任何关于原始意图的替代版本,只能按现有表述来。KoishiChan 则半开玩笑地评论:“也许有人在鸡尾酒会上告诉了埃尔德什这个解法,但没人继续研究它。”

陶哲轩在论坛总结道,Problem 281 之所以未解,背后的原因主要是因为Rogers 定理“没有得到应有的传播”:该结果仅出现在 Halberstam–Roth 的专著中,从未以独立论文形式发表,文献中也仅被引用过寥寥数次。

换言之,GPT-5.2 Pro 的贡献其实并非解决了一个真正未解的难题,而是用一种新方法——遍历理论,去重新证明了一个早已可解、却因文献传播有限而被长期遗忘的问题。类似情况此前也出现在 Problem 333 等案例中:AI 擅长调用标准工具,高效解决那些“人类早就能解、只是长期无人关注”的问题。

更重要的是,就在讨论声愈发热烈的当天,陶哲轩还在发帖提醒公众需要警惕“报告偏差”(reporting bias)。他在 Mathsodon 上写道:“当研究者用 AI 尝试解题却失败时,几乎不会公开结果;而成功案例则极易在社交媒体病毒式传播。因此,我们看到的‘AI 连续攻克难题’印象,严重偏向正面。”


(来源:Mathstodon)

为纠正这一偏差,他推广了数学家帕阿塔·伊万尼什维利(Paata Ivanisvili)与梅赫梅特·马尔斯·塞文(Mehmet Mars Seven)建立的数据库,系统记录 AI 尝试解决 Erdős 问题的全部结果。数据显示:AI 工具的真实成功率仅在 1% 到 2% 之间。


(来源:GitHub)

陶哲轩评论道:“尽管如此,考虑到仍有六百多个未解问题,这仍带来了一组令人印象深刻且非平凡的贡献。但这些成功压倒性地集中在难度谱的低端,尚未触及中等难度问题。”

业内人士对此有不同的看法。Harmonic 公司创始人图多尔·阿希姆(Tudor Achim)指出:“真正有说服力的证据,不是媒体报道,也不是成功率,而是数学和计算机科学教授们开始在实际研究中使用这些工具的事实。他们有声誉要维护,不会轻易背书。”该公司开发的 Aristotle 工具能将自然语言证明自动转为 Lean 形式化代码,在 AI 辅助数学研究中扮演关键角色。

Erdős 维护者布鲁姆则对当前大模型的进步速度表示乐观:“目前被 AI 解决的问题,难度大概相当于一年级博士生水平。这仍然令人印象深刻——因为要做到这一点,需要不一般的推理能力。”他还提到,2025 年 10 月前,他尝试用 ChatGPT 时“只会编造论文,全是幻觉”,但“大约从 10 月起,某种实质性变化发生了”。

诚然,GPT-5.2 Pro 在数学推理上的进步是真实的:它能生成逻辑严密、规避常见错误的证明,这在一年前不可想象。并且,它在系统性挖掘被忽视的长尾问题、辅助文献检索与形式化验证方面展现出实用价值。

但同样重要的是:不要被社交媒体的选择性叙事误导。所谓“45 年未解”,很多时候只是45 年无人关注、无人挖掘;1%–2% 的成功率,远非AI 已掌握数学的信号。中等及以上难度的 Erdős 问题,目前仍远超当前 AI 的能力范围。

1.https://mathstodon.xyz/@tao

2.https://www.erdosproblems.com/forum/thread/2

3.https://mehmetmars7.github.io/Erdosproblems-llm-hunter/index.html

来源:https://www.163.com/dy/article/KJNI5T7T05119734.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

复旦团队破解六十年数学物理难题成果登上数学顶刊
科技数码
复旦团队破解六十年数学物理难题成果登上数学顶刊

复旦大学等机构破解了困扰学界60年的经典数学物理难题,成果发表于国际顶尖期刊。研究系统分析了二维不可压缩欧拉方程中“猫眼流”涡旋结构在不同扰动下的稳定性,首次严格证明了其存在“合并不稳定性”,为理解磁重联等物理过程提供了新理论工具,其分析框架有望应用于更广泛的涡。

热心网友
05.16
7月25日外媒科学网站摘要:科学家警告,人类正无意间向宇宙泄露“地球坐标”
科技数码
7月25日外媒科学网站摘要:科学家警告,人类正无意间向宇宙泄露“地球坐标”

《自然》:一桩悬案了结? “砷基生命”论文终遭撤稿,但争议远未结束 科学界一桩持续了15年的公案,最近有了新进展。顶级期刊《科学》(Science)正式撤回了那篇曾引发轰动的争议性论文——该研究当年声称,在美国加州莫诺湖发现的一种细菌,能够用有毒的砷元素替代生命必需的磷来构建DNA,这直接挑战了我们

热心网友
04.17
科研产出占全球40%,顶刊数量却不足4%:中国学术期刊如何突围?
科技数码
科研产出占全球40%,顶刊数量却不足4%:中国学术期刊如何突围?

中国科研产出激增背后:学术出版话语权与经济成本的双重挑战 近期,在上海科学会堂举行的Insight Press(睿见出版)首批高质量学术期刊创刊仪式暨第十一期“好望角科学沙龙”上,科学家、出版机构负责人与期刊主编们齐聚一堂,共同探讨中国一流学术期刊的未来发展路径。当前,中国科学家正以前所未有的速度产

热心网友
04.16
中国科协:2026年NeurIPS会议资助调整与学者参会指引
科技数码
中国科协:2026年NeurIPS会议资助调整与学者参会指引

中国科学技术协会2026年3月31日发布告示:中国科协曾于2026年3月27日就2026年NeurIPS会议发表声明,本意是尽力维护我国关涉学者正当利益,其措施原则是清晰、适当的,没有发生变化。现就

热心网友
03.31
康奈尔大学将离开全球最大论文预印本平台arXiv
科技数码
康奈尔大学将离开全球最大论文预印本平台arXiv

Cornell University 图源:wikipedia撰文|张天如果有一天,全球科研人员突然无法访问arXiv,许多领域的研究节奏可能会被打乱。每天清晨刷新论文列表,已经成为部分数学家、物理

热心网友
03.31

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

警惕人工智能依赖 避免大脑能力退化
业界动态
警惕人工智能依赖 避免大脑能力退化

科学家警告,过度依赖人工智能可能削弱创造力与批判性思维,类似GPS损害方向感。研究显示,AI替代需“认知摩擦”的思考过程,或导致认知能力衰退。专家建议应有意识使用AI,使其成为思维“扩音器”而非替代品,例如先自主判断、加深信息处理、主动创意构思,以保护并锻炼大脑独特能力。

热心网友
05.18
谷歌阿里微软云端AI决战 云电脑迎来行业新机遇
业界动态
谷歌阿里微软云端AI决战 云电脑迎来行业新机遇

谷歌推出云端AI驱动的安卓电脑,重塑PC形态。当前AIPC多依赖云端算力,本地硬件价值受质疑。云电脑与AI结合成为新方向,对网络延迟更宽容。谷歌联合硬件伙伴推进该方案,阿里等云服务商也已布局。传统芯片、终端厂商及微软、苹果正以不同策略应对AIPC趋势。未来竞争将聚焦云端能力、系统重构与生态协。

热心网友
05.18
企业数字化转型全流程解析:从战略规划到AI智能体落地
业界动态
企业数字化转型全流程解析:从战略规划到AI智能体落地

结论先行:在2026年的商业环境中,企业数字化转型方法的核心不再是单纯的IT系统堆砌,而是“业务流程自动化”与“AI智能化”的深度融合。成功的数字化转型方法论应遵循“小步快跑、场景切入、数据驱动”的原则,利用AI Agent(智能体)技术打通烟囱式系统,实现平滑升级,而非推倒重来。 一、 拒绝假大空

热心网友
05.18
产品设计软件推荐与选择指南
业界动态
产品设计软件推荐与选择指南

面对琳琅满目的产品设计软件,许多设计师和团队都在追问:究竟哪一款才是最好的选择?然而,真正的答案并非一个简单的软件名称,而是一套基于您具体工作流程的适配逻辑。本文将为您系统解析,如何跳出“最好”的迷思,找到最“对”的那款工具,从而最大化团队效率与产出价值。 核心决策逻辑 首先,我们必须确立一个核心原

热心网友
05.18
跨境电商售后难题的智能客服解决方案
业界动态
跨境电商售后难题的智能客服解决方案

跨境电商的售后环节,本质上是客户信任的二次考验。当问题出现时,初次交易建立的信任已然动摇,若处理不当,将直接导致客户永久流失。因此,构建一套真正高效的售后体系,必须实现三大核心目标:响应速度需如本地支付般即时;处理规则需预先设定,实现小额纠纷的自动化化解;最终,所有流程数据必须形成闭环,驱动供应链的

热心网友
05.18