Claude推翻Erdős猜想 80年数学难题被AI简洁破解

AI在数学研究领域的进展,正以一种令人瞠目的速度刷新着我们的认知。
就在OpenAI刚刚用一份长达125页的思维链报告,撼动了一个悬置80年的数学猜想之后,Anthropic的研究员Levent Alpoge在周末用自家的Mythos模型随手一试,竟然找到了一条更短、更优雅的证明路径。最耐人寻味的是,模型在找到第一个可行解后就“停手”了——面对这个声名显赫的开放性问题,AI似乎也表现出了某种“紧张”。
过去一周,堪称AI数学研究的“井喷周”。OpenAI前脚刚宣布成果,Anthropic后脚就亮出了独立证明。同一时间,DeepMind也宣布其AlphaProof Nexus模型一口气解决了9道同类型的Erdős难题。
Levent Alpoge在社交媒体上分享了这一过程。他让Mythos模型尝试解决同一个问题,但设置了严格的测试条件:多个Claude Code实例独立工作,全程断网,彻底杜绝了从OpenAI已公开解法中“借鉴”的可能性。

断网隔离下的优雅解法
这位研究员本人就是数学领域的顶尖人物:哈佛本科满分毕业,剑桥深造,普林斯顿博士师从菲尔兹奖得主,并曾获美国本科生数学研究最高奖。2024年GPT-4的发布让他深感震撼,并因此转向AI领域,加入了Anthropic。

在OpenAI破解Erdős难题的消息传出后,他做的第一件事就是让Mythos也来试试。

结果出乎意料。模型不仅找到了与OpenAI类似的解法,更偏爱另一条截然不同且更为简洁的路径。有趣的是,模型在找到一个足以推翻猜想的可行方案后,便“保守地”停了下来,没有继续探索可能更强的结果。Levent对此会心一笑,称这种感觉“所有数学家都懂”。

目前,完整的证明文稿已由Opus 4.7整理排版完毕。

80年无人赢得的赌注
时间回到1946年。匈牙利传奇数学家保罗·埃尔德什(Paul Erdős)提出了一个听起来极其简单的问题:在平面上任意放置n个点,最多能有多少对点之间的距离恰好是1?
可以想象在桌上摆放100枚硬币,如果两枚硬币圆心之间的距离刚好等于一个硬币的直径,就算作一对“单位距离”。那么,100枚硬币最多能凑出多少对?
埃尔德什自己给出了一个基于方格网格的构造,并经过适当缩放后,推导出单位距离对的数量上限大约是 n^(1 + c/log log n)。也就是说,100个点大概能产生比100多“一丢丢”的对数。他坚信这就是极限,并为此下了“赌注”。

他的自信源于一个关键瓶颈:高斯整数环Z[i]。埃尔德什的方格网格构造依赖于这个数系,而一个固定范数在Z[i]中能分解的方式数量,受限于除数函数,其增长上限大约是 exp(O(log n / log log n))。这构成了那个“多出一丁点”的理论天花板。此后80年,数学家们基本都在这个框架内思考。

数论重武器的降维打击
对于人类数学家而言,代代相传的直觉是“答案要在高斯整数Z[i]里寻找”。但Mythos模型没有这种传统包袱,它一上来就将Z[i]替换为次数远大于2的数域K的整数环O_K。
这听起来像是“用大炮打蚊子”,但正是这种跨学科的“暴力”方法,撬开了持续80年的僵局。

具体方法是,先利用Golod-Shafarevich判则,在一个二次域上构造一座无限高的“数域塔” K₀ ⊂ K₁ ⊂ K₂ ⊂ …… 然后对每一层K_n,再做一个四次根扩张F_n = K_n(D^{1/4}),其次数为d_n。
这座塔之所以有效,关键在于一个性质:无论塔建得多高,数域的“复杂度密度”始终有界,结构始终可控。一旦参数足够大,几何计数就能启动。

接下来是整个证明的核心转折点。
在埃尔德什依赖的Z[i]中,单位群只有{±1, ±i}四个元素。能向外延伸的“单位距离方向”寥寥无几,直接被除数函数卡住了脖子。
但在Mythos采用的高维数域里,情况截然不同。单位群的秩随着维度增长,而van der Corput定理巧妙地将秩转化为了方向数。于是,原本可怜的4个方向,变成了随维度爆炸式增长的海量可能性。

如果觉得抽象,可以这样理解:埃尔德什被困在了一个只有4个出口的房间里,而Mythos直接拆掉了四面墙。

具体的构造步骤如下:首先,选择一个实嵌入将这些数投射到平面上,得到点集P。然后,取一个单位向量来平移这些点,新旧两点之间的距离恰好是1。由于方向数增长极快,满足条件的点对数量远远超过了埃尔德什设定的上限。两者相乘,便得到了多项式级别的增益。
更直观地说:单位距离方向数的增长率为exp(Ω(d log log d)),而所有其他损耗都只是exp(O(d))量级。d log log d 轻松碾压了 d。埃尔德什的猜想,就这样被推翻了。整个论证在解析层面并不复杂,与OpenAI那条长达125页的路径相比,显得尤为简洁。

用Levent自己的话总结,从高层视角看,这本质上是埃尔德什原始构造加上一座类域塔。只不过,这里做的是字面上最“笨”的事——把大小不超过半径一半的点,加到大小不超过半径一半的单位上。而它之所以奏效,完全是因为类域塔的几何计数增长速度快得惊人。

一周三连破,路线各不同
回顾过去一周的时间线,信息密度高得惊人。
5月20日,OpenAI官宣其未公开名称的通用推理模型自主反驳了埃尔德什单位距离猜想。同一天,普林斯顿大学教授Will Sawin在arXiv上贴出了手工改进版,将指数从6×10⁻³⁸提升到了0.014,差距高达10³⁵倍。曾与埃尔德什合作的数学家Tom Trotter感慨道:“如果埃尔德什还活着,他一定会激动到发疯。”
5月21日,DeepMind登场,其AlphaProof Nexus模型一口气解决了9道埃尔德什问题,且每道题的推理成本最多仅需几百美元。
5月26日,Anthropic宣布实现独立证明,其路径比OpenAI的125页简短得多。
三家机构的路线完全不同,但结果都收敛到了同一个结论。

从笑话到顶级期刊的认可
要知道,就在七个月前,AI做数学研究还被不少人视为笑话。
2025年10月,时任OpenAI副总裁的Kevin Weil曾在社交媒体上宣称GPT-5解决了10个埃尔德什问题。结果,负责维护erdosproblems.com网站的数学家Thomas Bloom当场回怼,指出模型只是检索到了已知解法,属于“严重歪曲事实”。Yann LeCun和Demis Hassabis等AI巨头也加入了嘲讽的行列。很快,Weil删除了帖子,并在四个月后离开了OpenAI。

当时业界的普遍判断是:模型会做题,但不会做真正的原创研究。
然而转眼到了今天,风向彻底转变。Thomas Bloom亲自签署了验证报告。菲尔兹奖得主蒂莫西·高尔斯(Timothy Gowers)写下了“如果提交到《数学年刊》,我会毫不犹豫推荐接受”的盛赞。数学家Jacob Litt则表示,这是“AI自主产出的第一个让我觉得本身就有意思的结果”。
Litt甚至在《自然》杂志的采访中坦言:“没有人类能像大语言模型那样吸收全部数学文献。AI正在打破学科之间的壁垒。”

三年前,GPT-4连本科水平的数学题都应付得颇为吃力。如今,让最伟大的数学家都感到棘手的埃尔德什问题,正在变成AI的“入学考试”。
打破80年僵局的,恰恰是一个不知道“这题应该怎么想”的模型。没有传统思维的包袱,反而让它能够自由地从代数数论中借来“重武器”,去攻克一道本质上是几何的问题。埃尔德什留下了超过1000道未解难题,这周,清单上的数字又减少了一个。
相关攻略
RTK是一款开源CLI工具,能智能压缩命令行输出,在AI编程助手处理前大幅减少token数量。以gitstatus为例,其输出可从约2000个token压缩至约200个,节省率达60%至90%。安装后通过简单配置,即可在使用ClaudeCode等工具时自动启用,有效提升效率、延长会话并显著降低API使用成本。
ClaudeCode因构建疏漏泄露源码,其“驾驭工程”理念将60%模型能力与40%工程系统结合,通过工具管理、安全审查等确保AI稳定可控。系统提示词采用模块化动态拼接,核心auto权限模式内置多层安全审查。此次泄露为研究顶尖AI工程实践提供了宝贵样本。
ClaudeCode是一款终端智能编程助手。安装后可通过官方订阅、计量套餐或第三方平台使用,推荐后者以规避注册与网络限制。配置第三方API需填写地址与密钥等信息。工具提供多种命令用于启动、会话管理、代码解释与系统操作等。此外,也可考虑opencode或GeminiCLI等替代工具。
CLAUDE md是指导ClaudeCode行为的Markdown配置文件,分为项目、个人和组织三层,优先级依次降低。文件应具体明确、结构清晰、长度适中且避免规则冲突。可通过 init命令生成基础配置,并利用 claude rules目录拆分规则或使用路径匹配功能。合理配置能确保AI遵循项目规范和个人偏好,提升协作效率。
ClaudeCode源码意外泄露,其强大性能并非仅依赖大模型,而在于一套精心打磨的工程系统。核心在于HarnessEngineering理念,通过双层状态机驱动的AgentLoop、高效的Tool-Use工作模式及智能的上下文压缩策略,实现对模型的精准驾驭。系统还包含动态构造的SystemPrompt与优化的记忆系统,共同确保了任务执行的稳定、高效与安全。
热门专题
热门推荐
《Paralives》开发商承诺所有后续更新永久免费,拒绝付费DLC模式。15人小团队依靠首发销售额即可支撑多年运营,无需依赖额外内容包维持开发,展现了与《模拟人生》系列不同的差异化竞争思路。
2025年5月28日,比亚迪王朝网全新力作——宋Ultra DM-i正式推向市场,共推出5款配置车型,官方售价区间为12 99万至15 99万元。此次定价策略极具突破性:一款拥有310公里纯电续航能力的中型插电混动SUV,直接下探至13万元级别市场。作为王朝网络的新旗舰,该车明确瞄准高频出行需求场景
先来关注一个有趣的细节:苹果首款折叠屏手机,传闻将于今年秋季正式亮相。产品命名可能为iPhone Ultra,也有媒体称之为iPhone Fold——无论最终叫什么,这都将标志着苹果在折叠形态领域首次“出手”。 近日,配件厂商iFunSmart已率先上架iPhone Ultra的首批保护壳——这绝非
山寨币ETF迎来批量上市潮,首批项目市场表现如何?一文分析 Binance币安 欧易OKX ️ Huobi火币️ 最近,市场出现了一个不容忽视的新动向:XRP、DOGE、LTC、HBAR等现货ETF已经悄然登陆美国市场。与此同时,A VAX、LINK等资产的同类产品也正在审批流程中。进入11月以来,
近日,公司对SteamDeck1TBOLED版涨价300美元至949美元,上架短短不到24小时便再度售罄。据外界分析,该公司从中国大量补货并分批投放库存,高溢价未影响众多玩家的抢购热情与速度,其人气极其旺盛无比足以支撑快速清空。





