Claude破解80年数学难题 断网解题推翻Erdős猜想
【导读】OpenAI以125页的思维链证明,撼动了悬置80年的埃尔德什猜想大门。如今,Anthropic的Mythos模型找到了一条更短、更优雅的证明路径。令人惊讶的是,它在获得第一个可行解后就停止了探索——面对这个著名的数学开放问题,AI似乎也表现出了“谨慎”。
AI在数学研究领域的进展速度,正以惊人的态势加速。
OpenAI刚刚宣布破解一个长达80年的数学猜想,Anthropic紧随其后公布了其独立证明。同一周内,DeepMind也一举攻克了9道同类型的埃尔德什难题。
近日,Anthropic研究员Levent Alpoge在社交媒体上发布了一系列推文,透露了一个关键信息:
OpenAI耗费125页篇幅解决的难题,他在周末使用Mythos模型进行测试,不仅迅速找到了解决方案,而且发现的证明路径更为简短、清晰。

断网独立测试,Mythos展现实力
研究员Levent Alpoge背景显赫。他于1992年出生,以满分成绩毕业于哈佛大学本科,随后在剑桥大学完成Part III课程,并在普林斯顿大学获得博士学位,师从菲尔兹奖得主Manjul Bhargava。他早在2015年就获得了美国本科生数学研究最高奖摩根奖,曾是哈佛大学初级研究员,并解决了希尔伯特第十问题在任意数域上的推广。
2023年GPT-4发布时,他深受吸引,认为这是“人类有史以来创造的最有趣的事物之一”,并因此决定重返计算机科学领域,随后加入了Anthropic。

本周,在OpenAI破解埃尔德什难题的消息公布后,Levent进行了一项自然的测试:让自家的Mythos模型尝试解决同一问题。
为确保测试的公平与独立性,他设置了严格条件:让多个Claude Code实例在完全断网的环境下独立工作,彻底杜绝了参考OpenAI公开证明的可能性。

结果令人意外。模型不仅找到了与OpenAI类似的解法,更倾向于选择一条完全不同、却更为简洁的证明路径。
一个有趣的细节是:模型在找到第一个足以反驳猜想的可行构造后便停止了。它本可以继续推进,得到一个更强的结论,但它似乎“犹豫”了。面对这道声名显赫的开放性问题,它对自己的结果表现出不确定,保守地停留在了第一个可行解上。
看到这个行为,Levent会心一笑,他表示:“这种感觉,每一位数学家都能理解!”

目前,Opus 4.7模型已经完成了完整证明的整理与排版工作。

尘封80年的数学赌注
时间回到1946年。匈牙利数学家保罗·埃尔德什提出了一个表述简单却极其困难的问题:在平面上任意放置n个点,最多可以形成多少对距离恰好为1的点?
举例来说,就像在桌面上摆放100枚硬币。如果两枚硬币的圆心距离恰好等于一个硬币的直径,就算作一对“单位距离”。那么,100枚硬币最多能产生多少对这样的组合?
埃尔德什本人给出了一个构造:将点排列成方格网格,经过适当缩放后,单位距离对的数量大约是 n^(1 + c/log log n)。也就是说,100个点大概能产生比100略多一些的对数。
随后,他提出了一个著名的“赌注”:这就是理论上限,不可能做得更好了。

他的信心源于一个关键瓶颈——高斯整数环Z[i]。埃尔德什的网格构造依赖于这个代数结构,而一个固定范数在Z[i]中的分解方式数量受除数函数限制,其上限大约是 exp(O(log n / log log n))。这便构成了那个难以突破的“天花板”。
整整80年间,数学家们都在这个框架内探索,无人能够超越。
数论重器,跨界破解几何难题
对于人类数学家而言,代代相传的直觉是“答案要在高斯整数Z[i]中寻找”。但Mythos模型没有这种思维定势,它一开始就将Z[i]替换为次数远大于2的数域K的整数环O_K。
这看似是“杀鸡用牛刀”,但正是这种跨领域的“降维打击”,成功撬开了尘封80年的僵局。

具体方法是,首先利用Golod-Shafarevich定理,在一个二次域上构建一座无限高的“数域塔” K₀ ⊂ K₁ ⊂ K₂ ⊂ …… 然后,对每一层K_n,取其一个四次根扩张F_n = K_n(D^{1/4}),其次数为d_n。
这座塔的有效性基于一个关键性质:无论塔建得多高,数域的“复杂度密度”始终有界,结构保持可控。一旦参数足够大,几何计数机制便可启动。

接下来是证明的核心。在埃尔德什依赖的Z[i]中,单位群仅有{±1, ±i}四个元素。能够产生单位距离的“方向”极其有限,被除数函数牢牢限制。
但在高维数域中,情况完全不同。单位群的秩随着维度增长,van der Corput定理直接将这个秩转化为可用方向的数量。于是,原本可怜的4个方向,变成了随维度指数级增长的海量选择。

如果这段技术细节难以理解,可以记住一个形象的比喻:
埃尔德什被困在一个只有4扇门的房间里,而Mythos直接拆掉了四面墙。

随后的构造就直观了。首先,选择一个实嵌入将这些代数整数投射到平面上,得到点集P。然后,取一个单位向量去平移这些点,新旧两点之间的距离恰好为1。由于可用方向的数量增长极快,满足条件的点对数量远远超过了埃尔德什猜想设定的上限。两者结合,便得到了多项式级别的超越。

更直观的解释是:
单位距离方向数量的增长是exp(Ω(d log log d))量级,而所有其他损耗都只是exp(O(d))量级。d log log d 轻松碾压了 d。
就这样,埃尔德什的猜想被成功反驳。整个论证过程在解析上并不复杂,与OpenAI那条长达125页的路径相比,显得尤为简洁。

用Levent自己的话总结:
从高层视角看,这本质上是埃尔德什原始构造与一座类域塔的结合。只不过,这里做的是字面上最“直接”的事——将大小不超过半径一半的点,加到大小不超过半径一半的单位上。而它之所以成功,纯粹是因为类域塔的几何计数增长速度快得惊人。

一周三连击,AI数学研究迎来突破
过去一周的时间线,信息密度极高。
5月20日,OpenAI官方宣布,其一个未公开名称的通用推理模型,自主反驳了埃尔德什单位距离猜想。同一天,普林斯顿大学教授Will Sawin在arXiv上发布了手工改进版,将指数从6×10⁻³⁸提升到了0.014,差距高达10³⁵倍。曾与埃尔德什合作过的佐治亚理工学院数学家Tom Trotter感慨道:“如果埃尔德什还活着,他一定会激动不已。”
5月21日,DeepMind登场,其AlphaProof Nexus模型一口气解决了9道埃尔德什问题,每道题的推理成本仅需数百美元。
5月26日,Anthropic也宣布实现了独立证明,其路径比OpenAI的125页证明简短得多。
三家公司的技术路线截然不同,但结果都汇聚于同一终点。

从争议到权威认可
要知道,就在七个月前,AI进行数学研究还备受质疑。
2025年10月,时任OpenAI副总裁的Kevin Weil在社交平台宣称GPT-5解决了10个埃尔德什问题。负责维护erdosproblems.com网站的数学家Thomas Bloom当即指出,模型只是检索到了已知解法,属于“严重误导”。Yann LeCun和Demis Hassabis也加入了批评行列。很快,Weil删除了帖子,并在数月后离开了OpenAI。

当时业界的普遍看法是:模型或许能解题,但距离进行真正的数学研究还很遥远。
时至今日,风向彻底转变。Thomas Bloom亲自签署了验证报告。菲尔兹奖得主Timothy Gowers写下了“如果提交到《数学年刊》,我会毫不犹豫推荐接受”的高度评价。数学家Sam Litt则表示,这是“AI自主产生的第一个让我觉得本身就有趣的数学结果”。
Litt甚至在《自然》杂志的采访中坦言:“没有人类能够像大语言模型那样吸收全部的数学文献。AI正在打破学科之间的壁垒。”

回想三年前,GPT-4应对本科水平的数学题尚且吃力。如今,让最杰出的数学家都感到棘手的埃尔德什问题,正在成为AI的“能力测试”。
打破80年僵局的,恰恰是一个没有传统思维包袱的模型。它不知道“这道题应该怎么想”,反而使其能够从代数数论中借用“重型工具”,去攻克一道本质上的几何难题。
埃尔德什留下了超过1000道未解难题。这一周,这份清单上又减少了一道。
相关攻略
不得不说,Anthropic的Claude在工程实践上的表现,确实令人印象深刻。 最近,Anthropic与SpaceX合作,将Claude Code用户的五小时配额直接翻倍。这一举动在社区里引起了不小的讨论,毕竟如此“大方”的调整并不常见。这也让人好奇,这翻倍后的五小时,到底对应着多少实际的算力资
AI模型Mythos独立推翻了埃尔德什悬置80年的单位距离猜想。其证明路径比OpenAI的125页方案更简洁,核心在于用高维数域的整数环替代高斯整数,突破了原猜想依赖的有限方向限制。同一周内,多家机构相继宣布攻克同类难题,标志着AI在数学研究领域取得实质性突破。
【导读】一个宣称实现“零污染”的全新编程基准测试DeepSWE,凭借其113道原创题目,揭示了传统编程能力排行榜单的潜在缺陷。 在代码能力评测领域,一把全新的标尺已经落下。 Datacurve公司近日发布了名为DeepSWE的新基准。其联合创始人兼首席执行官Serena Ge在社交平台X上明确指出,
阿里Qwen3 7-Max在CodeArena编程榜单以1541分位列全球第二,仅次于Claude系列。该榜单通过实战PK评测,公信力强。模型专为智能体设计,在编程、长程任务等方面表现突出,能独立高效完成复杂项目,显著提升生产力,且推理成本低、生成质量高。
财务数仓因跨域复杂、准确性要求高而面临挑战。引入AI大模型作为“超级助手”,可将其推理能力融入需求理解、代码编写、质量测试及文档沉淀全流程,替代重复性工作并减少低级错误。在标准化建模、SQL开发、测试及文档转换等场景中,通过人机协作显著提升交付质量与效率。未来将深化AI应用,推动工。
热门专题
热门推荐
随着人工智能大模型与机器视觉技术的深度融合与产业升级,一个根本性的挑战愈发关键:底层视觉数据基础设施的能效水平,直接决定了上层AI应用的成本边界与识别精度的上限。近期,Robo ai (NASDAQ: AIIO) 旗下专注于AI基础设施的Neurovia AI,在第九届国际安全与国家风险防范展(IS
数字货币成功变现需掌握关键技巧:理解市场动态与主流币种联动,选择安全高流动性平台,制定明确风险目标和交易策略,严格执行止损与分散投资。市场持续变化,保持学习与适应能力是长期稳健交易的基础。
618购物节是电竞玩家升级装备的良机。华硕TUFGaming系列的战杀27与小金刚显示器凭借FastIPS面板、高刷新率、精准色彩及丰富电竞功能,以高性价比满足不同玩家对帧率与画质的追求,成为热门选择。
移动端二战空战游戏以机械浪漫与硬核操作吸引玩家。多款作品各具特色:或精细还原战机与基地经营,或重现太平洋战场任务,或融合弹幕射击与昼夜战术,或侧重战机收集养成,或提供割草式爽快体验。它们以历史氛围带玩家重返决定历史的天空。
《和平精英》中,“安V收车币”作为一种新兴交易方式,为玩家获取稀有车辆皮肤提供了安全便捷的渠道。它满足了玩家个性化需求,提升了游戏体验与沉浸感。参与交易需选择正规平台,合理规划消费并遵守官方规定,以保障自身权益。这一模式活跃了游戏经济,丰富了玩家的资源选择。





