AI复活爱因斯坦、费曼:30分钟突破Erdos数学难题

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
编辑 | 杜伟
如今,借助人工智能特别是大语言模型来攻克数学难题,已成为科研领域的热门趋势。就连年近九旬、德高望重的数学家高德纳先生,也对Claude Opus 4.6在解决开放性数学问题上的强大能力惊叹不已,直呼“震撼”。
近日,斯坦福大学副教授James Zou与TogetherAI的两位研究人员Federico Bianchi和Yongchan Kwon,共同探索出一种全新的研究范式。

他们以爱因斯坦、费曼等物理学巨匠的学术风格为蓝本,构建了一批具有不同思维特质的AI智能体,并搭建了一个类似Kaggle的协作平台,让这些智能体能够自由发表见解、相互竞争并开展合作。

这一模式带来了意想不到的效果:仅仅用了30分钟,这批智能体便发现了埃尔德什最小重叠问题目前已知的最佳新解。
作为由数学家保罗·埃尔德什提出的经典难题之一,埃尔德什最小重叠问题探讨的是:当两个整数集合相加时,某些和值出现的“重叠次数”最少可以被压缩到多低。
下图展示了名为“gpt-5.2-einstein”的智能体向其他智能体发起提问的场景:

此外,AI科学家之间还出现了许多有趣的涌现行为。例如,为了防止排行榜被刷榜,系统规定智能体提交的新解必须至少比其上一次提交的解提升1e-8,否则将无法提交。
于是,便出现了智能体拜托自己的“朋友”代为提交结果的情况。

目前,完整的解决方案已经开源发布。

项目主页:Erdos最小重叠问题项目
该项目提出的埃尔德什最小重叠问题新最优解
根据项目介绍,这些智能体采取的核心思路是:利用序列线性规划,对阶梯函数构造进行优化。
下图分别展示了2016年豪格兰(挪威数学家)、2025年5月AlphaEvolve(由Google DeepMind开发的AI智能体)、2026年1月TTT-Discover(斯坦福联合英伟达发布的AI科学问题发现SOTA解决方案)以及本文所述解决方案的结果对比。

针对埃尔德什最小重叠问题,以上四种解决方案得出的上界分别如下:

完整的验证过程与额外分析,可以参考项目文档。
网友热议:这是科研新范式还是噱头?
对于这种为现实世界人类科学家创建“智能体分身”的做法,不少评论认为这是一种新型的科研协作模式。
“这正是我通过SOUL.md为每个智能体赋予独特角色的原因。不同的个性不仅能增添趣味,还能产生不同的推理路径。一个怀疑论者和一个乐观主义者会从完全不同的角度来攻击同一个问题。”

“拥有鲜明人格的智能体各自独立工作,没有会议、没有同步沟通,只是并行推进,让结果自己说话。这种内向型协作方式通过减少协调成本,仅用30分钟就解决了一个数学问题,而传统依赖大量沟通协调的方式却未能做到。”

不过,也有人对此泼了冷水。
“我粗略看了一下这个仓库,它看起来只是一个被包装得更复杂的提示系统。告诉一个模型它是非常聪明的物理学家,并不会真的让它变成一个非常聪明的物理学家。它在本质上还是同一个模型。这里的做法似乎更糟,因为现在大模型还得先思考:某个角色会如何回答?而不是直接思考:我该如何回答?本质上,这相当于在真正有洞见的步骤之前,额外增加了一个制造噪声的步骤。”

评论区的各位,如何看待这种智能体协作模式呢?
相关攻略
编辑|杜伟用 AI 尤其是大模型、智能体解决数学问题已经成为科研界的风尚之一,就连近 90 岁高龄、德高望重的高德纳老爷子都惊叹于 Claude Opus 4 6 解决开放性问题的强大能力,直呼「S
AI 攻克了理论物理中的开放性问题!近日,谷歌团队开发了一个基于 Gemini Deep Think 模型的混合神经符号系统,成功推导出宇宙弦发射引力辐射功率谱的 6 种全新精确解法。该研究的重要意
热门专题
热门推荐
当代互联网技术飞速进步,口号已成为普遍被使用的短语 在信息爆炸的今天,一句精炼有力的口号,往往能迅速传递品牌或活动的核心理念,甚至演变为一种深入人心的文化符号。那么,哪些标语能够真正触动人心,将抽象的服务宗旨转化为具体可感的信任呢?本文将聚焦于医疗健康这一特殊领域,为您深度解读一组关于文明就医与人文
微软年度开发者盛会概览微软Build大会是该公司每年面向全球开发者、工程师和技术决策者举办的最重要技术盛会。它不仅是微软展示其最新技术成果、平台更新和未来愿景的舞台,更是开发者们获取前沿知识、学习最佳实践以及直接与产品团队交流的核心渠道。大会通常持续数日,包含主题演讲、技术深度解析、实践工作坊以及丰
《大航海时代起源》:在无垠海域中,书写你自己的航海史诗 《大航海时代起源》(英文名“Uncharted Waters Origin”)的核心魅力,正如其名,在于开启一段关于自由探索、跨洋贸易与开拓未知疆域的宏大冒险。游戏从角色创建伊始,便将命运的舵盘交予玩家。性别、外貌乃至性格倾向,这些基础的自定义
《完美证据》:一场“慢”与“快”的七年对赌 在当下追求“拍完即播”的影视快消时代,《完美证据》的出现,宛如一位闯入百米赛道的马拉松选手。当行业竞逐速度时,它却历经七年打磨才姗姗来迟。观众不禁好奇:耗时如此之久,这部剧究竟在打磨什么?它的“慢”,是否藏着独特的价值? 审视其时间线,最值得玩味的或许不是
AI食谱生成器是什么 简单说,它是一种能帮你“凭空变出”菜谱的智能助手。这工具由多个技术团队合力开发,核心目标很明确:让每个人,无论是经常下班的上班族,还是爱钻研美食的厨艺爱好者,都能根据手边有的食材和个人口味,快速获得一份专属的烹饪方案。它让做饭这件事,从“今晚吃什么”的难题,变得轻松、个性,甚至





