游乐游手机版
首页/科技数码/文章详情

陶哲轩18个月没搞定的数学挑战,被这个“AI高斯”三周完成了

时间:2025-09-14 15:01
不得了,这个名叫Gauss(高斯)的新AI Agent,有点杀疯了的感觉。 因为它只用了三周的时间,就完成了陶哲轩和Alex Kontorovich提出的数学挑战—— 在Lean中形式化强素数定

不得了,这个名叫Gauss(高斯)的新AI Agent,有点杀疯了的感觉。

因为它只用了三周的时间,就完成了陶哲轩和Alex Kontorovich提出的数学挑战——

在Lean中形式化强素数定理(Prime Number Theorem,PNT)。

要知道,陶哲轩和Kontorovich在2024年1月提出这个挑战后,足足花了18个月(今年7月)的时间,也才取得阶段性的进展。

那么这个Gauss到底是什么来头?

它的背后是一家叫做Math的AI公司,据介绍,Gauss是首个可以协助顶级数学家进行形式验证的自动形式化(autoformalization)Agent:

这里的形式化(formalization),指的是把人类写的数学内容转换成一种机器可读、可检查、严密无歧义的形式语言,然后利用计算机帮助验证其正确性。

而陶哲轩和Alex Kontorovich之所以目前仅取得阶段性进展,问题就卡在了复分析(complex analysis)的核心难题上。

而这个Gauss作为硅基生命,它的特点就是可以不停的工作,极大地压缩了以前只有顶尖形式化专家才能完成的工作量;与此同时,Gauss还形式化了上面提到的复分析中关键的缺失结果。

这就是为什么它能三周解决陶哲轩18个月都未能完成的数学挑战的原因了。

Gauss是如何实现的?

目前Math公司最新并没有发布具体的技术报告。

但从最终结果来看,Gauss生成了大约25000行Lean代码,包含上千个定理和定义。

要知道,这种规模的形式化证明,以前往往需要多年才能完成。

历史上最大的单个形式化项目(往往需要跨甚至10年的时间),也只是比这大一个数量级(最多50万行代码)。

相比之下,Lean的标准数学库Mathlib有约200万行代码,包含35万个定理,但却由600多位贡献者花了8年时间才建立起来。

为了支撑Gauss的运行,团队还和Morph Labs合作开发了Trinity环境基础设施。

因为要让Gauss如此大规模运行,会涉及数千个并发Agent,且每个Agent都有自己的Lean运行环境,会消耗数TB的集群内存,是一个极其复杂的系统工程挑战。

Math团队还表示:

Gauss将大幅缩短完成大型数学项目所需的时间。

随着算法不断进步,我们计划在未来12个月内,让形式化代码的总量提升100到1000倍。

这将成为新范式的训练场——走向“可验证的超级智能”和“通才型机器数学家”。

麻 将

而就在刚刚,陶哲轩本人在Mastodon上对形式化相关的问题做了一番解释(以下为陶哲轩的陈述)。

任何复杂的项目往往都有明确陈述的目标和隐含的未陈述目标。例如,一个Lean形式化项目的明确目标可能是获得某个数学命题X的形式化证明;但通常还有一些未陈述的目标,例如以适合上游到 Mathlib 库的方式形式化X的关键子命题和定义X1, X2, …;学习如何使用各种协作工具和分配任务;有机地发现X证明的更精细结构,这在以前的非形式化证明中可能没有被强调;为新手形式化者提供实际培训和经验;以及更普遍地建立一个精通形式化艺术的人类社区。

过去,通常没有必要阐明这些隐含目标,因为这些目标的实现与明确目标的实现之间存在很强的经验相关性。在形式化项目的例子中,几乎任何以人为中心的努力来实现明确目标,最终都会自然而然地实现上述大部分隐含目标。因此,明确目标有效地成为了更广泛实际目标的可行替代。

然而,随着功能强大的AI工具的出现,情况正在发生变化,这些工具采用与人类截然不同的方法。这些工具可以被指示去解决一个明确的目标,而不必实现如果由人类团队执行任务时可能同时实现的所有隐含目标。事实上,AI优化算法的性质决定了它们甚至可能以牺牲所有隐含目标为代价,在明确目标上取得高绩效。(参见古德哈特定律:“当一个衡量标准成为目标时,它就不再是一个好的衡量标准。”)

鉴于这些工具的日益部署,这向我表明,项目组织者现在需要付出更大的努力,明确阐述项目的所有目标,而不仅仅是名义上的目标。在某些情况下,这些目标甚至可能最初对组织者自己来说并不明显,可能需要参与者之间进行一些讨论。而有兴趣用其AI工具测试此类项目的外部各方,则应提前与组织者协调,以防他们遗漏了一个或多个其工具不会优化的关键隐含目标。

创始人是ICML’25时间检验奖作者

值得一提的是,Math这家公司的老板也是有点实力在身上的。

因为他正是拿下今年AI定会ICML时间检验奖论文的作者之一,Christian Szegedy。

这篇论文是他和另一位作者Sergey Loffe在2015年提出的Batch Normalization(批次归一化,简称BatchNorm)。

如今,这篇论文的引用量超过6万次,是深度学习发展史上一个里程碑式的突破,极大地推动了深层神经网络的训练和应用。

可以说它是让深度学习从小规模实验,走向大规模实用化和可靠性的关键技术之一。

当然,网友们看罢Gauss之后虽然惊呼Amazing,但同时也在喊最新赶紧把论文公开喽。

至于更细节的技术内容,我们可以蹲一波了~

参考链接:[1]https://x.com/mathematics_inc/status/1966194751847461309[2]https://www.math.inc/gauss[3]https://www.math.inc/vision

欢迎在评论区留下你的想法!

金磊 发自 凹非寺量子位 | 公众号 QbitAI

来源:https://36kr.com/p/3466108385908098
上一篇空洞骑士:丝之歌Steam数据:12.4%玩家通关结局1,全成就完成率低 下一篇蚂蚁开源在外滩大会发布2025全球大模型开源生态全景图,揭示AI开发三大趋势
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。