DeepMind联手五大AI神殿:陶哲轩警示AI世纪难题挑战
谷歌DeepMind再次重磅出击,联合全球五大顶尖科研机构,集结人工智能的力量直指数学界的桂冠!与此同时,陶哲轩冷静地发出警示:AI的滥用可能带来的潜在风险同样需要警惕。
今天,谷歌DeepMind正式启动了“AI赋能的数学研究计划”,汇集了全球五大顶尖学术机构的力量。
他们将运用谷歌最先进的数学专用AI系统,探索数学未知疆域中的新发现。

参与这次计划的AI系统阵容强大,包括曾获国际数学奥林匹克金牌的Gemini Deep Think,能够自主发现新算法的AlphaEvolve,以及擅长形式化证明的自动补全工具AlphaProof。
目前,首批合作的学术机构堪称豪华阵容:
伦敦帝国理工学院普林斯顿高等研究院(IAS)法国高等科学研究所(IHES)西蒙斯计算理论研究所(加州大学伯克利分校)塔塔基础科学研究所(TIFR)这五大机构拥有一个共同的使命——发掘那些有望通过AI技术获得突破性进展的数学难题,从而推动科学发现的进程。
然而,令陶哲轩担忧的是,“随着AI在数学研究中的应用日益加深,除了负责任的使用外,AI滥用的案例也屡见不鲜”。
他认为现在正是启动相关讨论的最佳时机,探讨如何将AI最佳地融入数学研究,透明公开其作用方式,并建立风险缓释机制。

这不仅能够守护数学研究的严谨性,更将为AI与数学的深度融合铺设坚实的道路。
五大顶尖机构,联手攻坚数学难题
数学,是描述宇宙运行规律最基础的语言。
在谷歌DeepMind看来,AI可以作为强大的辅助工具,与数学家展开深度合作,激发研究人员的创造力。
“AI赋能数学计划”的诞生,旨在实现三个核心目标:
发掘有望借助AI获得深刻见解的新一代数学难题;
构建支持这些前沿探索所需的基础设施与工具;
最终推动科学发现的加速前进。
这项计划将获得Google.org的专项资金支持,以及谷歌DeepMind顶尖技术的全面赋能。
近几个月来,谷歌DeepMind在自身研究领域取得了显著突破。
2024年,其开发的AlphaGeometry和AlphaProof系统在国际数学奥林匹克竞赛中斩获银牌。

而搭载Deep Think模块的最新Gemini模型,更在今年IMO中展现出金牌水准的卓越表现——完美破解全部六道题目,取得了42分的满分成绩。

今年5月,谷歌DeepMind发布的AlphaEvolve系统,被业界誉为当前最强大的通用人工智能体。

在数学分析、几何学、组合数学和数论领域的50个公开难题中,AlphaEvolve在其中20%的题目上获得了最优解。
更令人瞩目的是,在数学与算法发现领域,它发明了一种全新的、效率更高的矩阵乘法运算方法。

具体而言,在4x4矩阵乘法这一特定问题上,它发现了仅需48次标量乘法的新算法。
这一突破性成果,打破了1969年由Strassen算法保持的长达半个多世纪的历史记录。
不仅如此,在计算机科学领域,AlphaEvolve还协助研究人员发现了一些全新的数学结构。
同时,它也证明了某些复杂问题的求解难度实际上比人们过去想象的要更高,这促使研究者对计算边界有了更清晰、更精准的认知,为未来探索指明了方向。

以上这些重要进展,都是当前AI模型快速发展的有力证明。
对于AI的全部潜力如何推动最深奥的科学问题研究,人类的理解才刚刚开始。
AI与数学融合,边界在何处?
一直以来,陶哲轩既是“AI+数学”领域应用的坚定支持者,也是最佳实践的探索者。
他曾多次联合GPT-5 Pro等顶尖AI系统,破解了许多数学领域的难题,显著提升了研究效率。

毋庸置疑,在数学研究领域,大型语言模型和证明助手等AI工具,正悄然改变着传统的研究范式。
最近,一些顶尖学术论文开始融合AI技术,推动着从形式化证明到复杂计算的全方位创新。

论文地址:https://borisalexeev.com/pdf/erdos707.pdf
然而,随着AI的深度介入,也引出了一个关键问题:
如何确保这些工具的使用,不会损害论文的严谨性和学术价值?
基于这一契机,陶哲轩在公开平台上发起了深入讨论,在长篇贴文中,他提出了三大核心建议。

在以下讨论中,“AI”一词不仅涵盖大语言模型,还包含神经网络、可满足性求解器、证明助手以及其他任何复杂的辅助工具。
1 AI使用声明
论文中,所有对AI实质性功能的使用,包括自动补全、拼写检查,或是用于生成摘要的搜索引擎AI,都必须明确声明。
2 AI风险讨论与缓解措施
论文中,应讨论所用AI工具可能带来的一般性风险,并说明为缓解这些风险已采取的具体措施。
以下将举例说明:
2.1. 内容虚构,出现“幻觉”
AI可能会编造参考文献、证明过程或相关文本,导致事实性错误。
建议不要在论文正文中,直接使用AI生成的文本内容;若必须使用AI输出,则用不同字体或明显标记清晰标注。
2.2. 缺乏可复现性
专有AI或高计算成本的结果难以复现。解决方案是开源提示词、工作流程、验证数据等,让他人都能低成本验证。
2.3. 缺乏可解释性
AI输出往往晦涩难懂,其解释可能站不住脚。建议为每个AI输出配以人类撰写、可读性强的对应内容。
比如,一个定理可以同时包含一个由人类撰写、易于阅读的非形式化证明,以及一个由AI生成但不易阅读的形式化证明。
2.4. 缺乏可验证性
AI容易隐藏细微错误,检查耗时。形式化验证、一致性检查都有助于缓解这一问题,并采用多层次验证方法。
关键是在定理旁加“校验标记”,对未验证部分则明确说明。
2.5. 目标形式化不当
AI可能精确解决“错位”目标,即形式化后偏离作者意图的命题。为此,应从独立来源获取形式化目标,或由人类深度审视形式化过程。
2.6. 可能利用漏洞达成目标
与上一个问题相关联,AI可能会钻形式化表述的空子,例如添加任意公认“证明”的命题。
应对方法是列出已知漏洞,并讨论确保过程严谨的排除机制。
2.7. AI生成代码存在Bug
AI生成代码的bug更加隐蔽,难以用传统标准方法来检测修复。
为此,建议采用大量单元测试、外部验证,或将AI使用限于简单场景,复杂任务由人类修改适配。
3 责任归属
最终,论文的所有作者必须对AI贡献的内容承担责任,包括任何不准确、疏漏或虚假陈述。
除非明确标记为“未经核实”,否则作者不能推卸责任。

以上这些,只是陶哲轩抛砖引玉的初步思考,他希望能够促进更多业界研究人员的深入讨论,进一步完善这份清单。
评论下方,一位研究者John Dvorak直指痛点——
除非我们能跨越临界点,让所有数学证明都用Lean做形式化验证成为学界标准,否则这个问题基本无解。

对此,陶哲轩分享了一个最近观察到的观点,即使用AI审阅稿件质量是可以接受的,但它并非是最主要的筛选工具之一。
说白了,AI评估器终究只是辅助工具,而不能完全取代人类评估者。

相关攻略
 
			
            谷歌DeepMind再出重拳,集结全球五大顶尖机构,以AI之力直指数学界圣杯!同时,陶哲轩也发出冷静警示:须警惕AI滥用带来的潜在风险。 今天,谷歌DeepMind重磅发起「AI赋能数学计划」,集结
 
			
            10 月 28 日消息,消息源 Mystic Leaks 昨日(10 月 27 日)在 Telegram 上发布博文,曝料称谷歌可能提前到 11 月 4 日,发布原定于 12 月推送的 Pixel
 
			
            10 月 27 日消息,据外媒 Engadget 26 日报道,谷歌为 Gemini 的免费互动工作区 Canvas 推出了一项新功能,其专为需要制作 PPT 文件的学生和员工设计。从报道中获悉,
 
			
            10月27日消息,这两年手机处理器市场竞争激烈,联发科也瞄向了AI芯片,接到了谷歌的ASIC定制芯片大单,明年预计贡献10亿美元营收。联发科本周即将举行说法会,外界关注的一大重点就是ASIC定制业务
 
			
            10 月 25 日消息,据外媒 Techspot 今日报道,谷歌日前推出数字学习平台“Google Skills”,旨在帮助用户掌握数字时代所需的核心技能。在各大科技公司纷纷聚焦生成式 AI 变现
热门专题
 
					
					 
					
					热门推荐
 
			
            在冒险岛枫之传说中,五转v2技能备受玩家关注。这些技能为角色带来了全新的战斗体验和强大的实力提升。首先,五转v2技能在伤害输出方面有了显著增强。以某些职业为例,新技能拥有更高的基础
 
			
            数字资产平台的门槛与门槛 前两天我翻手机相册,看到去年截的一张图——当时某个新币上线,平台服务器直接崩了半小时,页面卡在加载界面转
 
			
            10月31日消息,北京理想汽车有限公司根据《缺陷汽车产品召回管理条例》和《缺陷汽车产品召回管理条例实施办法》的要求,主动向国家市场监督管理总局备案了召回计划。按照最新公告,召回编号S2025M017
 
			
            今天分享一下如何搭建一套zookeeper+Kafka的消息队列集群。虽然Kafka在新版本已经可以不通过zookeeper就可以实现高可用,但是企业中大多数还是zookeeper+Kafka这个黄
 
			
            本文旨在清晰解释“T+1”这一常见的交易结算制度,并对比其在传统金融市场与数字资产领域的不同应用。理解这一核心概念,有助于投资者更好地规划资金和制定交易策略。





