谷歌AI助力数学研究突破群论难题牛津团队取得新进展

首页

热心网友

转载

2026-05-10

数学界悬而未决的难题清单上，又增添了一则由人工智能辅助破解的里程碑案例。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

困扰群论领域数十年的第21.10号问题，近期被牛津大学数学家Marc Lackenby成功解决。而他的关键合作者，正是谷歌DeepMind最新发布的“AI联合数学家”系统。整个破解过程颇具戏剧性：AI最初生成的证明存在一个漏洞，正是系统内部的“审查员”智能体发现了这一错误。Lackenby在看到被指出的漏洞后，灵感迸发——“等等，我知道如何填补这个缺口”。经过数轮人机之间的反复推敲与验证，这道长期悬置的难题最终得以攻克。

这不仅仅是一则关于AI解答数学题的消息。它更深刻地标志着，人工智能在数学研究中的角色，正从被动的“解题工具”向主动的“研究伙伴”进行根本性转变。

“AI联合数学家”系统详解

简而言之，它并非一个简单的问答式聊天机器人，而是一个支持异步协作、具备状态记忆的协同工作平台。你可以将其理解为一个配备了顶尖智能助手的虚拟研究工作室。

系统顶层设有一个“项目协调者”智能体，负责整体规划与任务调度。当数学家上传一篇论文或提出一个研究构想后，这位“协调者”不会立即给出答案，而是会像真正的科研合作者一样，首先与用户进行对话，帮助澄清、细化和精准定义问题。

随后，它会将复杂问题分解为多个子任务，并调度多条研究线索并行推进：一条线索负责文献调研与背景知识检索；一条线索负责搭建计算与验证框架；另一条线索则尝试不同的证明策略与路径。每条工作流都有其专属的协调智能体，它们异步运行，互不干扰。尤为关键的是，数学家可以随时介入任何一条线索，进行引导、修正甚至直接接管。

如果某个智能体在探索中陷入困境，它不会保持沉默或简单重启，而是会主动在聊天界面中向人类研究者发出求助信号。这一设计理念的核心，在于其对“失败”的独特认知与利用。

系统会持久化地记录所有失败的假设与走不通的路径，不会轻易丢弃这些信息。在数学探索中，明确“哪些路不可行”与找到“哪条路可行”往往具有同等重要的价值。这些“负向探索空间”被系统完整保存，成为后续研究的重要上下文，有效避免了重复踏入相同的死胡同。

其最终产出也完全符合学术规范：并非杂乱的对话记录，而是附带详细边际注释、引用来源清晰可溯的LaTeX格式文档，可直接作为论文初稿使用。

这背后有一个精妙的类比：在软件工程领域，我们已经拥有了如Claude Code、Cursor这类集成了持续迭代、版本控制和测试验证的AI编程环境。然而，数学研究领域长期以来一直缺乏一个对等的、专为研究流程设计的“智能编排层”。“AI联合数学家”系统的诞生，正是为了填补这一空白。

与先前系统的本质区别

它的定位，与DeepMind此前开发的系统（如AlphaEvolve）有着根本性的不同。

AlphaEvolve更像一个高度自主的“算法发现引擎”：输入问题，它通过进化算法自行搜索更优解，人类基本处于循环之外。而“AI联合数学家”则强调数学家必须“始终在协作回路之中”。它的目标并非替代人类完成整个研究过程，而是在最恰当的时机提出问题、提供辅助，将人类研究者独有的直觉、审美判断和战略眼光，与AI强大的信息检索、海量计算和逻辑验证能力进行深度融合。

前者是“请帮我找到一个更优的算法”，后者则是“陪伴我将这个研究方向深入探索数周”。

刷新最难数学AI基准测试纪录

在衡量人工智能数学能力的“硬核”测试中，这套系统同样交出了一份令人瞩目的成绩单。

它在当前公认难度最高的数学AI基准测试——FrontierMath的Tier 4级别上，取得了48%的准确率，刷新了该领域的最高纪录（SOTA）。作为对比，GPT-5.5 Pro和GPT-5.4 Pro在同一测试中的成绩分别为39.6%和37.5%。

FrontierMath基准包含350道原创高难度数学题目，覆盖现代数学各大核心分支。其中的Tier 4级别仅包含50道题，被其开发者Epoch AI描述为“其中部分问题可能在未来数十年内都难以被AI攻克”，人类专家解决其中一道通常也需要花费数天时间。

“AI联合数学家”在48道非公开题目中成功解答了23道。值得关注的是，其底层基座模型Gemini 3.1 Pro单独参加同一测试时，准确率仅为19%。从19%跃升至48%，这29个百分点的巨大提升，并非源于基座模型本身“智力”的飞跃，而几乎完全归功于系统层面精心的流程编排：并行调查机制、强制性的审查循环、高效的文献检索工具以及持久化的代码执行基础设施。

更值得深思的是，其中有3道题目是此前所有AI系统均未能攻克的全新难题。

真实世界的研究合作案例

除了基准测试，相关研究论文中还披露了三位数学家将其应用于实际研究的案例：

除了开篇提到的Marc Lackenby解决群论难题，数学家Semon Rezchikov在哈密顿系统研究中，向系统提出了一个技术性的子问题，并成功获得了一个关键引理的证明。他评价道，其他AI系统在相同提示下全部失败，且该证明从“数学美学”角度看，是他所用过的模型中风格最为出色的。

另一位数学家Gergely Bérczi，则利用该系统完成了关于Stirling系数对称幂表示的一个猜想证明。

光环之下的挑战与深层思考

当然，论文也坦诚地揭示了系统当前存在的失败模式与潜在问题。

第一种被称为“讨好审稿人偏差”：智能体可能会反复改写一个存在缺陷的论证，直到AI审稿人无法再发现错误——但漏洞实际上依然存在，只是变得更加隐蔽。

第二种是“死亡螺旋”：当迭代评审过程无法达成共识时，多个智能体可能会陷入无限的相互审稿循环，导致推理质量逐渐退化，甚至产生事实幻觉。

此外，还存在更深层的结构性挑战。当AI能在几分钟内生成一篇长达20页的证明草稿时，依赖志愿者、通常耗时数周甚至数月的人类同行评审体系将面临前所未有的压力。同时，AI虽然擅长逻辑核验、发现代数错误或找出缺失引用，但它们仍然缺乏判断一篇论文的优雅性、深刻性或其真正数学价值所需的整体性直觉。过度依赖AI评审，可能导致人类宝贵的定性判断能力被边缘化。

关于48%的基准测试成绩，论文也做了特别说明：这是在特殊条件下取得的（每道题给予48小时时间、无token数量限制、使用团队自有基础设施），与Epoch AI的标准评估框架并不完全可比。这体现了研究团队在评估透明度上的严谨态度。

背后的顶尖研发团队

“AI联合数学家”项目汇聚了18位作者，其中不乏人工智能与数学交叉领域的明星学者与工程师。

第一作者兼通讯作者Daniel Zheng，是谷歌DeepMind的研究工程师，专注于编程语言与机器学习的交叉研究。在2024年帮助AlphaProof获得国际数学奥林匹克（IMO）银牌的项目中，他主导了非形式化证明系统的开发。

另一位关键人物Alex Davies，是从AlphaProof、AlphaEvolve到“AI联合数学家”这一系列技术路线的连续参与者和重要连接者。

通讯作者Pushmeet Kohli，作为谷歌DeepMind的科学副总裁兼Google Cloud首席科学家，主导了AlphaFold、AlphaProof、AlphaEvolve等一系列里程碑式项目。

此外，团队中还包括来自多伦多大学的统计学家Daniel M. Roy，以及来自哈佛大学、专注于AI可解释性与人机交互研究的Fernanda Viégas和Martin Wattenberg。后两位所在的PAIR（人机协作）团队，在很大程度上解释了为何该系统在“如何让数学家愿意并高效使用”的人机交互细节上如此匠心独运。