首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
谷歌AI攻克数十年数学难题刷新SOTA纪录牛津教授协同突破

谷歌AI攻克数十年数学难题刷新SOTA纪录牛津教授协同突破

热心网友
52
转载
2026-05-12

数学界悬置数十年的群论经典难题——Kourovka Notebook 第21.10号问题,近期取得了实质性进展。推动这一突破的,是一种崭新的人机协作研究范式:牛津大学数学家 Marc Lackenby 在 Google DeepMind 最新发布的多智能体研究系统“AI Co-Mathematician”的协助下,成功定位了解决问题的核心思路与关键路径。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这标志着一个更深层次的趋势转变。以往,人工智能在数学研究中的应用多局限于“工具化”角色,例如执行特定推理步骤、辅助形式化证明或进行数值计算实验。但这些能力往往是割裂的,未能整合为一个能够理解完整研究流程、并能与人类进行长期深度协作的“伙伴”。AI Co-Mathematician 正是瞄准了这一空白。它不再局限于回答孤立问题,而是致力于构建一个能够持续跟进复杂研究项目的多智能体协作平台。在群论难题中,该系统并未直接给出最终证明,而是生成了一份存在缺口却极具启发性的证明草稿。正是这份草稿为 Lackenby 提供了关键的突破口,通过人机之间的多轮交互与迭代推进,最终引导研究走向成功解答。

性能数据有力地印证了这种协作模式的有效性。根据相关论文,AI Co-Mathematician 在当前公认难度最高的数学基准测试之一——FrontierMath 的 Tier 4 级别上,取得了 48% 的解题准确率,刷新了该基准的最高纪录(SOTA)。这表明,它的介入不仅革新了工作方式,更带来了可量化的能力提升。

AI Co-Mathematician:专为长期科研设计的智能工作台

那么,这一系统究竟如何运作?本质上,AI Co-Mathematician 是一个为数学研究量身定制的多智能体协同系统。

研究团队在论文中阐述,用户主要与顶层的“项目协调智能体”进行交互。该智能体的首要任务是澄清问题边界、明确研究目标,随后将宏观任务分解为多个子任务,分配给不同的专项工作流。这些工作流会进一步调用具备不同职能的子智能体,分别负责文献检索、代码实验、证明尝试、结果审查等环节。所有中间过程、思路与结果都会被记录并写入一个共享的文件系统。最终的交付物并非易于丢失上下文的长篇对话,而是一份持续更新、结构清晰的“动态研究文稿”,其中完整保留了边注、引用来源、内部链接以及全部的审查痕迹。

图|AI Co-Mathematician 工作空间中各类智能体组织结构的简化示意图。箭头表示标准的信息传递路径。

该机制的一个关键设计在于其对“失败”的处理方式。系统会持续记录所有被否定的假设、走不通的路径以及审查中暴露的漏洞,并将这些信息作为正式的“研究上下文”予以保存,而非简单丢弃。其背后的理念十分深刻:在数学探索中,明确“何种方法不可行”本身就是极具价值的知识。这些失败的尝试并非噪音,而是后续重新定位问题、调整策略乃至开辟新路径的重要依据。系统可以围绕同一目标并行推进多条研究路径,并根据进展动态调整资源分配;每条路径都会定期回传阶段报告。如果某条路径最终被判定为无法达成目标,系统会给出明确警示,而非用一份形式完整却逻辑断裂的文本来掩盖问题。

图|单个工作流由一系列动作构成,这些动作由工作流协调智能体执行。

此外,系统在“不确定性管理”上设置了严格的硬性约束:代码必须通过测试方可视为完成;报告必须通过审查才能最终定稿;如果某条研究路径长时间停滞不前,智能体必须主动将问题暴露给用户,而非持续生成形式完美但内容空洞的文本。

图|一旦研究问题和目标确定,项目协调者就会安排各个工作流以推动目标实现。

刷新高难度基准,投入真实数学研究

除了理念先进,AI Co-Mathematician 的实战能力同样经过了严格检验。在基准测试中,它在 FrontierMath Tier 4 层级的 50 道高难度题目中,成功解答了 23 道(去除2道公开样例题后),准确率达到 48%。

FrontierMath 基准由 Epoch AI 开发,其 Tier 4 层级收录的题目挑战性极高,部分问题甚至被预测在未来数十年内都难以被 AI 攻克,人类专家解答通常也需要数天时间。作为对比,其基座模型 Gemini 3.1 Pro 在同一测试中的准确率仅为 19%。更值得注意的是,在这 23 道被解答的题目中,有 3 道是此前所有已评测系统均未能成功解决的。

图|Gemini 3.1 Pro、Gemini 3.1 Deep Think 与 AI Co-Mathematician 在一项内部研究级数学基准测试上的准确率对比。

更令人信服的是其在真实研究场景中的应用成果。研究团队特别强调,以下案例均由数学家独立使用该系统完成,未经过 DeepMind 研究人员的中间干预:

除了开篇提及的 Marc Lackenby 在群论问题上的突破,数学家 Semon Rezchikov 在哈密顿系统相关子问题上,获得了一条包含关键引理的证明路线;数学家 Gergely Bérczi 则得到了关于 Stirling 系数问题的证明尝试与计算证据。当然,这些成果也清晰地揭示了当前系统的定位:在 Bérczi 的研究中,相关证明仍被标注为“处于详细人工审查中”;Rezchikov 的体验也更多是基于个案的成功。这清楚地表明,这种“人在回路中”的协作模式已展现出切实的科研价值,但尚不能直接推论出智能体已经能够稳定、独立地完成开放式的数学研究项目。

当前局限与未来发展方向

研究团队对当前系统的不足之处保持着清醒的认识。他们指出了几个关键挑战:

首先,多轮评审机制并不总能导向更可靠的结果。有时,一个存在根本缺陷的论证,可能在反复修改和包装后,看起来越来越“像”通过了审查,但其核心逻辑漏洞并未被真正消除。其次,不同智能体之间也可能陷入无法达成共识的僵局,导致系统在无休止的修改-驳回循环中空转,推理质量不升反降。

此外,该系统目前尚无法脱离人类的持续介入,独立完成长周期、高不确定性的前沿研究任务。长时间自治要求用户让渡一部分控制权,而当前模型在遇到意外困难时,关于“何时应该停止尝试、何时必须求助人类”的决策判断力,仍远不及人类研究者。另一个有趣的观察是,系统生成的排版精良的 LaTeX 文稿,很容易给人一种“内容必然严谨”的心理暗示,这反而可能掩盖逻辑上的细微疏漏。

面向未来,研究团队的展望显得务实而克制。他们认为,下一步的重点或许不应单纯追求生成更“正确”答案的能力,而是需要发展一套新的评估框架,用以科学衡量人机协作的实际效能、智能体在有状态探索中的综合能力,以及对研究不确定性的严格管理水平。与此同时,如何管理自动化输出可能带来的“语义噪声”、减轻而非加重同行评审的负担,并确保人类研究者始终保有对论文创新性与学术价值的最终判断权,将是所有相关领域研究者必须共同面对的核心议题。

归根结底,AI Co-Mathematician 或许并非正在成长为一位能独立攻克世界难题的“数学家”,而是清晰地预示了另一种可能:在那漫长、曲折且必然充满试错的科研道路上,人工智能可以成为一个人类能够持续对话、共同思考的深度协作对象。这不仅是研究工具的升级,更是科学研究范式的一次深刻演进。

来源:https://36kr.com/p/3804373708775174
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

谷歌AI攻克数十年数学难题刷新SOTA纪录牛津教授协同突破
业界动态
谷歌AI攻克数十年数学难题刷新SOTA纪录牛津教授协同突破

数学界悬置数十年的群论经典难题——Kourovka Notebook 第21 10号问题,近期取得了实质性进展。推动这一突破的,是一种崭新的人机协作研究范式:牛津大学数学家 Marc Lackenby 在 Google DeepMind 最新发布的多智能体研究系统“AI Co-Mathematici

热心网友
05.12
谷歌AI助力数学研究突破群论难题牛津团队取得新进展
AI
谷歌AI助力数学研究突破群论难题牛津团队取得新进展

谷歌DeepMind推出“AI联合数学家”系统,协助牛津大学教授解决群论难题。该系统作为异步协同工作空间,通过多智能体并行处理任务并允许人类介入引导,刷新了数学AI基准测试纪录,并在真实研究中推动关键进展。这标志着AI正从解题工具转变为深度研究伙伴,但仍面临“讨好审稿人偏差”等挑战。

热心网友
05.10
龙虾冲浪终于不迷路了!网页智能体新框架Avenir-Web开源即SOTA
AI
龙虾冲浪终于不迷路了!网页智能体新框架Avenir-Web开源即SOTA

让AI像人类一样“冲浪”:A venir-Web如何破解网页操作的三大难题 你是否遇到过这种情况:让AI助手帮你完成一个稍复杂的网页操作,比如预订一张特定条件的机票,或者填写一份多步骤的在线表格,结果它要么点错按钮,要么在页面间迷失方向,最后只能尴尬地告诉你“任务失败”? 这正是当前许多网页智能体(

热心网友
04.30
月之暗面发布 Kimi k1.5 多模态思考模型,实现 SOTA 级多模态推理能力
AI
月之暗面发布 Kimi k1.5 多模态思考模型,实现 SOTA 级多模态推理能力

月之暗面发布Kimi k1 5多模态思考模型,实现SOTA级多模态推理能力 AI大模型领域的竞争,正在从单纯的“博闻强记”转向更深层次的“推理思考”能力。这不,新年刚开局,月之暗面就投下了一枚重磅“思考冲击波”。1月20日,该公司正式发布了Kimi全新SOTA模型——k1 5多模态思考模型。这个新名

热心网友
04.28
2秒钟转写5分钟音频!国产新语音模型拿下多项SOTA,定价骤减90%
AI
2秒钟转写5分钟音频!国产新语音模型拿下多项SOTA,定价骤减90%

阶跃星辰发布StepAudio 2 5 ASR:推理提速400%,长音频处理迎来新突破 4月24日,阶跃星辰正式推出了新一代自动语音识别模型StepAudio 2 5 ASR。这款模型主要瞄准语音转写与长音频处理场景,在架构上玩了个新花样——引入了Multi-Token Prediction(多To

热心网友
04.27

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Coinbase新手入门指南:分步详解登录认证与首单交易流程
web3.0
Coinbase新手入门指南:分步详解登录认证与首单交易流程

本文旨在为新用户提供一份循序渐进的Coinbase使用指南。建议将学习过程拆分为登录、身份认证和首次交易三个阶段。文章详细介绍了每个阶段的核心操作、注意事项及安全建议,帮助用户在不感到信息过载的情况下,逐步熟悉平台功能,从而更轻松、安全地开启数字资产之旅。

热心网友
05.12
Coinbase闪退问题解决指南:检查系统版本权限与清理缓存
web3.0
Coinbase闪退问题解决指南:检查系统版本权限与清理缓存

Coinbase应用下载后出现闪退,通常与设备系统版本、应用权限或旧缓存文件有关。可先检查手机系统是否满足最低要求,并确保已授予应用必要的存储和通知权限。若问题依旧,尝试清除应用缓存或彻底卸载后重新安装。对于iOS设备,还需确认AppleID地区设置与账户匹配。

热心网友
05.12
红月传奇职业选择指南:哪个职业最强最好用
游戏资讯
红月传奇职业选择指南:哪个职业最强最好用

在《红月传奇》这款经典游戏中,职业选择是决定你游戏体验与成长路线的关键一步。是成为近战无敌的勇猛战士,还是掌控元素的远程法师,或是全能辅助的团队核心道士?不同的职业定位,将带来完全不同的战斗风格、团队职责与成长乐趣。本文将为你深度解析三大职业的核心玩法、技能特色与团队定位,助你精准选择最适合自己的传

热心网友
05.12
战锤40K战争黎明4机械教阵营玩法与兵种解析
游戏资讯
战锤40K战争黎明4机械教阵营玩法与兵种解析

《战锤40K:战争黎明4》的最新实机预告片已经发布,这次的主角是游戏中的全新派系——机械教阵营。没错,就是《战锤40K》宇宙里那个崇拜“万机之神”、痴迷于数据与技术的技术祭司派系。他们正式登场,意味着战场上的科技天平将发生显著倾斜。 从定位上看,机械教是一个高机动性、擅长远程打击的阵营。他们依靠各种

热心网友
05.12
索尼AI专利实现游戏精彩瞬间自动捕捉 告别手动录屏
游戏资讯
索尼AI专利实现游戏精彩瞬间自动捕捉 告别手动录屏

对于广大游戏爱好者而言,记录并分享游戏中的精彩瞬间——无论是多人竞技中的极限操作,还是单人剧情中击败强大BOSS的激动时刻——已成为日常游戏体验的一部分。然而,传统的录屏、回放、剪辑与导出流程,往往操作繁琐、耗时费力。近日,索尼互动娱乐的一项新专利显示,他们正致力于利用人工智能技术,从根本上革新这一

热心网友
05.12