游乐游手机版
首页/科技数码/文章详情

谷歌AlphaProof破解IMO难题秘诀:4人团队如何实现数学突破

时间:2025-11-13 17:09
谷歌DeepMind在国际数学奥林匹克竞赛(IMO)中再获突破,其研发的AlphaProof模型成功斩获金牌。这一成果以完整论文形式发表于《自然》期刊,首次详细披露了该系统的技术架构与训练方法。值得

谷歌DeepMind在国际数学奥赛(IMO)中再次实现重大突破,其研发的AlphaProof模型成功斩获竞赛金牌。这项突破性研究成果以完整论文形式发表于《自然》期刊,首度系统性地揭示了该人工智能系统的技术架构与训练方法。值得关注的是,曾创造"无师自通"下棋奇迹的AlphaZero相关技术,在本研究中被多次借鉴并实现创新性改进。

该项目研发团队规模精干,长期维持在十余人左右,仅在临近赛事时适当扩充人手。突破性进展源于团队成员、前IMO金牌得主米洛什·霍瓦特提出的创新方法论:通过生成数学问题的多样化变体,构建智能体的强化训练环境。这些变体涵盖简化版本、推广形式及结构相似的衍生问题,使系统能够在更广泛的场景中积累解题经验。

AlphaProof将数学证明转化为强化学习任务,基于Lean定理证明器构建专属训练环境。每道数学命题被视为独立关卡,系统需自主选择策略推进证明进程。成功策略将生成新的子目标,直至所有目标完成即宣告证明成功。其核心采用30亿参数的编码器-解码器Transformer架构,该模型需同步输出策略建议与剩余步骤预估,从而优化计算资源分配效率。

在算法搜索层面,系统在AlphaZero树搜索基础上引入AND-OR树结构,可将证明过程中的多重独立条件分解为子问题逐个攻克。渐进式采样机制则允许在关键路径探索更多策略可能。训练数据构建分为三个阶段:首先用3000亿token的代码与数学文本预训练模型;随后通过Mathlib库的30万个人工证明进行微调;最终利用基于Gemini 1.5 Pro开发的翻译系统,将约100万道自然语言数学题转化为8000万道形式化问题,数据规模远超现有教学资源集合。

核心训练阶段消耗约8万TPU日计算资源,系统通过持续尝试证明或证伪自动生成的命题,并将成功案例用于更新神经网络参数。即便形式化结果存在细微误差,只要命题逻辑有效,系统仍能从错误中持续学习。测试阶段采用双循环机制:主循环处理大规模自动生成问题;测试时强化学习循环则针对特定难题生成约40万个变体,启动独立训练进程积累解题洞见。

在2024年IMO赛事中,AlphaProof展现出强大实力,成功解决代数与数论领域三道试题,其中包括仅5名选手完全攻克的最高难度压轴题P6。面对复杂难题时,系统通过生成特殊变体(如限定有理数范围、强化条件假设)进行专项训练,每道题目平均需要2-3日计算时间。团队透露,赛事期间系统仅能确保铜牌成绩,直到后台运行的测试时强化学习完成三道完整证明,才最终锁定金牌殊荣。

目前DeepMind已向科研界开放AlphaProof使用权限,多位数学家分享了试用体验。罗格斯大学学者发现系统擅长发现反例,助力修正理论假设;伊利诺伊大学团队用其验证棘手引理,一分钟内即完成证明或找出定义漏洞;伦敦帝国理工学院测试费马大定理证明时则遇到挑战,显示系统在处理全新数学概念时仍存在认知局限。

研究团队指出,系统对Lean定理证明器的依赖构成双重影响:活跃的社区支持推动其在成熟数学子领域表现优异,但证明器的持续演进也带来环境不稳定性。数据局限性同样突出,尽管变体生成技术取得进展,但创造真正原创的数学问题仍需突破。该成果为AI数学研究提供了新范式,其技术路径印证了专家关于AI在封闭系统中超越人类潜能的预测。

论文全文链接:https://www.nature.com/articles/s41586-025-09833-y
相关技术讨论:https://www.nature.com/articles/d41586-025-03585-5

来源:https://www.itbear.com.cn/html/2025-11/1018310.html
上一篇华为坤灵中国行2025广东站:智启湾区,粤见数字未来 下一篇小米汽车新专利:风口结构优化与自动化产线加速智能汽车布局
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
OpenClaw手机App上线,结果翻车了
科技数码 · 2026-07-01

OpenClaw手机App上线,结果翻车了

OpenClaw 官方宣布,已正式推出 iOS 和 Android 原生移动 App,用户如今可以在手机上使用这款主打“能真正帮你做事”的个人 AI 助手。官方在 X 上给出的定位也很直接:把 Agent 放进口袋里,让用户可以在移动端处理频道消息、任务和回复。从功能上看,OpenClaw 移动端并

优必选CEO周剑:家庭机器人生态核心投入过半精力
科技数码 · 2026-07-01

优必选CEO周剑:家庭机器人生态核心投入过半精力

先说几个核心判断:优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上,直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进,现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景,另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛
科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛

6月30日,申银万国在光连接系列研报中重点指出,MPO光连接器领域的投资机会值得高度关注。通俗来说,随着AI算力集群持续扩张,光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件,如今它直接决定着链路插损、可

龙岗AR实景剧本游内测体验短板有效破解之道
科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上,区级部门一次性推出了7个AI“龙搭子”。其中,名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解,依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”,已在今年五一假期发布了内测版本。经过一个月市场验证后,该项目正式启动面向全社会的

南下资金6月30日净买入中芯国际与建滔积层板
科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日,南下资金持续大举买入港股,单日净流入金额高达58 95亿港元。接下来,我们直接盘点哪些个股获得资金青睐、哪些遭到减持: 净买入方面,中芯国际领跑全场,单日吸金19 33亿港元;建滔积层板紧随其后,净买入10 59亿港元;腾讯控股获得7 65亿港元净流入;智谱(02513 HK)也有6 5