谷歌Gemini连发6篇顶会数学论文，以91.9%精准度刷新SOTA纪录_游乐网

文章

业界资讯单机攻略视频攻略新游看台八卦新闻手游资讯手游攻略游戏问答

游戏

全部角色扮演棋牌策略休闲益智赛车竞速飞行射击体育竞技模拟经营动作冒险卡牌桌游其他游戏应用辅助

首页游戏软件资讯排行榜专题

首页

AI

谷歌Gemini连发6篇顶会数学论文，以91.9%精准度刷新SOTA纪录

谷歌Gemini连发6篇顶会数学论文，以91.9%精准度刷新SOTA纪录

热心网友

24

转载

2026-02-12

新智元报道

编辑：桃子好困

【新智元导读】今天，谷歌DeepMind「AI数学家」Aletheia彻底杀疯了，攻克数学猜想，独立写论文。更令人震惊的是，拿下金牌的Gemini一举横扫18大核心科研难题。

下一个诺奖得主，Gemini提前预定了！

谷歌DeepMind再次向全球科研圈扔出炸弹，一口气放出两篇重磅论文——

Gemini Deep Think成为「科研合伙人」，连破数学、物理和计算机科学领域研究级难题。

以前，AI可以拿下IMO、ICPC国际大赛金牌，已经很牛了....

这一次，Gemini彻底开挂，真正搞起了科研！

谷歌打造了一款基于Gemini「AI数学家」，代号Aletheia。它在博士级难题上，取得了多项科研里程碑。

其中包括，独立撰写发表学术几何论文，还对「Erdős猜想」数据库中700个开放问题，完成系统性评估。

在IMO-ProofBench基准测试中，Aletheia一骑绝尘，拿下91.9%的成绩刷爆SOTA。

更具颠覆性的，它具备了人类最核心的技能：自我纠错，还会主动承认自身无法解决的问题。

所谓的千禧年大奖难题，或许离逐一破解的那天也不远了。

不仅如此，在物理学和计算机科学，Gemini Deep Think联手专家，攻克了18个长期停滞的研究难题。

涵盖了终结十年子模优化猜想、突破离散算法瓶颈、机器学习与组合优化、信息论与经济学等，斐然的成绩足以载入史册。

此时此刻，人类的科研工作流正在酝酿着一场颠覆性的变革。

Gemini加速进化正以一种近乎「降维打击」的方式，在多个科研领域暴力破局。

谷歌「AI数学家」Aletheia重磅出世

干翻博士级难题

2025年夏天，Gemini Deep Think（高级版）首次拿下了IMO金牌，紧接着，在ICPC大赛中一举夺冠。

如今，Gemini彻底跨越了竞赛门槛，正式攻入人类智慧的「深水区」。

与IMO级的竞赛难度不同，研究级数学问题需要，从浩如烟海的文献中调用「高级技术」。

虽然「基础模型」（FM）知识渊博，但缺少专业数据，难免在处理高级学科时往往会理解不到位，甚至产生「幻觉」。

为此，谷歌DeepMind内部构建了一个数学研究AI智能体——Aletheia，背靠强大的Gemini Deep Think。

论文地址：https://github.com/google-deepmind/superhuman/blob/main/aletheia/Aletheia.pdf

在古希腊语中，Aletheia代表着「真理」。

它做到了在自然语言中「端到端」迭代生成、验证和修改解决方案。

具体来说，Aletheia自带一个「自然语言验证器」，能挑出候选方案中的毛病，并实现「生成-修改」的迭代过程。

最关键的是，它能承认自己解不出来，这一特性大大提高了研究人员的效率。

Aletheia概览：这是一个由Deep Think驱动的数学研究AI智能体，能够针对研究级数学问题进行迭代式的生成、验证和修正

总言之，驱动Aletheia的三大核心技术支柱是：

Gemini Deep Think高级版：专门用来死磕那些极难的推理题；

新颖的推理时Scaling Law：它的能力跨度极大，上能搞定奥数级难题，下能应付博士级的专业练习；

强大的工具调用能力：深度集成Google搜索和网页浏览，以此攻克数学研究中老大难问题，瞎编参考文献、计算不准的情况几乎不存在。

自2025年7月达到IMO金牌水准以来，Gemini Deep Think进步谓之神速。

随着推理时计算量（inference-time compute）的增加，它在IMO-ProofBench高级测试中的得分高达90%。

谷歌DeepMind证明了，即便从奥赛级别跨越到博士级练习题（根据内部FutureMath Basic基准），Scaling Law依然有效。

值得注意的是，Aletheia即便用更少推理算力，也能实现更高的推理质量。

截至2026年1月，Deep Think的最新进阶版在奥赛级题目上的表现已大幅超越IMO金牌版本（2025年7月）。推理时的Scaling Law同样适用于博士级练习题。Aletheia在推理质量上实现了进一步的飞跃，且推理时的计算量更低。所有结果均由人类专家评分

首批6篇论文，AI手搓一篇，3篇已发表

在研究级数学的实战中，Aletheia的实力可不是闹着玩的，已取得了许多令人瞩目的「自主突破」。

在Aletheia完成的首批六篇论文中，一共包括以下几类——

独立完成，0人类

论文「

Eigenweights for arithmetic Hirzebruch Proportionality

」完全由Aletheia生成，没有任何人工干预。

它计算了算术几何中被称为「特征权重」（eigenweights）的某些结构常数。

论文地址：https://arxiv.org/abs/2601.23245

人类与AI协作

论文「

Lower bounds for multivariate independence polynomials and their generalisations

」是由人类与Aletheia协作完成，共同证明了相互作用粒子系统（称为独立集）的界限。

论文地址：https://arxiv.org/abs/2602.02450

大规模半自主评估，攻克Erdős猜想难题

论文「

Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erdős Problems

」针对 Bloom的「Erdős猜想」数据库中的700个开放问题进行了评估，并自主解决了其中列出的四个未解之谜。

在Erdős-1051问题上，模型给出了自主解答，并推动了另一篇研究「

Irrationality of rapidly converging series: a problem of Erdős and Graham

」中报告的推广性成果。

论文地址：https://arxiv.org/abs/2601.22401

论文地址：https://arxiv.org/abs/2601.21442

此外，Aletheia还在如下另外两篇论文中，贡献了中间命题。

论文地址：https://arxiv.org/abs/2601.18557

论文地址：https://arxiv.org/abs/2601.23229

值得一提的是，之前也有Gemini进行研究级数学探索的工作，但在合作规模和解决问题的数量上都相对较小。

此外，谷歌DeepMind还建立了一个分类法，根据重要性和AI贡献程度对「AI辅助数学研究」进行分级——

下表中，已被列为第2级（可发表质量）的成果已提交给知名期刊。

目前，谷歌尚未通过Gemini获得任何第3级（重大进展）或第4级（里程碑式突破）的成果。

本研究涵盖的所有AI辅助数学成果的分类表。表中列为第2级的成果已投稿发表

终结十年猜想，攻克18大研究难题

除了在数学方面大展身手，Gemini Deep Think在计算机科学和物理学领域，也表现出了巨大的潜力。

论文「

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

」建立在类似的智能体推理思路之上，并总结出了高效合作的「秘籍」，特别是「顾问」（Advisor）模式：

即人类通过迭代的「直觉验证」（Vibe-Proving）循环来引导 AI，以验证直觉并完善证明。

论文地址：https://arxiv.org/abs/2602.03837

此外，谷歌还详细介绍了一些战术技巧，比如「平衡提示词」（balanced prompting）。

——要求AI同时尝试证明或反驳以防止确认偏误，以及代码辅助验证。

这些方法，结合模型通过深层结构连接跨越不同科学领域的能力，正在改变理论研究的开展方式。

这项工作，是建立在成功部署Gemini Deep Think进阶版协助审查STOC’26会议CS理论论文的基础之上的。

AI推理流程示意图：展示了网络层如何对解题空间进行广泛探索，然后收敛为结构化的推理，并最终通过自动化验证与人工审核进行确认

通过与专家合作攻克18个研究难题，Gemini Deep Think进阶版帮助打破了算法、机器学习、组合优化、信息论以及经济学领域长期存在的瓶颈。

ICLR 2026已录用

论文「

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

」中的亮点包括：

跨越数学边界解决网络谜题

像「最大割（Max-Cut）」（高效分割网络）和「施泰纳树（Steiner Tree）」（连接高维点）这类经典计算机科学问题的进展一度停滞。

Gemini通过打破「思维定势」破解了这两个僵局。

它从完全不相关的连续数学分支中搬来了高深工具——比如Kirszbraun定理、测度论和Stone-Weierstrass定理——成功解决了这些离散算法谜题。

终结在线子模优化领域十年的猜想

2015年的一篇理论论文为数据流提出了一个看似显而易见的规则：复制一个新到达的项目永远比简单地移动原始项目价值低。专家们花了十年时间试图证明这一点。

Gemini设计了一个极其刁钻的「三项目组合反例」，严格证明了这一长期以来的人类直觉是错的。

机器学习优化

训练AI过滤噪声通常需要工程师手动调整一个数学上的「惩罚项」。

研究人员发明了一种能自动调整的新技术，但无法从数学上解释为什么有效。

Gemini分析了方程并证明了该方法的成功机理：它在运行过程中秘密生成了自己的「自适应惩罚」。

升级AI时代的经济理论

最近一个关于拍卖AI生成Token的「显示原理（Revelation Principle）」在数学上仅在投标被限制为有理数时才成立。

一旦将范围扩展到连续的实数，原始证明就失效了。Gemini利用先进的拓扑学和序理论扩展了该定理，使其能适应现实世界中连续的拍卖动态。

宇宙弦物理学

计算来自宇宙弦的引力辐射需要找到包含「奇点」的棘手积分的解析解。

Gemini利用「盖根鲍尔多项式」（Gegenbauer polynomials）找到了一个新颖的解法。这自然地吸收了奇点，将无限级数坍缩成了一个封闭形式的有限和。

这些成果横跨了从信息与复杂性理论到密码学和机制设计的各个领域，展示了AI正如何从根本上改变研究工作。

考虑到计算机科学领域那种流动性强、以会议为导向的发表机制，我们按学术轨迹而非僵化的分类法来描述这些成果。

以上大约一半的成果瞄准了顶级会议，其中一篇被ICLR ’26录用，剩下的大部分将在未来在期刊投稿。

无论是通过识别错误，还是反驳猜想来纠正领域方向，这些成果都凸显了AI作为高水平科学协作者的价值。

Gemini重塑科研，人类「倍增器」来了

基于谷歌此前的突破，这项工作表明，通用的基础模型，联动智能体推理工作流，可以成为强大的科学伙伴。

在数学家、物理学家和计算机科学家等专家的指导下，Gemini Deep Think模式正在那些以复杂数学、逻辑和推理为核心的领域证明其实用性。

我们正在见证科学工作流的根本性转变。

随着Gemini的进化，它正在成为人类智慧的「倍增器」，负责处理知识检索和严格验证等工作，让科学家能够专注于概念的深度和创新的方向。

无论是完善证明、寻找反例，还是连接看似不相关的领域，AI正在成为科学进步新篇章中不可或缺的协作者。

参考资料：

https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/

https://mathstodon.xyz/@tao/116053101218408010

来源:https://www.163.com/dy/article/KLIEEPGA0511ABV6.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：CIO警惕AI资源稀缺：云巨头万亿豪赌数据中心隐忧下一篇：专访李飞飞：AI未来前沿方向与空间智能深度解析

相关攻略

CVPR 2026北京论文分享会报名开启线下深度交流前沿视觉技术

AI

CVPR 2026北京论文分享会报名开启线下深度交流前沿视觉技术

2026年的AI圈，时钟仿佛被拨快了。技术迭代的浪潮一波未平，一波又起。尤其是进入四月以来，整个行业像是踩下了油门。Meta携Muse Spark高调回归，ChatGPT Images 2 0的生成效果在社交媒体上持续刷屏，而GPT-5 5的发布，再次将技术天花板向上推升了一个量级。视线转回国内，

热心网友

05.17

优化科技期刊评价体系提升自主创新能力

科技数码

优化科技期刊评价体系提升自主创新能力

当前，我国科技论文产出总量已稳居全球前列，但一个关键短板依然突出：本土高水平科技期刊的发展步伐，尚未与国家整体科研实力同步提升。数据显示，2024年中国学者发表的国际论文中，超过95%的成果首选境外期刊发表。这构成了一个循环挑战：大量优秀研究成果外流，使得国内期刊难以获得优质稿源来提升学术声誉；与此

热心网友

05.17

7月25日外媒科学网站摘要：科学家警告，人类正无意间向宇宙泄露“地球坐标”

科技数码

7月25日外媒科学网站摘要：科学家警告，人类正无意间向宇宙泄露“地球坐标”

《自然》：一桩悬案了结？ “砷基生命”论文终遭撤稿，但争议远未结束科学界一桩持续了15年的公案，最近有了新进展。顶级期刊《科学》（Science）正式撤回了那篇曾引发轰动的争议性论文——该研究当年声称，在美国加州莫诺湖发现的一种细菌，能够用有毒的砷元素替代生命必需的磷来构建DNA，这直接挑战了我们

热心网友

04.17

中国科协：2026年NeurIPS会议资助调整与学者参会指引

科技数码

中国科协：2026年NeurIPS会议资助调整与学者参会指引

中国科学技术协会2026年3月31日发布告示：中国科协曾于2026年3月27日就2026年NeurIPS会议发表声明，本意是尽力维护我国关涉学者正当利益，其措施原则是清晰、适当的，没有发生变化。现就

热心网友

03.31

康奈尔大学将离开全球最大论文预印本平台arXiv

科技数码

康奈尔大学将离开全球最大论文预印本平台arXiv

Cornell University 图源：wikipedia撰文｜张天如果有一天，全球科研人员突然无法访问arXiv，许多领域的研究节奏可能会被打乱。每天清晨刷新论文列表，已经成为部分数学家、物理

热心网友

03.31

热门专题

刀塔传奇破解版无限钻石下载大全

刀塔传奇破解版无限钻石下载大全 2025-08-05

洛克王国正式正版手游下载安装大全

洛克王国正式正版手游下载安装大全 2025-08-05

最新APP

宝宝过生日

宝宝过生日

应用辅助 04-07

台球世界

台球世界

体育竞技 04-07

解绳子

解绳子

休闲益智 04-07

骑兵冲突

骑兵冲突

棋牌策略 04-07

三国真龙传

三国真龙传

角色扮演 04-07

热门推荐

《Zero Parades: For Dead Spies》游戏评分与媒体评价汇总

游戏攻略

《Zero Parades: For Dead Spies》游戏评分与媒体评价汇总

《Zero Parades: For Dead Spies》的媒体评测已经解禁，结果相当亮眼。这款被许多人视为《极乐迪斯科》精神续作的作品，在OpenCritic上拿到了86分的媒体均分，在Metacritic上也有83分。游戏将于5月21日正式登陆PC平台，看来2026年的必玩叙事RPG名单上，又

热心网友

05.18

Excel多级分类汇总一句话快速完成

AI

Excel多级分类汇总一句话快速完成

目录你是否也遇到过这些问题处理效果前置准备超简单AI自动化解决方案第1步：准备好你的原始数据第2步：针对指定的文件下达指令第3步：验收还能解决这些同类问题指令为什么这么有用？更多场景直接抄作业销售数据三级汇总成本数据多级汇总库存数据汇总员工薪资汇总常见问题答疑核心价值

热心网友

05.18

Kimi K2.6 智能体功能深度解析与体验评测

AI

Kimi K2.6 智能体功能深度解析与体验评测

AI Agent 的发展，正迎来一个关键的转折点，从概念验证迈向真正的生产力交付。想象一下，当一个 AI 智能体能够在无需人工介入的情况下，独立完成一个复杂项目的全流程，并将成功经验固化为可随时调用的“技能”——这是否标志着 AI 在职场中的角色，已经从辅助工具演变为自主的生产力单元？随着 Op

热心网友

05.18

苹果WWDC26前瞻 iOS27新Siri界面交互升级预测

AI

苹果WWDC26前瞻 iOS27新Siri界面交互升级预测

彭博社的马克・古尔曼在最新报道中透露了一个有趣的发现：苹果为WWDC 26发布的宣传海报，其设计细节可能暗藏玄机，指向了即将在iOS 27中亮相的全新Siri交互界面。根据古尔曼的分析，新版Siri的核心变化在于与灵动岛的深度融合。唤醒时，它将不再以传统的全屏或底部卡片形式出现，而是会以一个扩展的

热心网友

05.18

GitHub刷星乱象调查 AI项目成虚假评分重灾区

AI

GitHub刷星乱象调查 AI项目成虚假评分重灾区

GitHub 的 Star 数量还值得信赖吗？真相可能比你想象的更严峻。开源社区中“购买 Star”的现象早已不是秘密，其便捷程度甚至超过点外卖，单价低廉且支持批量折扣。然而，卡内基梅隆大学（CMU）一项被 ICSE 2026 顶会收录的最新研究，首次系统性地揭示了这场“造假生意”的惊人规模：Gi

热心网友

05.18