首页 游戏 软件 资讯 排行榜 专题
首页
AI
谷歌Gemini连发6篇顶会数学论文,以91.9%精准度刷新SOTA纪录

谷歌Gemini连发6篇顶会数学论文,以91.9%精准度刷新SOTA纪录

热心网友
83
转载
2026-02-12


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

新智元报道

编辑:桃子 好困

【新智元导读】今天,谷歌DeepMind「AI数学家」Aletheia彻底杀疯了,攻克数学猜想,独立写论文。更令人震惊的是,拿下金牌的Gemini一举横扫18大核心科研难题。

下一个诺奖得主,Gemini提前预定了!

谷歌DeepMind再次向全球科研圈扔出炸弹,一口气放出两篇重磅论文——

Gemini Deep Think成为「科研合伙人」,连破数学、物理和计算机科学领域研究级难题。


以前,AI可以拿下IMO、ICPC国际大赛金牌,已经很牛了....

这一次,Gemini彻底开挂,真正搞起了科研!

谷歌打造了一款基于Gemini「AI数学家」,代号Aletheia。它在博士级难题上,取得了多项科研里程碑。

其中包括,独立撰写发表学术几何论文,还对「Erdős猜想」数据库中700个开放问题,完成系统性评估。

在IMO-ProofBench基准测试中,Aletheia一骑绝尘,拿下91.9%的成绩刷爆SOTA。


更具颠覆性的,它具备了人类最核心的技能:自我纠错,还会主动承认自身无法解决的问题。

所谓的千禧年大奖难题,或许离逐一破解的那天也不远了。


不仅如此,在物理学和计算机科学,Gemini Deep Think联手专家,攻克了18个长期停滞的研究难题。

涵盖了终结十年子模优化猜想、突破离散算法瓶颈、机器学习与组合优化、信息论与经济学等,斐然的成绩足以载入史册。


此时此刻,人类的科研工作流正在酝酿着一场颠覆性的变革。

Gemini加速进化正以一种近乎「降维打击」的方式,在多个科研领域暴力破局。



谷歌「AI数学家」Aletheia重磅出世

干翻博士级难题

2025年夏天,Gemini Deep Think(高级版)首次拿下了IMO金牌,紧接着,在ICPC大赛中一举夺冠。

如今,Gemini彻底跨越了竞赛门槛,正式攻入人类智慧的「深水区」。

与IMO级的竞赛难度不同,研究级数学问题需要,从浩如烟海的文献中调用「高级技术」。

虽然「基础模型」(FM)知识渊博,但缺少专业数据,难免在处理高级学科时往往会理解不到位,甚至产生「幻觉」。

为此,谷歌DeepMind内部构建了一个数学研究AI智能体——Aletheia,背靠强大的Gemini Deep Think。


论文地址:https://github.com/google-deepmind/superhuman/blob/main/aletheia/Aletheia.pdf

在古希腊语中,Aletheia代表着「真理」。

它做到了在自然语言中「端到端」迭代生成、验证和修改解决方案。


具体来说,Aletheia自带一个「自然语言验证器」,能挑出候选方案中的毛病,并实现「生成-修改」的迭代过程。

最关键的是,它能承认自己解不出来,这一特性大大提高了研究人员的效率。


Aletheia概览:这是一个由Deep Think驱动的数学研究AI智能体,能够针对研究级数学问题进行迭代式的生成、验证和修正

总言之,驱动Aletheia的三大核心技术支柱是:

Gemini Deep Think高级版:专门用来死磕那些极难的推理题;

新颖的推理时Scaling Law:它的能力跨度极大,上能搞定奥数级难题,下能应付博士级的专业练习;

强大的工具调用能力:深度集成Google搜索和网页浏览,以此攻克数学研究中老大难问题, 瞎编参考文献、计算不准的情况几乎不存在。

自2025年7月达到IMO金牌水准以来,Gemini Deep Think进步谓之神速。

随着推理时计算量(inference-time compute)的增加,它在IMO-ProofBench高级测试中的得分高达90%。

谷歌DeepMind证明了,即便从奥赛级别跨越到博士级练习题(根据内部FutureMath Basic基准),Scaling Law依然有效。

值得注意的是,Aletheia即便用更少推理算力,也能实现更高的推理质量。



截至2026年1月,Deep Think的最新进阶版在奥赛级题目上的表现已大幅超越IMO金牌版本(2025年7月)。推理时的Scaling Law同样适用于博士级练习题。Aletheia在推理质量上实现了进一步的飞跃,且推理时的计算量更低。所有结果均由人类专家评分

首批6篇论文,AI手搓一篇,3篇已发表

在研究级数学的实战中,Aletheia的实力可不是闹着玩的,已取得了许多令人瞩目的「自主突破」。

在Aletheia完成的首批六篇论文中,一共包括以下几类——

独立完成,0人类

论文「

Eigenweights for arithmetic Hirzebruch Proportionality
」完全由Aletheia生成,没有任何人工干预。


它计算了算术几何中被称为「特征权重」(eigenweights)的某些结构常数。


论文地址:https://arxiv.org/abs/2601.23245

人类与AI协作

论文「

Lower bounds for multivariate independence polynomials and their generalisations
」是由人类与Aletheia协作完成,共同证明了相互作用粒子系统(称为独立集)的界限。


论文地址:https://arxiv.org/abs/2602.02450

大规模半自主评估,攻克Erdős猜想难题

论文「

Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erdős Problems
」针对 Bloom的「Erdős猜想」数据库中的700个开放问题进行了评估,并自主解决了其中列出的四个未解之谜。

在Erdős-1051问题上,模型给出了自主解答,并推动了另一篇研究「

Irrationality of rapidly converging series: a problem of Erdős and Graham
」中报告的推广性成果。


论文地址:https://arxiv.org/abs/2601.22401


论文地址:https://arxiv.org/abs/2601.21442

此外,Aletheia还在如下另外两篇论文中,贡献了中间命题。


论文地址:https://arxiv.org/abs/2601.18557


论文地址:https://arxiv.org/abs/2601.23229

值得一提的是,之前也有Gemini进行研究级数学探索的工作,但在合作规模和解决问题的数量上都相对较小。

此外,谷歌DeepMind还建立了一个分类法,根据重要性和AI贡献程度对「AI辅助数学研究」进行分级——

下表中,已被列为第2级(可发表质量)的成果已提交给知名期刊。

目前,谷歌尚未通过Gemini获得任何第3级(重大进展)或第4级(里程碑式突破)的成果。


本研究涵盖的所有AI辅助数学成果的分类表。表中列为第2级的成果已投稿发表

终结十年猜想,攻克18大研究难题

除了在数学方面大展身手,Gemini Deep Think在计算机科学和物理学领域,也表现出了巨大的潜力。

论文「

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques
」建立在类似的智能体推理思路之上,并总结出了高效合作的「秘籍」,特别是「顾问」(Advisor)模式:

即人类通过迭代的「直觉验证」(Vibe-Proving)循环来引导 AI,以验证直觉并完善证明。


论文地址:https://arxiv.org/abs/2602.03837

此外,谷歌还详细介绍了一些战术技巧,比如「平衡提示词」(balanced prompting)。

——要求AI同时尝试证明或反驳以防止确认偏误,以及代码辅助验证。

这些方法,结合模型通过深层结构连接跨越不同科学领域的能力,正在改变理论研究的开展方式。

这项工作,是建立在成功部署Gemini Deep Think进阶版协助审查STOC’26会议CS理论论文的基础之上的。


AI推理流程示意图:展示了网络层如何对解题空间进行广泛探索,然后收敛为结构化的推理,并最终通过自动化验证与人工审核进行确认

通过与专家合作攻克18个研究难题,Gemini Deep Think进阶版帮助打破了算法、机器学习、组合优化、信息论以及经济学领域长期存在的瓶颈。

ICLR 2026已录用

论文「

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques
」中的亮点包括:

跨越数学边界解决网络谜题

像「最大割(Max-Cut)」(高效分割网络)和「施泰纳树(Steiner Tree)」(连接高维点)这类经典计算机科学问题的进展一度停滞。

Gemini通过打破「思维定势」破解了这两个僵局。

它从完全不相关的连续数学分支中搬来了高深工具——比如Kirszbraun定理、测度论和Stone-Weierstrass定理——成功解决了这些离散算法谜题。


终结在线子模优化领域十年的猜想

2015年的一篇理论论文为数据流提出了一个看似显而易见的规则:复制一个新到达的项目永远比简单地移动原始项目价值低。专家们花了十年时间试图证明这一点。

Gemini设计了一个极其刁钻的「三项目组合反例」,严格证明了这一长期以来的人类直觉是错的。

机器学习优化

训练AI过滤噪声通常需要工程师手动调整一个数学上的「惩罚项」。

研究人员发明了一种能自动调整的新技术,但无法从数学上解释为什么有效。

Gemini分析了方程并证明了该方法的成功机理:它在运行过程中秘密生成了自己的「自适应惩罚」。

升级AI时代的经济理论

最近一个关于拍卖AI生成Token的「显示原理(Revelation Principle)」在数学上仅在投标被限制为有理数时才成立。

一旦将范围扩展到连续的实数,原始证明就失效了。Gemini利用先进的拓扑学和序理论扩展了该定理,使其能适应现实世界中连续的拍卖动态。

宇宙弦物理学

计算来自宇宙弦的引力辐射需要找到包含「奇点」的棘手积分的解析解。

Gemini利用「盖根鲍尔多项式」(Gegenbauer polynomials)找到了一个新颖的解法。这自然地吸收了奇点,将无限级数坍缩成了一个封闭形式的有限和。


这些成果横跨了从信息与复杂性理论到密码学和机制设计的各个领域,展示了AI正如何从根本上改变研究工作。

考虑到计算机科学领域那种流动性强、以会议为导向的发表机制,我们按学术轨迹而非僵化的分类法来描述这些成果。

以上大约一半的成果瞄准了顶级会议,其中一篇被ICLR ’26录用,剩下的大部分将在未来在期刊投稿。

无论是通过识别错误,还是反驳猜想来纠正领域方向,这些成果都凸显了AI作为高水平科学协作者的价值。

Gemini重塑科研,人类「倍增器」来了

基于谷歌此前的突破,这项工作表明,通用的基础模型,联动智能体推理工作流,可以成为强大的科学伙伴。

在数学家、物理学家和计算机科学家等专家的指导下,Gemini Deep Think模式正在那些以复杂数学、逻辑和推理为核心的领域证明其实用性。


我们正在见证科学工作流的根本性转变。

随着Gemini的进化,它正在成为人类智慧的「倍增器」,负责处理知识检索和严格验证等工作,让科学家能够专注于概念的深度和创新的方向。

无论是完善证明、寻找反例,还是连接看似不相关的领域,AI正在成为科学进步新篇章中不可或缺的协作者。

参考资料:

https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/

https://mathstodon.xyz/@tao/116053101218408010


来源:https://www.163.com/dy/article/KLIEEPGA0511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

谷歌内存论文疑被抄袭,华人学者控诉业内学术不公
AI
谷歌内存论文疑被抄袭,华人学者控诉业内学术不公

新智元报道编辑:好困 Aeneas【新智元导读】把闪存股一夜干崩的谷歌顶会论文,出大事了。TurboQuant的核心方法,两年前就被一位华人学者做完、发完顶会、代码全部开源了。谷歌不仅没正面提及,而

热心网友
03.28
叫停高收费OA期刊,抵制NeurIPS:中国科技界应有的姿态
科技数码
叫停高收费OA期刊,抵制NeurIPS:中国科技界应有的姿态

近来,两起涉及科学研究领域的相关工作要求,引发了广泛关注。中科院发布声明称,自3月1日起,中国科学院将停止使用科研经费和中央财政拨款支付30种国际高收费开放获取(OA)期刊的论文发表费用;中国科学技

热心网友
03.28
刚刚NeurIPS退稿?了解审稿趋势与避坑指南
AI
刚刚NeurIPS退稿?了解审稿趋势与避坑指南

机器之心编辑部就在刚刚,正在舆论风口上左摇右摆的 AI 顶会 NeurIPS 发布了一条长推文,针对此前的「NeurIPS 限制华为等实体机构投稿」事件做了解释、道歉、承诺三件事:解释:在编制 Ne

热心网友
03.28
中国学界拉黑后,这家AI顶会为何公开道歉?
科技数码
中国学界拉黑后,这家AI顶会为何公开道歉?

在中国科学技术协会、中国计算机学会、中国自动化学会相继发布声明宣布“抵制”后,人工智能学术会议NeurIPS低头道歉。 3月27日,NeurIPS通过社交平台“X”发布了一份声明,就征稿指南中的不

热心网友
03.28
中国科协正面回应“拉黑”近千计算机会员事件,禁引行业众怒
科技数码
中国科协正面回应“拉黑”近千计算机会员事件,禁引行业众怒

今天,中国科协发布的一条声明引起广泛关注:“自2026年3月27日起,中国科协停止受理学者参加2026年NeurIPS会议资助申请,同时,有关申请全部转至国内相应学术会议资助或者面向尊重中国学者权益

热心网友
03.27

最新APP

暗黑之地
暗黑之地
角色扮演 03-28
你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26
儿童画画
儿童画画
休闲益智 03-25
疯狂猜词
疯狂猜词
休闲益智 03-25

热门推荐

抖音国际版电脑端使用指南:TikTok官网在线访问方法
电脑教程
抖音国际版电脑端使用指南:TikTok官网在线访问方法

抖音国际版电脑版可通过正式tiktok com在线使用,支持网页端高清浏览、多方式登录、智能搜索、创作者发布及跨端同步等功能。抖音国际版电脑版怎么用?TikTok游戏在线访问入口在

热心网友
03.28
OPPO Find N6折叠旗舰热销,三天销量超5.64万登顶榜单
科技数码
OPPO Find N6折叠旗舰热销,三天销量超5.64万登顶榜单

OPPO Find N6 自3月20日开售以来,首销三天销量即突破5 64万台,仅凭借三天销售,进入当周( 2026 年第 12 周)中国市场手机激活量Top 30,也是榜单中唯一的折叠屏手机。业内

热心网友
03.28
驱动人生备份保存指南:关键文件存放位置与技巧
手机教程
驱动人生备份保存指南:关键文件存放位置与技巧

在电脑的使用过程中,驱动程序起着至关重要的作用。而驱动人生作为一款常用的驱动管理软件,它所备份的驱动位置对于很多用户来说是一个关心的问题。当我们使用驱动人生完成驱动备份后,其默认的

热心网友
03.28
崩坏星穹铁道4.1混沌回忆满星攻略:超强机翁组队思路
游戏攻略
崩坏星穹铁道4.1混沌回忆满星攻略:超强机翁组队思路

崩坏星穹铁道超级机铠星探成就怎么达成?超级机铠星探是4 1版本新增成就之一,玩家们需要前往指定的区域寻找四位机铠,并进行互动即可,下面小编就为大家带来《崩坏:星穹铁道》4 1版本超

热心网友
03.28
《白日提灯》首播:剧本、演技遭差评,迪丽热巴表现不足引热议
娱乐
《白日提灯》首播:剧本、演技遭差评,迪丽热巴表现不足引热议

3月28日,电视剧《白日提灯》在腾讯视频多集上线,正式首播。这部电视剧由陈飞宇、迪丽热巴等演员主演,讲的则是架空的古装世界当中,男将军和女鬼王之间的爱情故事。基于目前上线的剧情内容来论,该剧叙事主线

热心网友
03.28