首页 游戏 软件 资讯 排行榜 专题
首页
AI
陶哲轩推荐:11位顶尖数学家的未竟之作与关键突破

陶哲轩推荐:11位顶尖数学家的未竟之作与关键突破

热心网友
82
转载
2026-02-10

获陶哲轩转发,arXiv上的一篇新论文正在引起巨大关注!

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

挤进前排后发现,原来这是一项由11位全球顶尖数学家发起的AI实验——

让AI在规定期限内,解决他们各自在真实研究过程中产生的10道“研究级”难题,以此探索“AI+数学”的能力边界。

而且走的还是高斯时代的路子——人类先证明出来,但先不公布答案和过程,等到了合适时间再公开,避免AI偷偷看答案。

以前这是一项为保护数学家证明自己优先解决某道问题的做法,而在AI时代却有了新玩法。



在陶哲轩看来,这项实验非常有意思:

当前“一次性”AI提示似乎难以解决这些问题,但它们已被人类领域专家攻克。可以预见,配备AI工具的其他领域专家也能解决其中相当一部分。这些问题的技术门槛相当高,非领域专家难以验证AI生成的任何输出结果因此在我看来,要让非专家解决其中任何一个问题都极具挑战性——当然,意外惊喜也并非不可能。在截止期限前,这项实验能否产生任何显著成果,将十分值得关注。



好好好,既然老陶如此安利了,咱这就开扒完整实验过程(doge)。

解完10道数学题,然后…藏起证明过程

概括而言,通过提出一套名为First Proof的实验方案,这群数学家想做一件事——

检验当前AI系统,是否具备独立解决研究级数学问题的能力。



在这之前,虽然很多商用AI成了数学家手中的实用工具(如用于文献检索、代码编写、手稿校验等),但对于AI是否具备他们想验证的能力,学界始终缺乏相关清晰结论。

这背后一个很重要的原因,就是评测手段的缺失。

放眼市面上的数学AI基准,目前绝大多数都聚焦于竞赛题,此类题目虽然便于规模化测试,却与真实的数学研究存在本质差异(甚至可能存在数据污染问题)。

而数学家面对的真实情况往往是——

问题并非精确定义完成,解法也不存在明确模板,需要在大量试探、修正和结构性判断中逐步推进。

基于这样的背景,这群来自斯坦福、哥伦比亚、哈佛等高校及科研机构的数学家们齐聚一堂,设计了10道研究级数学问题,覆盖代数组合学、谱图论、代数拓扑、随机分析、辛几何等多个数学分支。

这里补充一下,一开始其实是20道题,不过按4个标准筛选后最终只留下了10道——AI能理解问题表述、无隐藏公开答案、作者同意按要求发布证明、每位团队成员仅贡献1道题。

完整10道题目指路论文以下位置:



论文表示,First Proof区别于现有基准的地方在于:

问题来自数学家当前研究中发现的真实疑问,答案为证明过程,需人类专家评分;问题全公开但答案无任何公开记录,供社区验证但不可重复使用,同时彻底消除数据污染;允许AI无限制使用网络搜索等外部资源,贴近真实研究场景。



划重点,这10道题均来自作者自身的研究过程,是未来发表成果中的小型核心引理,未在互联网、会议等任何公共渠道发布,从根源避免数据污染。

每道题的人类证明不超过5页(适配当前AI的技术限制),且加密发表于下面的这个 。



最终答案将于2026年2月13日公开,在此之前全球用户均可以用这10道题来测试他们想要考验的AI。

GPT和Gemini先来挑战一波

而在广发全球英雄帖之后,这群数学家也先自己测试了一波:

邀请GPT 5.2 Pro和Gemini 3 Deepthink,对10道题进行一次性作答测试。

他们明确表示,First Proof仅聚焦数学研究最后、也是最明确的阶段——

在问题表述和研究背景已经清晰给定的前提下,检验AI是否能够完成严谨的数学证明,而不评估AI提出研究问题、构建新理论框架或发明新定义的能力。

换言之,这是一场单纯的能力边界测试。在假设所有前期研究工作已经完成的情况下,看看AI能否独立走完“从命题到正确证明”的最后一公里。

而实验结果显示:

在当前公开可用的最佳AI系统,仅有一次作答机会的情况下,它们难以解答我们提出的多数问题

不过作者也预计,如果允许人类与AI反复对话、追问、引导,就很有可能让AI给出更好的答案。



再划重点,为了最大程度减少这一实验可能造成的数据污染问题,他们还有这样的举措:

我们关闭了用于训练和改进模型的数据共享选项,但我们知晓谷歌仍会保留数据3天,而OpenAI会保留30天。(即便如此)在整个过程中,我们始终尽力确保所提问题的答案保持私密。

未来,这群数学家也计划在数月内设计第二套问题集,并在实验设计上进一步收紧变量——

在与相关模型方达成明确协议的前提下,先让前沿AI系统完成测试,再统一公开问题与答案,从而将First Proof逐步发展为一个可复用、可比较的研究级数学能力基准。

在此基础上,实验设置也将逐步“去人工化”。例如,放宽当前对证明长度、表达形式等人为限制,引入来自不同数学分支的问题,使测试不再局限于某一类技术路径,而是覆盖更广泛的研究场景。

更进一步,作者也明确表示,长期目标并不只是评估AI在“解题”阶段的表现,而是逐步探索更高阶能力的评测方式,比如这次先忽略的提出新问题、构建新理论框架的能力。



不得不说,以上种种也符合陶哲轩一直以来对AI的判断——

未来的趋势不是AI代替数学家,而是讲求人机协作。

而First Proof的价值,也不在于给AI下一个“及格或不及格”的结论,而在于第一次用真实、未公开、研究级的问题,来试图界定AI当前所能触及的边界。

换言之,即使只完整解出一道题,也足以成为AI数学研究史上一个值得记录的节点。

就是这时间会不会有点太短了?(截止到2月13日)



论文:
https://arxiv.org/abs/2602.05192
答案加密地址:
https://1stproof.org/

来源:https://www.163.com/dy/article/KL8DR6A60511DSSR.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

7月25日外媒科学网站摘要:科学家警告,人类正无意间向宇宙泄露“地球坐标”
科技数码
7月25日外媒科学网站摘要:科学家警告,人类正无意间向宇宙泄露“地球坐标”

《自然》:一桩悬案了结? “砷基生命”论文终遭撤稿,但争议远未结束 科学界一桩持续了15年的公案,最近有了新进展。顶级期刊《科学》(Science)正式撤回了那篇曾引发轰动的争议性论文——该研究当年声称,在美国加州莫诺湖发现的一种细菌,能够用有毒的砷元素替代生命必需的磷来构建DNA,这直接挑战了我们

热心网友
04.17
科研产出占全球40%,顶刊数量却不足4%:中国学术期刊如何突围?
科技数码
科研产出占全球40%,顶刊数量却不足4%:中国学术期刊如何突围?

中国科研产出激增背后:学术出版话语权与经济成本的双重挑战 近期,在上海科学会堂举行的Insight Press(睿见出版)首批高质量学术期刊创刊仪式暨第十一期“好望角科学沙龙”上,科学家、出版机构负责人与期刊主编们齐聚一堂,共同探讨中国一流学术期刊的未来发展路径。当前,中国科学家正以前所未有的速度产

热心网友
04.16
中国科协:2026年NeurIPS会议资助调整与学者参会指引
科技数码
中国科协:2026年NeurIPS会议资助调整与学者参会指引

中国科学技术协会2026年3月31日发布告示:中国科协曾于2026年3月27日就2026年NeurIPS会议发表声明,本意是尽力维护我国关涉学者正当利益,其措施原则是清晰、适当的,没有发生变化。现就

热心网友
03.31
康奈尔大学将离开全球最大论文预印本平台arXiv
科技数码
康奈尔大学将离开全球最大论文预印本平台arXiv

Cornell University 图源:wikipedia撰文|张天如果有一天,全球科研人员突然无法访问arXiv,许多领域的研究节奏可能会被打乱。每天清晨刷新论文列表,已经成为部分数学家、物理

热心网友
03.31
中国科协重申新冠病毒源头结论:持续科学调查未发现变异
科技数码
中国科协重申新冠病毒源头结论:持续科学调查未发现变异

据微信公众号“中国科协之声”消息,3月31日,中国科学技术协会发布告示: 中国科协曾于2026年3月27日就2026年NeurIPS会议发表声明,本意是尽力维护我国关涉学者正当利益,其措施原则是清

热心网友
03.31

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Vue3 编译器如何处理插槽?优化 Block Tree 结构的 Slot 渲染指南
前端开发
Vue3 编译器如何处理插槽?优化 Block Tree 结构的 Slot 渲染指南

Vue3 插槽编译机制解析:从模板到函数参数的转换原理与优化实践 Vue3 编译器如何将插槽转换为函数参数 在 Vue3 的编译过程中,核心编译器(@vue compiler-core)会对模板进行深度解析。当遇到 标签时,会将其识别为一个特殊的“作用域插槽调用点”,而不是普通的 DOM 元素节点。

热心网友
04.18
方舟生存进化手游狮鹫驯化方法方舟生存进化手游狮鹫饲料配方与驯服技巧
游戏攻略
方舟生存进化手游狮鹫驯化方法方舟生存进化手游狮鹫饲料配方与驯服技巧

《方舟:生存进化》手游狮鹫驯服指南:从寻找到驯化的完整流程 在《方舟:生存进化》手游的广阔世界中,生存挑战无处不在。从最初的徒手求生到建立稳固的基地,每一步都需要精心的规划。进入游戏中期,一只强力的飞行坐骑能极大拓展你的生存边界——狮鹫,正是这样一位能够主宰天空、改变战局的顶级伙伴。然而,想要成功驯

热心网友
04.18
Deeto 通过AI放大真实客户声音,助力企业高效收集和利用客户反馈,实现可持续增长
AI
Deeto 通过AI放大真实客户声音,助力企业高效收集和利用客户反馈,实现可持续增长

Deeto产品介绍 在当今市场,客户的声音往往是最响亮却也最容易被浪费的资产。如何系统性地收集、管理并激活这些宝贵反馈,是摆在许多增长团队面前的一道难题。Deeto作为一款专注于放大客户声音价值的AI平台,提供了一套完整的解决方案,旨在帮助企业将零散的客户反馈转化为可驱动的业务增长引擎。 Deeto

热心网友
04.18
MySQL删除表时触发器如何处理_DROP TABLE触发逻辑说明
数据库
MySQL删除表时触发器如何处理_DROP TABLE触发逻辑说明

MySQL删除表时触发器如何处理_DROP TABLE触发逻辑说明 删除表时触发器自动级联删除,无需手动处理 在MySQL数据库中执行DROP TABLE语句时,数据库引擎会自动执行级联删除操作——不仅目标表被移除,所有关联在该表上的触发器也会被一并清理。这是MySQL内置的强制行为机制,而非可选功

热心网友
04.18
《红色沙漠》森林行者泰尔巴斯打法技巧-核心弱点与攻击策略解析
游戏攻略
《红色沙漠》森林行者泰尔巴斯打法技巧-核心弱点与攻击策略解析

《红色沙漠》森林行者泰尔巴斯全面攻略:高效打法与核心弱点解析 在开放世界冒险游戏《红色沙漠》中,森林行者泰尔巴斯是一位极具压迫感的特殊人型BOSS。其攻击模式大开大合,气势凶猛,但掌握正确策略后,玩家完全可以实现高效击杀。本文将为你详细解析泰尔巴斯的打法技巧与核心机制。 红色沙漠泰尔巴斯打法教学:弱

热心网友
04.18