陶哲轩推荐：11位顶尖数学家的未竟之作与关键突破

首页

热心网友

转载

2026-02-10

获陶哲轩转发，arXiv上的一篇新论文正在引起巨大关注！

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

挤进前排后发现，原来这是一项由11位全球顶尖数学家发起的AI实验——

让AI在规定期限内，解决他们各自在真实研究过程中产生的10道“研究级”难题，以此探索“AI+数学”的能力边界。

而且走的还是高斯时代的路子——人类先证明出来，但先不公布答案和过程，等到了合适时间再公开，避免AI偷偷看答案。

以前这是一项为保护数学家证明自己优先解决某道问题的做法，而在AI时代却有了新玩法。

在陶哲轩看来，这项实验非常有意思：

当前“一次性”AI提示似乎难以解决这些问题，但它们已被人类领域专家攻克。可以预见，配备AI工具的其他领域专家也能解决其中相当一部分。这些问题的技术门槛相当高，非领域专家难以验证AI生成的任何输出结果因此在我看来，要让非专家解决其中任何一个问题都极具挑战性——当然，意外惊喜也并非不可能。在截止期限前，这项实验能否产生任何显著成果，将十分值得关注。

好好好，既然老陶如此安利了，咱这就开扒完整实验过程（doge）。

解完10道数学题，然后…藏起证明过程

概括而言，通过提出一套名为First Proof的实验方案，这群数学家想做一件事——

检验当前AI系统，是否具备独立解决研究级数学问题的能力。

在这之前，虽然很多商用AI成了数学家手中的实用工具（如用于文献检索、代码编写、手稿校验等），但对于AI是否具备他们想验证的能力，学界始终缺乏相关清晰结论。

这背后一个很重要的原因，就是评测手段的缺失。

放眼市面上的数学AI基准，目前绝大多数都聚焦于竞赛题，此类题目虽然便于规模化测试，却与真实的数学研究存在本质差异（甚至可能存在数据污染问题）。

而数学家面对的真实情况往往是——

问题并非精确定义完成，解法也不存在明确模板，需要在大量试探、修正和结构性判断中逐步推进。

基于这样的背景，这群来自斯坦福、哥伦比亚、哈佛等高校及科研机构的数学家们齐聚一堂，设计了10道研究级数学问题，覆盖代数组合学、谱图论、代数拓扑、随机分析、辛几何等多个数学分支。

这里补充一下，一开始其实是20道题，不过按4个标准筛选后最终只留下了10道——AI能理解问题表述、无隐藏公开答案、作者同意按要求发布证明、每位团队成员仅贡献1道题。

完整10道题目指路论文以下位置：

论文表示，First Proof区别于现有基准的地方在于：

问题来自数学家当前研究中发现的真实疑问，答案为证明过程，需人类专家评分；问题全公开但答案无任何公开记录，供社区验证但不可重复使用，同时彻底消除数据污染；允许AI无限制使用网络搜索等外部资源，贴近真实研究场景。

划重点，这10道题均来自作者自身的研究过程，是未来发表成果中的小型核心引理，未在互联网、会议等任何公共渠道发布，从根源避免数据污染。

每道题的人类证明不超过5页（适配当前AI的技术限制），且加密发表于下面的这个。

最终答案将于2026年2月13日公开，在此之前全球用户均可以用这10道题来测试他们想要考验的AI。

GPT和Gemini先来挑战一波

而在广发全球英雄帖之后，这群数学家也先自己测试了一波：

邀请GPT 5.2 Pro和Gemini 3 Deepthink，对10道题进行一次性作答测试。

他们明确表示，First Proof仅聚焦数学研究最后、也是最明确的阶段——

在问题表述和研究背景已经清晰给定的前提下，检验AI是否能够完成严谨的数学证明，而不评估AI提出研究问题、构建新理论框架或发明新定义的能力。

换言之，这是一场单纯的能力边界测试。在假设所有前期研究工作已经完成的情况下，看看AI能否独立走完“从命题到正确证明”的最后一公里。

而实验结果显示：

在当前公开可用的最佳AI系统，仅有一次作答机会的情况下，它们难以解答我们提出的多数问题

不过作者也预计，如果允许人类与AI反复对话、追问、引导，就很有可能让AI给出更好的答案。

再划重点，为了最大程度减少这一实验可能造成的数据污染问题，他们还有这样的举措：

我们关闭了用于训练和改进模型的数据共享选项，但我们知晓谷歌仍会保留数据3天，而OpenAI会保留30天。（即便如此）在整个过程中，我们始终尽力确保所提问题的答案保持私密。

未来，这群数学家也计划在数月内设计第二套问题集，并在实验设计上进一步收紧变量——

在与相关模型方达成明确协议的前提下，先让前沿AI系统完成测试，再统一公开问题与答案，从而将First Proof逐步发展为一个可复用、可比较的研究级数学能力基准。

在此基础上，实验设置也将逐步“去人工化”。例如，放宽当前对证明长度、表达形式等人为限制，引入来自不同数学分支的问题，使测试不再局限于某一类技术路径，而是覆盖更广泛的研究场景。

更进一步，作者也明确表示，长期目标并不只是评估AI在“解题”阶段的表现，而是逐步探索更高阶能力的评测方式，比如这次先忽略的提出新问题、构建新理论框架的能力。

不得不说，以上种种也符合陶哲轩一直以来对AI的判断——

未来的趋势不是AI代替数学家，而是讲求人机协作。

而First Proof的价值，也不在于给AI下一个“及格或不及格”的结论，而在于第一次用真实、未公开、研究级的问题，来试图界定AI当前所能触及的边界。

换言之，即使只完整解出一道题，也足以成为AI数学研究史上一个值得记录的节点。

就是这时间会不会有点太短了？（截止到2月13日）

论文：
https://arxiv.org/abs/2602.05192
答案加密地址：
https://1stproof.org/

来源:https://www.163.com/dy/article/KL8DR6A60511DSSR.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：AI加速电池研发：50次循环预测寿命，效率提升新突破下一篇：Lovart充值四千元年费仅用10天被封号？解读AI平台退款争议

热门推荐

web3.0

山寨币与主流币的五大核心区别及投资策略

主流币与山寨币在市值、技术、共识和风险上差异显著。主流币市值巨大、流动性强，技术经过长期验证，拥有全球共识和明确应用场景，适合长期配置。山寨币则市值小、流动性差，技术基础薄弱且缺乏审计，共识脆弱且多依赖炒作，价格波动剧烈且归零风险高，属于高风险投机标的。

热心网友

05.12

web3.0

Bitget身份认证攻略：提升证件清晰度与缩短审核时间，快速通过验证

进行Bitget身份认证时，除了正确上传照片，证件本身的清晰度至关重要。模糊、反光或信息不全的图片会直接导致审核失败。此外，认证申请提交后的等待时间受平台审核队列、资料完整度及网络状况等多重因素影响，高峰期可能延长。建议用户确保在光线均匀环境下拍摄高清证件照，并耐心等待系统处理，以提升一次性通过率。

热心网友

05.12

web3.0

Bitget交易所下载全攻略：安卓、iOS与网页端详细安装教程

本文详细介绍了Bitget交易所在不同设备上的下载与访问方法。安卓用户可通过官方应用商店或APK文件安装，需注意权限设置。iPhone用户需切换至非中国大陆AppStore账户下载官方App。网页端则提供最直接的访问方式，无需安装，但务必核对网址安全性。文章还补充了常见问题与安全建议，帮助用户顺利完成平台使用前的准备工作。

热心网友

05.12

web3.0

Bitget新手教程：从注册到首笔交易完整指南

对于初次接触Bitget的新用户，从注册到完成第一笔交易，平台提供了一条清晰的操作路径。关键在于完成账户注册与安全设置，包括身份验证和资金密码。随后，通过法币入金通道为账户注入启动资金，并熟悉现货交易界面的基本操作。最后，在模拟交易中实践后，即可尝试小额真实交易，完成从入门到实操的完整闭环。

热心网友

05.12

web3.0

Bitget新手入门指南：掌握6个核心页面位置轻松上手交易

对于初次接触Bitget这类专业交易平台的新用户来说，感到无从下手是普遍现象。关键在于熟悉核心功能区的布局，特别是资产总览、现货交易、合约交易、资金划转、订单管理和个人设置这六个关键页面。掌握它们的位置和基本逻辑，就能快速理清平台操作脉络，大幅提升使用效率，避免在基础操作上耗费过多时间。

热心网友

05.12

陶哲轩推荐：11位顶尖数学家的未竟之作与关键突破

相关攻略

热门专题

最新APP

热门推荐