AI攻克42年数学难题迈向通用人工智能新突破

时间：2026-05-18 22:49

一个困扰数学界长达42年的难题，被解开了。但解开它的，并非某个顶级研究所的团队，也不是一篇刚刚发表的重量级论文，而是一场持续三天、总计约12小时的人机对话。 2026年4月，OpenAI高级研究员Ernest Ryu在一场播客访谈中回顾了这段经历。他与ChatGPT反复交流，不断指出模型推理中的错

一个困扰数学界长达42年的难题，被解开了。

但解开它的，并非某个顶级研究所的团队，也不是一篇刚刚发表的重量级论文，而是一场持续三天、总计约12小时的人机对话。

2026年4月，OpenAI高级研究员Ernest Ryu在一场播客访谈中回顾了这段经历。他与ChatGPT反复交流，不断指出模型推理中的错误并调整方向，一步步逼近最终结论。那道关于经典优化算法收敛性的开放问题，在过去四十多年里始终悬而未决。直到一个完整的证明在对话中浮现。Ryu亲自验证了一遍，又让模型复核了一遍，结果完全正确。

“如果没有这些工具，我可能需要三个月，甚至更久。”他坦言。

同场对话中，另一位研究员Sébastien Bubeck也分享了观察：模型在国际数学奥林匹克竞赛中已达到顶尖水平，在部分研究级问题上也开始提供实质性帮助。更关键的是，它甚至能将散落在不同领域的既有成果串联起来，走出前人未曾走通的路径。

AI的能力边界，正在被实实在在地向前推进。这无疑是AGI进程中一个值得认真对待的信号。

第一节｜从工具到参与者

要理解这件事的意义，不妨先建立一个参照系。

就在2025年初，模型还难以可靠完成一些听起来极其简单的任务：比如，三个人野营后有一堆消费明细，帮忙算算每人该付多少；或者，为三个不同时区的人找一个合适的Zoom会议时间。

然而，就在同一年，一个数学界42年的开放问题，在12小时的人机对话中被解决了。

如此巨大的跨度，仅用“模型变聪明了”显然无法解释。事实上，大约一年半前，Sébastien Bubeck曾参加一场学术辩论，主题是“扩展大语言模型能否帮助解决重大数学开放问题”。开场投票时，80%的与会者认为“不可能”。辩论结束后，这个比例变成了五五开。而仅仅八个月后，模型就已经开始处理研究级别的数学问题了。

这个过程，早已超越了简单的问答。模型没有一次性给出答案，也没有沿着一条笔直稳定的路径推进。整个进程是来回往复的：提出思路，展开推理，发现漏洞，调整路径，再次追问，继续延展。

这，恰恰更接近真实的研究状态。

过去的模型，即便能解决复杂问题，本质上仍停留在“输出结果”的层面。而现在，它开始进入“过程”本身。研究的推进方式，是在反复试探中逐步逼近，而非从问题直接跳到答案。一旦模型能够参与这个过程，它的角色就从“工具”转变为了“参与者”。

与此同时，当研究团队尝试用模型处理一批长期未解的数学问题时，还发现了一个有趣的现象：有些问题的答案，其实早已隐藏在不同领域的既有成果中，只是从未被联系起来。模型通过大规模检索和推理，在庞杂的知识网络中找到可用线索并建立连接，新的结果才得以浮现。

正因如此，这个案例绝不仅仅是一次成功的解题。它标志着一个更根本的转变：AI正式走入了真实、动态的研究流程。

第二节｜思考更久，才是真突破

如果仅仅将其理解为模型能力的单点爆发，很容易得出一个片面结论：这源于某一次突然的技术跃迁。但Sébastien Bubeck在访谈中的解释恰恰相反——没有哪一个单一因素能解释这一切，这种变化是多种能力在同一时期叠加后集中显现的结果。

而在所有这些能力中，最核心的突破在于：模型开始能够进行更长时间的持续性推理，并在此过程中保持思路的连贯与一致。

这一点为何如此关键？数学乃至更广泛的科学研究，难点往往不在于某一个具体的计算步骤，而在于整条推导链能否自始至终逻辑严密。只要中间出现一个细微的偏差，后续所有构建都可能失去意义。这就要求推理者能在很长一段时间内，持续地进行自我检查和修正，光会向前推进是远远不够的。过去的模型在短链条推理上表现尚可，但一旦链条拉长，就容易偏离主题或陷入循环，很难在复杂任务中持续推进。

要体会这个跨度有多大，可以回溯到四年前。2024年前后，谷歌发布了专门针对数学的模型Minerva。Sébastien Bubeck回忆说，他当时激动得差点从椅子上跳起来，而原因仅仅是：给模型几个平面点的坐标，它能正确地画出一条穿过这些点的直线。

如今，科技行业内部正在逐渐形成一个新衡量尺度：“AGI时间”。它衡量的不再是模型瞬间有多“聪明”，而是它能连续、专注地“思考”多久。从最早只能处理几秒钟的简单问答，到可以维持数分钟的推理，再到如今能够围绕一个难题展开数小时甚至数天的探索性对话。

Ernest Ryu在访谈中用Codex做了一个类比。Codex能够在很长的工作周期内处理庞大的代码仓库，通过不断压缩和整理对话记录，在持续的交互中推进复杂编程任务。Ryu认为，数学研究正在走上同样的道路：数学笔记相当于代码仓库，推理过程则相当于长周期的工作会话。模型无需在单次对话中完成全部推导，它可以像人类研究者一样，今天推进一部分，整理成笔记，下周接着来，最终将数月思考浓缩为一篇论文。

顺着这个逻辑展望，如果模型能在更长的周期——比如几周甚至更久——内保持推理的稳定性，那么它所能处理的问题类型将发生质变。许多需要长期酝酿、反复推敲的研究任务，也将逐渐进入它的能力范围。

所谓更接近AGI，或许并不需要等待某个突然降临的奇点。更现实的路径，正是“思考时间”的持续延长：从短暂的条件反射，到持续的推理分析，再到接近人类研究节奏的长期、深度思考。

决定AI能力边界的，不只是它能“做什么”，更是这种能力能“维持多久”。

第三节｜科学，正在被重新组织

数学，只是AI这种新型能力最早产生深刻影响的领域之一。真正需要关注的，是这种能力一旦普及，将如何重塑整个科学的工作方式。

第一个层面，是知识的验证方式。Bubeck的团队测试过大量已发表的数学论文，发现其中存在相当数量的错误，有些是细微瑕疵，有些则是根本性的逻辑漏洞。过去，一篇长达300页的证明从发表到被学界全面核实，往往需要数年时间，期间整个领域可能已经在某个错误结论的基础上继续前行了。现在，AI有望大幅压缩这个检验周期。既有知识体系的可靠性，正在被重新梳理。

第二个层面，是研究的起点。模型开始不只是回答问题，也学会了提出有价值的问题。访谈中提到，他们内部的模型已经能够生成高质量的研究假设，其质量甚至让人类研究者认为“这个方向值得专门写一篇论文去探讨”。当“提出问题”这个最源头的环节也能被AI深度辅助时，研究者需要保留的核心能力，就变成了判断哪些问题值得追逐，能否在关键节点做出明智的取舍，以及识别哪个方向才具备真正的突破潜力。这些，恰恰是模型目前最难替代的部分。

当然，这种重构并不会自动带来更好的研究成果。过度依赖模型，反而可能让研究者只停留在理解结果的表层，失去深入推导、把握本质的能力。工具越强大，对使用者判断力的要求就越高。

长期来看，科学研究正在经历一次深刻的分工调整。重复性的推导、验证与信息整合工作，AI可以承担得越来越多；而判断“做什么”、“往哪里去”的战略决策部分，其重要性反而在急剧提升。研究者的核心价值，正从“执行”转向“决策”。

历史总是相似的。计算机诞生时，曾有人预言数学界将不再有难题。结果呢？计算本身开辟了全新的研究领域，待解的难题只增不减。如今的逻辑如出一辙：工具越强大，值得追问的深层次问题就越多，而能提出好问题的人，反而越显稀缺。

这种变化绝不会止步于数学。材料科学、生物医学、理论物理……所有依赖大量逻辑推理和交叉验证的学科，只要问题具备相对清晰的结构，AI都将逐步深入参与其中。

AI加速的，是科学发现的节奏。未曾改变的，是科学始终需要人类来定义方向这件事本身。

结语｜方向，仍然在人

42年没有答案的问题，在12小时里浮现出曙光。但这绝非终点，它只是一个清晰的新起点。

真正拉近距离的，是模型开始能在更长时间里维持连贯、严谨的推理，从而真正“进入”了研究过程本身。这一点，比任何单次的、炫目的突破都更值得关注。

当工具替代了越来越多的常规执行，剩下的核心问题便愈发清晰：你能不能看懂它给出的结果？你有没有能力提出下一个更好的、真正重要的问题？

思考正在被加速，但选择的方向盘，仍然握在人的手中。

来源：https://36kr.com/p/3787151983664384

上一篇韶音2026 Shokz Day落幕：随我动听开启全场景声态新纪元 下一篇张雪机车捷克站双冠加冕德比斯积分榜跃居次席

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。