人工智能能否预测未来的科学发现

时间：2026-05-30 14:39

牛津大学等机构构建CUSP框架，用4760个科学里程碑测试AI预测能力。结果显示，现有AI系统在机制推理上表现较好，但在判断科学声明能否实现时准确率接近随机（45%-52%），且过度自信。预测失误随发现影响力增大而加剧，表明AI缺乏可靠的科学预见能力。

这项由牛津大学、斯坦福大学与艾伦人工智能研究所联合推进的研究，于2026年5月以预印本形式公开，编号为arXiv:2605.22681v1。研究团队构建了一套名为CUSP（Cutoff-conditioned Unseen Scientific Progress，即“截止日期条件下的未见科学进展”）的评估框架，系统性地检验了当前顶尖AI系统是否真正具备预测科学发展轨迹的能力。

科学界长久以来一直怀有一个迷人的期待：如果人工智能掌握了人类积累的全部知识，它能否像一位洞察力超凡的学者那样，提前预见下一个重大突破？毕竟，科学史上不乏可循的规律，例如半导体领域的摩尔定律——芯片上的晶体管数量大约每两年翻一番；深度学习领域的规模定律——模型规模越大、数据越多，性能表现就越出色。这些规律曾帮助工程师与研究者制定路线图、分配资源。如今，人们寄希望于AI系统，期待它们不再仅仅是知识的检索工具，而是能真正参与科学预见、成为人类智能的“协作伙伴”。

然而，这项研究通过4760个真实的科学里程碑事件告诉我们：现有AI系统在科学预测方面的表现，远未达到我们预期的水平。

一、研究者究竟测了什么

为了弄清AI是否真的能预测科学进展，研究团队精心设计了一套严格的考试体系，而非简单随意出题。他们收集的素材来源于《自然》《科学》《细胞》三大顶级学术期刊，以及Hugging Face、社区驱动的AI论文榜单，还包括GPQA Diamond、MMLU-Pro和“人类最后的考试”（Humanity's Last Exam）等知名AI能力排行榜。时间跨度从2024年1月到2026年3月，涵盖了生物学、人工智能、医学、神经科学、材料科学、物理学、环境科学、化学等九大领域。

核心思路是“时间封锁”：研究者为AI划定一条时间红线，仅允许它使用红线之前的知识，然后要求它预测红线之后发生的科学事件。这类似于让一位1990年代的科学家，仅凭当时的知识来预测2000年代会出现哪些重大发现。研究团队从每篇论文中剔除了所有可能泄露答案的线索——包括新提出的方法名称、模型缩写、系统代号——确保AI无法靠“认出答案”来蒙混过关。

最终，17429个结构化预测任务从4760个科学里程碑中生成，分布在五种考题类型中。第一种是“是否题”：判断某个具体的科学声明在指定日期前能否实现？例如，“到2025年5月，某种方法能否在特定条件下将某类化学反应的产率提升30%？”第二种是变体版“是否题”，将原始声明中的数字或条件稍作调整，变成一个“听起来合理但实际上并未实现”的陈述，考察AI是否能识别这种细微差别。第三种是四选一的机制推理题：在四个看似都合理的技术路线中，选出真正用于实现突破的那一个。第四种是开放性设计题：根据科学问题的背景，要求AI提出一套可行的解决方案。第五种是时间预测题：预测某个科学里程碑大约在哪个月份实现？

所有题目都经过了两轮严格的质量把关。首先由Grok-3这个独立的AI系统审核，确保每道题都忠实于原始论文、可客观验证、无信息泄露；随后由多所高校的研究生级别人类专家进行人工复核。研究者还测量了AI审核员与人类审核员的一致性，结果显示两者在“保留题目”方面的精确率非常高——这意味着这套质量把关体系是可靠的。

二、AI取得了怎样的成绩

研究团队测试了六款当前最先进的AI系统，包括OpenAI的GPT-5.4和GPT-4o、Anthropic的Claude Sonnet 4.5、Meta的LLaMA 3.3-70B、开放模式的GPT-OSS 20B，以及DeepSeek R1。这些模型代表了2024年底到2025年中期各个知识截止节点的AI系统。

机制推理题的成绩是六种题型中最好的。GPT-5.4以81.9%的准确率领跑，而随机猜测的概率仅为25%（四选一），因此所有模型都显著优于瞎猜。这表明AI确实具备一定的科学知识积累，能够在给定问题背景的情况下，从竞争性候选方案中识别出合理的技术路径。就像一个熟悉烹饪的厨师，即使不知道某道菜的具体食谱，也能在四种烹饪方法中猜出哪种更适合处理某种食材。

然而，一旦进入真正需要“预见未来”的环节，AI的表现就大打折扣了。在“是否题”上，所有模型的准确率都在45%到52%之间徘徊——而完全随机猜测的正确率是50%。换句话说，AI在判断一项科学声明是否会在指定日期前实现时，几乎与掷硬币无异。更耐人寻味的是，不同模型呈现出截然相反的答题偏见：LLaMA 3.3有强烈的“什么都说能实现”的倾向（在原题上答“是”的比例高达93%），而GPT-4o和GPT-OSS则有强烈的“什么都说不能实现”的倾向（在原题上答“是”的比例仅为19%左右）。这种偏见并非反映真实的科学判断，而是模型自身的系统性“脾性”。

时间预测题揭示了另一种有趣的错误模式。所有模型都系统性地将科学事件的发生时间向后推——也就是说，它们认为科学进展会比实际发生得更晚。平均预测误差在四到三十六个月之间，GPT-4o的中位误差高达26个月，而LLaMA 3.3相对较好，中位误差仅为4个月。值得注意的是，LLaMA 3.3在时间预测上排名第一，但这部分源于一个有趣的“意外”：它倾向于将大量预测集中锁定在2025年中期附近，形成了一个密集的“时间锚”，当真实事件恰好落在那段区间时，它的得分就会较高。从散点图上看，各模型的预测点呈现出横向的带状分布，而非沿对角线分布——理想的预测应是散点紧密分布在对角线附近，说明预测日期与真实日期接近。

开放性设计题的表现则展示了AI能力的一个独特裂缝。GPT-5.4的综合得分最高（5.04分，满分10分），通过率（得分≥5）达到60.3%，而其他所有模型的通过率均在20%以下。更有趣的细节在于：几乎所有模型的“技术具体性”得分都远高于“方向吻合度”得分，两者之间的差距高达1到3分。这意味着AI能够写出听起来非常专业、细节丰富的技术方案，但这些方案往往并非真正解决问题的路径。就像一个厨师写了一份详尽的菜谱，食材选择合理，步骤清晰，但做出来的菜与真正的目标料理相去甚远。这是一种“精确地跑偏”的能力。

三、AI在自己熟悉的领域与陌生领域表现有何不同

直觉上，我们会认为AI应该对它“见过”的事件表现更好，对“没见过”的事件表现更差。毕竟，一个人如果曾读过某篇论文，自然应对其内容更熟悉。

研究团队专门对此进行了验证。他们将所有测试事件分为两类：发生在各模型知识截止日期之前的“已知事件”，与发生在截止日期之后的“未知事件”。结果颇为出人意料——两类事件的得分差距非常小，在大多数题型上几乎没有显著区别。GPT-5.4在机制推理题上，已知事件得分0.830，未知事件得分0.792；在开放性设计题上，两者均为5.04分。Claude S4.5、DeepSeek R1等模型的情况类似。

这一发现打破了“AI表现差是因为不知道答案”的简单解释。如果问题只是知识盲区，那么对于已知事件应表现显著更好；但事实并非如此。这至少意味着两种可能：一是AI在训练时虽然“见过”这些事件，但并未真正将相关信息整合为可用于预测的知识；二是即便拥有完整知识，AI也缺乏将知识转化为可靠预测的能力。换句话说，知道发生了什么，并不等于能预测它会发生。

四、给AI更多信息是否有帮助

既然AI表现不佳，一个自然的问题就是：如果提供更多参考资料，结果是否会更好？

研究团队设计了一个受控实验，对500个测试事件进行了三种条件下的对比。第一种是让AI单独作答，不提供任何额外信息；第二种是给AI配备网络搜索工具，但限制只能搜索截止日期之前的内容（即历史知识增强）；第三种是允许AI进行无限制搜索，可获取包括目标事件在内的全部信息（即“开卷考试”）。

历史知识增强确实带来了明显的改善。对于GPT-4o，是否题的正确率从19.2%提升到47.6%，机制推理题从54.2%提升到58.9%，开放性设计题的平均分从3.28提升到3.72。这说明AI在基础模式下并未充分调用自身应有的历史知识，有相当一部分知识在回答此类问题时处于“休眠”状态。

但关键的发现是：即使提供了截止日期前的所有历史知识，AI在预测未来事件上仍然与“全知模式”（允许搜索目标事件本身）之间存在巨大差距。研究者将这个差距分解为两部分：一是“知识鸿沟”，代表历史知识增强带来的性能提升；二是“预测鸿沟”，代表在历史知识已充分的情况下，AI仍然无法追平全知模式的剩余差距。在时间预测任务上，GPT-5.4的预测鸿沟（0.436）远大于知识鸿沟（0.070）。这说明，预测能力的缺失无法用信息不足来完全解释，AI本身在“向前看”这件事上存在根本性的局限。

更有意思的是，这个预测鸿沟与科学发现的影响力密切相关。研究者按照论文被引用次数将测试事件分为四个档次，发现越是高影响力的突破性发现，AI的预测鸿沟越大。在GPT-5.4上，低引用量论文的预测鸿沟约为0.060，而高引用量论文的预测鸿沟飙升至0.875。也就是说，AI对那些真正改变领域走向的重大发现，预测能力最弱。这有点像说，AI能猜到下个月的小新闻，但对于改变历史进程的大事件，几乎猜不准。

五、AI在哪些科学领域表现更好，哪些领域更差

科学发现并非铁板一块，不同领域的研究节奏、方法体系、可预测性差异很大。研究结果也清晰地呈现出这种异质性。

在机制推理题上，环境科学（66.2%）、神经科学（65.8%）和物理学（62.1%）的准确率相对较高，而化学（49.8%）、材料科学（54.2%）和AI（54.3%）相对较低。这可能反映了不同领域的技术路线集中程度——物理学的实验手段相对固定，更容易从候选方案中识别正确路径；而化学合成路线千变万化，AI更难做出准确判断。

时间预测的领域差异最为突出。AI领域的时间预测得分（0.461）显著高于其他所有领域（通常在0.18到0.28之间）。这并不难理解：AI领域的进展高度依赖于可量化的指标，例如各类基准测试的成绩，且这些数据在互联网上公开更新、记录完整，模式更为规律。相比之下，生物学、化学和物理学的突破往往来自意想不到的实验发现，很难从历史趋势中推断时间节点。

在开放性设计题上，神经科学（4.11分）、生物学（4.05分）和AI（4.04分）表现最好，而化学（3.54分）、物理学（3.74分）和材料科学（3.80分）相对较弱。化学和物理学的低分反映了这两个领域高度专业化的特点，与AI训练数据中覆盖更广的普通知识之间存在较大差距。

有一个发现在所有领域都保持一致：是否题的正确率在任何领域都没有突破随机水平（46%到52%之间），甚至在AI领域也不例外。这意味着，无论在哪个科学领域，AI都无法可靠地判断一项具体的科学声明是否能在规定时间内实现。

六、AI对自己的预测有多自信，又有多准

自信和准确是两回事。医生可以自信地给出诊断，但自信并不等于正确。研究者专门测量了AI的“自信度”（stated confidence）与实际正确率之间的差距。

结果显示，几乎所有模型在所有题型上都系统性地过于自信。在是否题上，模型平均自信度比实际准确率高出约0.2分；在机制推理题上，高出幅度更大，DeepSeek R1甚至高出0.3分以上；在时间预测题上，GPT-4o的过度自信幅度高达0.6分。这种校准误差在统计学中用“期望校准误差”（ECE）来衡量，值越低越好，而大多数模型的ECE都在0.2以上，属于严重失准的范畴。

更微妙的发现是，这种过度自信的程度在知识截止日期前后呈现出不同的变化模式。在机制推理题上，几乎所有模型在面对截止日期之后的“未知”事件时，过度自信程度反而增加了——尽管准确率并未相应提升。这就好比一个学生考到自己没复习过的章节时，反而变得更自信了，这显然是一种危险的信号。相比之下，在时间预测题上，过度自信程度在截止日期之后明显下降，一些模型的过度自信值甚至转变为负数（即对自己的时间判断过于谦虚）。是否题的过度自信则没有一致的变化方向，在不同模型之间表现各异。

这些发现共同表明：AI并没有一套稳定、统一的不确定性感知机制。它的自信程度是“碎片化的”，在不同题型、不同时间范围之间呈现出不同的失准模式，而且这种失准并非简单地随“难度增加而变得更谦虚”，而是以复杂、不可预测的方式变化。

七、向未来发出的“时间胶囊”

研究团队还做了一件颇有趣味的事：他们构建了一组“时间胶囊”问题，即真实结果尚未揭晓、需要等待未来验证的预测题目。这些题目涵盖科学里程碑（如超导临界温度记录）、机构荣誉（如2026年诺贝尔物理学奖的颁奖方向）、量化指标（如2027年全球二氧化碳排放量）以及AI能力预测（如未来某个时间节点上Humanity's Last Exam的得分）。

在全球碳排放预测上，六款模型都认为2027年的排放量会高于2025年，但具体数值分歧明显。Claude S4.5、DeepSeek R1和GPT-4o的预测相对保守，接近历史趋势的延续；GPT-5.4的预测略高；LLaMA 3.3和GPT-OSS的预测最为激进，LLaMA 3.3给出了所有模型中最高的预测值。这说明不同AI系统内嵌了不同的“世界模型”——关于减碳速度、技术进步对能源结构影响的隐含判断各有不同。

在AI能力预测上，六款模型对GPQA Diamond和MMMLU这两个已经接近饱和的榜单都预测会进一步提升，但幅度普遍不大（1%到3%），暗示它们预期这些榜单很快就会被“考满”。对于Humanity's Last Exam这个更开放、更难的测试，预测分歧更大，GPT-5.4最为乐观，预测到2027年10月无工具版本的得分会从当前56.8%跃升至74%，有工具版本从64.7%升至82%；DeepSeek R1则更为保守，预测幅度较小。六款模型都预期AI能力会在2026到2027年间持续提升，这种一致性本身也很有意思——它反映了AI系统对自身领域未来走向的某种“共识”，尽管这种共识很可能来自对过去规律的外推，而非真正的洞察。

八、研究者如何保证这场考试是公平的

这套评测框架的可信度依赖于一系列严格的质量控制措施，值得单独介绍。

在题目生成阶段，研究团队使用GPT-4o将每篇论文摘要分解为三个结构化组件：问题陈述、技术路径和结果指标。在这个过程中，所有可能泄露答案的信息都被剔除——包括论文新提出的名词缩写、方法命名和系统名称。这确保了AI在答题时无法通过“认出”答案来得分。

题目质量由Grok-3进行独立审核（之所以用Grok-3而不是GPT-4o，是为了避免“自己出题自己打分”的偏差）。审核标准分为四类：忠实性（题目是否准确反映论文内容）、可验证性（结论是否可以客观判断是非）、扰动有效性（对于变体是否题，改动是否真正使陈述不再成立）以及干扰项质量（对于四选一题目，错误选项是否足够迷惑人而又不正确）。

研究者还招募了十位来自牛津大学、耶鲁大学、密歇根大学、芝加哥大学和香港中文大学深圳校区的研究生级别专家，在同样的标准下对题目进行人工审核，并与Grok-3的判断进行比对。结果显示AI审核员在保留高质量题目方面比人类更为严格，误伤有效题目的情况较少，而人类审核员在某些情况下对模糊边界的容忍度更高。总体而言，两者的一致性足够高，确认了自动化审核流程的可靠性。

开放性设计题的评分则采用了另一套机制：先由带有网络搜索能力的GPT-5.4 mini检查AI的回答是否包含截止日期之后才出现的信息（如果包含则视为泄题，该答案不计分），然后再从方向吻合度、技术具体性、新颖性、可行性四个维度分别打0到10分，取平均值作为最终得分。研究者还对这套评分系统进行了人机一致性验证，在60个例子上与三位CS博士评委的打分进行对比，皮尔逊相关系数为0.34（具有统计显著性），平均绝对误差为0.75分，AI评委略微偏宽松（平均高估0.26分），但总体上与人类判断有足够的相关性。

说到底，这项研究的结论可以用一个简单的比喻来概括：AI像一个知识渊博、博览群书的图书管理员，能够在你提问时迅速找到相关资料，甚至能在四个候选技术路径中识别出哪个最合理。但当你问它“这本书大概什么时候会出版”，或者“这项研究最终会不会成功”，它的回答与随机猜测几乎没有区别——而且它还会用非常自信的语气告诉你它的“猜测”。

这并不是AI的失败，而是对AI当前能力边界的精确描绘。预测科学进展不仅需要知识，还需要理解发现是如何在不确定性中诞生的，需要感知哪些研究方向正在蓄积能量，哪些看似可行实则已走入死胡同。这种能力，目前的大语言模型还远远没有掌握。

有一个细节特别值得记住：AI对高影响力的突破性发现预测最差，而对普通水准的研究预测相对较好。这意味着，AI系统的知识图谱虽然广博，但对于那些真正改变领域走向的“奇点时刻”，它的预测能力最弱——而这恰恰是科学预测中最有价值的部分。有兴趣深入了解这项研究的读者，可以通过arXiv编号2605.22681查阅完整论文。

Q&A

Q1：CUSP基准测试包含哪些类型的题目？

A：CUSP包含五种题目类型：判断某项科学声明能否在指定日期前实现的是否题、将原始声明微调后形成的变体是否题（正确答案为“否”）、从四个技术路径中选出真正实现突破的机制推理选择题、要求AI提出解决方案的开放性设计题，以及预测某个科学里程碑发生月份的时间预测题。

Q2：AI在科学预测中最大的问题是什么？

A：AI在科学预测中存在两大核心问题。第一是“是否判断”几乎等同于随机猜测，准确率在45%到52%之间，与掷硬币无异。第二是系统性过度自信，AI的自信程度远高于实际准确率，在时间预测上尤为严重，而且这种失准在截止日期前后呈现出复杂、不一致的变化模式，说明AI没有稳定可靠的不确定性感知机制。

Q3：为什么给AI更多历史知识也无法显著提升科学预测能力？

A：研究发现，即使为AI提供充分的历史知识，它在预测未来科学事件上仍与“全知模式”存在巨大的“预测鸿沟”。这说明预测能力的缺失不能用信息不足来解释——AI缺少的是将已有知识转化为可靠前瞻判断的能力。特别是对于高影响力的突破性发现，这个鸿沟最大，GPT-5.4在高引用论文上的预测鸿沟高达0.875。

来源：https://www.163.com/dy/article/KU4P2A3K0511DTVV.html

科学发现