加州大学圣地亚哥分校联合研究揭示AI科学家自主科研能力FIREBENCH评估给出答案_AI热点日报

这项由加州大学圣地亚哥分校主导，联合约翰霍普金斯大学、康奈尔大学、MBZUAI及卡内基梅隆大学等全球顶尖科研机构共同完成的重磅研究，于2026年2月在预印本平台arXiv上正式发布（论文编号：2602 02905v1）。研究团队创新性地构建了一个名为FIRE-BENCH（全周期洞察重发现评估）的基准

这项由加州大学圣地亚哥分校主导，联合约翰霍普金斯大学、康奈尔大学、MBZUAI及卡内基梅隆大学等全球顶尖科研机构共同完成的重磅研究，于2026年2月在预印本平台arXiv上正式发布（论文编号：2602.02905v1）。研究团队创新性地构建了一个名为FIRE-BENCH（全周期洞察重发现评估）的基准测试平台，其核心目标直指人工智能领域的前沿议题：如何准确评估AI研究助手是否具备像人类科学家一样，独立完成从提出假设到验证结论的完整科学发现闭环能力。

加州大学圣地亚哥分校联合多所顶尖学府：AI科学家现在能独立做研究吗？FIRE-BENCH给出答案

科学探索的本质，是一场对未知世界的系统性解谜。传统科研流程要求研究者观察现象、构建假设、设计实验、分析数据并最终形成理论，每一步都深度融合了创造性思维与严谨的逻辑推理。随着大语言模型技术的迅猛发展，AI系统在文献综述、假设生成、代码编写与数据分析等多个科研子任务中展现出惊人潜力。这自然引发了一个关键疑问：当前的人工智能，是否已经准备好独立承担起驱动科学发现的重任？

然而，评估AI的独立科研能力面临一个根本性困境。若让AI探索一个全然未知的科学前沿，其结论的正确性难以验证，因为验证过程本身可能就需要耗费数年。反之，若仅让AI在狭窄、定义明确的任务上优化指标，这种评估又过于局限，无法真实反映其驾驭复杂、开放式科研流程的综合能力。

为破解这一评估难题，研究团队提出了一个巧妙的解决方案：让AI系统去“重新发现”那些已被人类科学界广泛验证的重要结论。这类似于让一位侦探，在不告知案件真相与细节的前提下，仅凭初始线索去独立复盘一桩已告破的经典案件。如果AI能够通过自主的推理与实验，最终得出与既定科学发现一致的结论，那么这将成为证明其具备独立科研潜力的有力证据。

基于此理念，团队从2024至2025年的ICLR、ICML和NeurIPS等顶级机器学习会议中，精心筛选了30篇聚焦于大语言模型行为与特性研究的高质量实证论文。研究人员将每篇论文抽象为一个独立的“科研挑战”：仅向AI提供一个高度概括的研究问题，而将具体的实验设计、方法细节乃至最终结论全部隐藏。

整个评估过程设计为一场严格的“双盲测试”。AI需要从一个抽象问题出发，自主完成包括实验方案构思、代码实现、实验执行、数据分析直至形成有证据支撑的科学结论的全过程。随后，评估者会将AI的结论与原始论文的发现进行逐项比对，采用基于声明的量化评分方法，计算出其精确度、召回率及综合F1分数。

测试涵盖了四个当前最先进的AI研究助手，包括开源的OpenHands系统（分别以GPT-4-mini和GPT-5为后端模型），以及两个商业系统：OpenAI的Codex（基于GPT-5-medium）和Anthropic的Claude Code（基于Claude-4-Sonnet）。所有系统均在统一的计算资源与数据访问权限下运行，确保了评估的公平性与可比性。

一、AI科学家的真实水平：结果揭示显著差距

测试结果清晰地标定了当前AI系统在独立科研道路上的实际位置。即便是表现最佳的Claude Code系统，其平均综合F1得分也仅为46.7分（满分100分）。其他系统的得分分别为：Codex 41.9分，基于GPT-5的OpenHands 37.9分，基于GPT-4-mini的OpenHands 31.9分。这一分数明确显示，尽管AI在特定任务上表现优异，但要独立驾驭一个端到端的完整科研流程，仍存在巨大鸿沟。

更值得关注的是结果中暴露出的严重不稳定性问题。研究团队对每个AI系统进行了三轮独立测试，发现同一系统在面对同一任务时，其表现可能产生巨大波动。例如，在“信息位置对大语言模型性能的影响”这一任务上，OpenHands系统的得分波动范围高达40.5分。这种高度的不可重复性在严肃的科学研究中是致命的，因为科学结论的公信力恰恰建立在可重复性与稳健性之上。

为深入剖析AI失败的根源，研究团队构建了细致的错误归因框架，将科研流程拆解为研究规划、代码实现、实验执行和结论形成四个关键阶段。分析结果指向一个核心发现：AI的主要短板并非在于编程或执行能力，而在于高阶科学思维能力的缺失。

具体而言，在研究规划阶段，AI常常会偏离原始研究的核心目标，或采用截然不同的实验方法论。这好比一位建筑师拿到了设计需求，却构思了一套完全不同的结构方案。而在结论形成阶段，AI虽然能规整地运行实验，却常常无法从生成的数据中提炼出正确的科学洞察，就像一个能精准记录实验现象，却无法解读其背后物理意义的助手。

二、任务难度分级：AI能力边界清晰显现

研究团队根据任务的复杂程度，将30个测试任务划分为简单、中等和困难三个等级。划分标准主要基于概念分解的复杂度、实验控制的严谨性以及数据分析的深度。这类似于将任务分为遵循明确步骤的组装工作、需要一定技巧的烹饪以及需要原创性设计的艺术创作。

在简单任务上，AI系统的表现相对可靠。这类任务通常流程标准化、评估指标明确，类似于按照详细教程完成操作。例如，在“信息位置对模型性能的影响”任务中，表现最佳的AI系统获得了91.7的高分。这类任务主要考验AI的指令遵循与执行能力。

然而，一旦面对需要复杂实验设计与严密逻辑推理的困难任务，AI的表现便出现断崖式下跌。尤其是那些需要构建精巧对照组、控制多重混杂变量或理解深层因果关系的任务，AI往往显得力不从心。以“医疗成本预测模型中的种族偏见检测”任务为例，原始研究通过巧妙的对比实验设计隔离了种族因素的影响，但所有参与测试的AI系统均未能复现这一核心实验思路，得分接近零分。

这种表现上的巨大落差，深刻揭示了当前AI的根本局限：它们擅长执行清晰定义的程序化任务，但在需要创造性问题解决、复杂系统思维和深度科学推理的领域，能力仍然严重不足。就像一个优秀的乐谱演奏者，却难以进行即兴作曲。

三、AI科研中的典型错误模式分析

通过对AI生成的大量错误结论进行归类，研究团队识别出四种主要的错误类型。其中最常见的是“矛盾性结论”，占比超过65%。即AI得出的结论与已知的科学事实直接冲突，例如声称“增加训练数据会显著降低模型性能”。

第二类高发错误是“不相关结论”，约占25%。AI虽然完成了实验流程，但得出的结论与最初的研究问题完全脱节，仿佛回答了另一个无关的问题。这反映了AI在理解并持续聚焦核心科研目标上存在显著缺陷。

一个值得注意的现象是，真正的“替代性结论”——即AI提出了与原始研究不同但在逻辑上可能自洽的新假设或解释——在所有错误中占比不足11%。这表明，当前的AI系统远未达到能够进行原创性科学思辨的水平。其错误大多源于对问题的误解、实验设计的偏差或数据分析的失误，而非创造性的科学挑战。

研究进一步发现，AI在处理需要严格控制变量、设立多重对照组的复杂实验时尤其容易出错。例如，在研究提示工程对模型输出的影响时，AI常常会忽略控制模型版本、随机种子等其他关键变量，导致实验结果混淆不清，可靠性大幅降低。

四、AI科研助手的成本效益分析

除了性能评估，研究团队还详细核算了使用不同AI系统完成科研任务的经济成本。结果显示，性能更优的系统通常伴随着更高的使用开销。表现最好的Claude Code系统，平均每个任务花费0.84美元，而其他系统的单任务成本则在0.15至0.72美元区间内浮动。

这种成本与性能的正相关关系，反映了当前AI技术发展的一个现实：更强大的模型依赖于更复杂的架构与更多的计算资源。对于考虑引入AI辅助科研的实验室或机构而言，需要在研究成果的质量提升与预算约束之间做出权衡。

值得注意的是，任务复杂度与成本消耗显著相关。那些需要多轮推理、复杂代码生成和大量API调用的困难任务，其成本远高于简单任务。这为解决复杂科学问题所需的资源投入提供了量化参考。

五、数据污染问题：测试结果真实性的关键检验

鉴于测试选取的论文发表于2024-2025年，研究团队特别审视了一个潜在风险：AI的优异表现是否源于其在训练数据中已“见过”这些研究内容？这种现象被称为“数据污染”，类似于考试前泄露了题目。

为检验这种可能性，团队根据各AI模型训练数据的知识截止日期，对测试任务进行了分组比较。如果存在严重的数据污染，那么AI在处理其知识截止日期之前发表的论文任务时，表现应明显更好。

然而，细致的分析并未发现显著的数据污染证据。AI系统在知识截止日期前后发表论文所对应的任务上，表现基本处于同一水平，甚至在部分更新发表的论文任务上表现略优。这表明，FIRE-BENCH的评估结果真实反映了AI系统的科研推理能力，而非其对训练数据的机械记忆。

研究团队认为，这得益于FIRE-BENCH基准测试的独特设计。即使AI可能“知道”某个科学结论，但由于测试仅提供高度抽象的研究问题，隐藏了所有具体的实验路径与结论，AI仍必须独立完成从问题定义到结论推导的全链条科学推理过程。

六、对AI科研能力的深度解读与定位

FIRE-BENCH的评估结果，为我们理性定位AI在科研中的角色提供了多重启示。首先，必须肯定当前AI系统已初步具备支撑科研各个环节的基础工具能力，包括问题解析、方案设计、代码生成、数据分析和文本总结。这意味着AI完全有潜力成为一名高效的“科研协作者”或“智能助手”。

然而，测试也无情地揭示了AI在独立从事开创性研究方面的根本性局限。它们在需要高度创造性、复杂系统思维和精密实验控制的任务上表现不佳。这说明，当下的AI更适合承担科研中那些重复性、流程化或计算密集型的辅助工作，而非需要深度科学直觉与原创性理论构建的核心探索任务。

此外，AI表现出的显著不稳定性与不可重复性，是将其应用于严肃科学发现时必须高度警惕的风险。科学的基石在于可验证性，而AI目前这种输出质量波动大的特性，限制了其独立产出可靠科学结论的能力。

七、未来方向：如何提升AI的科学研究能力？

FIRE-BENCH的价值不仅在于评估现状，更在于指引未来AI科研能力的发展方向。研究发现，AI的弱点集中体现在最需要科学思维的研究规划与结论形成两个高阶环节。因此，未来的AI系统研发应重点强化这些方面的能力。

在研究规划层面，AI需要更深入地理解科学问题的本质，并能够自主设计出严谨、巧妙且可验证的实验方案。这要求AI不仅具备强大的逻辑推理能力，还需培养一定的“科学品味”和假设生成能力。在结论形成层面，AI需提升从复杂、噪声数据中提取稳健模式，并将其与更广泛的科学知识体系相融合的能力。

一个关键的改进路径是增强AI对“科学方法论”本身的理解。当前的AI更多是在模仿人类科学家的表面操作，而非内化科学推理的基本原则，如控制变量、随机化、可证伪性等。在模型训练中深度融合这些元科学知识，有望使其科研能力获得质的飞跃。

另一优先事项是大幅提升AI系统的稳定性和可靠性。这可能需要在其训练过程中引入更多涉及不确定性推理、多步骤规划以及自我修正的任务，确保其在面对复杂、开放性问题时，能保持输出的一致性与稳健性。

总而言之，FIRE-BENCH揭示了一个既充满希望又清醒现实的图景：AI系统已经掌握了参与科学研究的多种工具，但要真正成为能够独立驱动发现的“科学家”，仍有漫漫长路要走。目前的AI，更像是一位潜力巨大但尚需严格指导的“研究实习生”，它能高效处理数据分析和实验操作，但在需要突破性洞察和深层理论创新的领域，人类的引领依然不可或缺。

这项研究也明确提示，AI在科研中的理想角色应是“增强人类智能”，而非“替代人类科学家”。通过让AI接管繁琐的数据处理和实验执行，人类科学家可以更专注于高层次的战略思考、创造性假设与跨学科洞察，从而催生“人机协同”的全新科研范式。同时，FIRE-BENCH为持续评估和提升AI的科研能力提供了一个标准化、可复现的基准平台。可以预见，随着算法、数据和计算资源的持续进步，AI系统的科学研究能力必将迈向新的高度。

对这项研究的方法论细节和完整数据感兴趣的读者，可通过论文编号arXiv:2602.02905v1在预印本平台查阅全文。这项工作不仅为评估AI科研能力树立了新标杆，也为未来人工智能更深入地融入科学发现进程，奠定了重要的方法论基石。

Q&A

Q1：什么是FIRE-BENCH测试平台？

A：FIRE-BENCH是一个专为评估AI系统独立完成完整科学研究闭环能力而设计的基准测试平台。其核心方法是让AI系统“重新发现”已被人类科学界验证的结论，通过对比AI产出与已知科学发现的一致性，来量化评估其科研推理、实验设计和结论形成等综合能力。

Q2：当前最先进的AI科学助手表现如何？

A：测试结果显示，即使是最先进的AI研究助手，其独立科研能力仍存在明显不足。表现最佳的Claude Code系统综合得分也未超过50分（满分100分）。更关键的问题是输出结果的不稳定性，同一系统在同一任务上的得分可能出现巨大波动，这与科学研究所要求的可重复性原则相悖。

Q3：AI系统在科学研究中主要存在哪些问题？

A：AI的主要问题集中在高阶科学思维环节。它们在研究规划阶段常无法设计出恰当的实验方法，在结论形成阶段难以从数据中提炼出正确洞察。尤其在需要创造性实验设计、复杂变量控制和深度因果推理的困难任务上，表现显著下滑。其错误多源于对问题的误解或推理偏差，而非真正的科学创新尝试。