AI审稿能否取代人类？全球45位科学家469小时实验揭秘

首页

AI资讯

热心网友

转载

2026-05-28

科学界正面临一场静悄悄的危机：论文产出速度呈指数级增长，而愿意投入时间进行深度审稿的专家却日益稀缺。在NeurIPS、ICLR等顶级人工智能会议上，投稿量几乎每年翻倍；而像《自然》《科学》这样的老牌顶刊，从投稿到发表的平均周期长达100至160天。“审稿人荒”已从一个普遍的抱怨，演变为整个学术界必须正视的系统性挑战。

在此背景下，AI审稿员被推向了前沿。AAAI-26已在全部22977篇主会论文的初审环节部署了AI审稿系统；《NEJM AI》期刊也推出了引入AI辅助的“快速通道”。更有调查显示，全球超过半数的研究人员已在私下使用AI工具协助撰写审稿意见，有时甚至绕过了期刊的明文规定。

然而，一个根本性问题依然悬而未决：AI审稿，究竟是否可靠？

传统的评估方法过于粗糙——通常只是简单对比AI与人类给出的分数，或检查AI的“接受/拒绝”建议是否与人类最终决定一致。这好比评价一位美食评论家时，只关心他最终给餐厅打了几星，却完全忽略其评论是否具体指出了某道菜肴的问题、评价是否精准、是否切中要害。这种方法的致命缺陷在于，两份审稿意见可能给出完全相同的分数，但一份可能充满真知灼见，另一份则全是正确的废话。

近期，一项由卡内基梅隆大学、韩国科学技术院（KAIST）、NEC欧洲实验室等全球二十余所机构联合开展的研究，试图给出一个更精细的答案。这项汇聚了45位科学家的研究，历时数月，对AI审稿质量进行了一次前所未有的“显微镜式”深度评估。其预印本已于2026年5月20日发布于arXiv平台（编号：arXiv:2605.20668）。

AI审稿员能替代人类评审吗？卡内基梅隆大学联合全球45位科学家，用469小时给出了答案

一、评判的尺子是如何制造的

要精准评估审稿意见，首先需要一把可靠的“尺子”。研究团队设计了一套三层递进的精细化评价体系，犹如一道严谨的筛选流程。

第一关考察“正确性”：审稿人指出的问题，在论文中是否真实存在？是否存在审稿人自身的误读或误解？

只有通过第一关的条目，才会进入第二关“重要性”评估。此环节分为三档：至关重要（修改后能大幅提升论文质量）、略有意义（如格式或笔误问题）、无关紧要（反而增加信息噪音）。

前两关均通过后，还需面对第三关“证据充分性”的检验：审稿人是否引用了论文原文、代码或相关文献来支撑自己的论点？

这三关环环相扣，有效避免了用一个笼统的分数掩盖所有细节缺陷。为确保评估标准的可靠性，研究团队让部分审稿条目由两位专家独立评判。结果显示，在客观性较强的“正确性”和“证据充分性”上，专家间几乎达成一致；而在带有主观色彩的“重要性”判断上，一致性处于合理的中等水平。

研究选取了82篇发表于《自然》及其子刊（主要为《自然·通讯》）的论文，覆盖物理、生物、健康三大领域的27个细分方向。每篇论文均配有公开的人类审稿意见，同时，AI审稿员也能访问投稿前的同一版本稿件，确保了对比的公平性。

三位“AI审稿员”——GPT-5.2、Claude Opus 4.5、Gemini 3.0 Pro——被部署为可访问论文全文、补充材料和代码的智能体。它们为每篇论文最多产出5条审稿意见，并被要求为每条意见提供详细的引用证据。

二、AI到底有多准，又有多深刻

那么，当所有审稿条目都经过专家严格打分后，AI与人类的表现究竟孰优孰劣？

先说正确率。表现最佳的人类审稿员（研究中称为“顶级人类审稿员”），平均正确率高达92.3%。相比之下，三位AI的正确率在81.9%到86.2%之间，比人类低了6到10个百分点。差距确实存在，但远未到不堪一击的程度。

然而，故事在此出现了转折。当评估焦点从“正确性”转向“重要性”时，局面完全反转。在那些被判定为正确的批评中，AI指出问题的“重要性”评分，全面超越了最优秀的人类审稿员。换言之，AI虽然偶尔会“指错地方”，但它一旦指对，往往能命中更关键、更核心的论文缺陷。

在证据充分性方面，GPT-5.2和Claude Opus 4.5甚至略高于人类顶级审稿员，Gemini 3.0 Pro则与之持平。

单独看这三个维度各有意义，但研究团队设计的一个综合指标——“完全优质”（fully positive）——更能说明问题。一条审稿意见必须同时满足正确、重要、证据充分，才能获此标签。这模拟了现实：一条意见即便正确，如果无关痛痒或缺乏依据，对作者也毫无帮助。

结果令人惊讶：在“完全优质”比率上，GPT-5.2达到了60%，以统计学上的显著优势超越了顶级人类审稿员（48.2%）。另外两款AI也与人类顶级水平相当，并显著优于表现较差的人类审稿员。

为进一步验证，研究还让专家进行了一项整体判断：读完所有意见后，认为哪位AI的整体质量达到或超过了最优秀的人类审稿员？结果显示，专家们认为GPT-5.2在近一半的论文中做到了这一点。而从另一个角度看，所有三位AI在超过半数的论文里，都超越了最差的人类审稿员。

三、AI审稿员究竟在看什么，人类又在看什么

知道分数高低还不够，更关键的问题是：AI和人类的关注点是否一致？如果AI只是换种说法重复人类的观点，那它对评审团就没有增量价值。

研究团队设计了一套精细的“相似度”判断框架。他们发现，两位人类审稿员评审同一篇论文时，提出的批评只有3.4%是相似的。这印证了学术界的古老共识：多人评审的价值，恰恰在于视角的多样性。

AI与人类审稿员之间的观点重叠率是5.1%，略高于人与人之间，但差距不大。这意味着，用一位AI替换一位人类，对评审团整体多样性的损害相当有限。

但问题出在AI内部。当比较不同AI模型对同一篇论文的审稿意见时，重叠率飙升至20.9%——是人与人之间重叠率的六倍。三位AI很可能异口同声地指出同一个问题。这意味着，一个全部由AI组成的评审团，其视角多样性将远不如人类评审团。

从覆盖率看，一位AI能覆盖另一位人类审稿员27.1%的批评点，反之亦然，两者几乎持平。但如果用三位AI同时审稿，他们能覆盖人类83%的“关注区域”，但在这些区域内提出的“具体批评”只有46.3%与人类一致。简单说，AI和人类常常盯着论文的同一个地方，但对于那里到底存在什么问题，看法却大相径庭。

一个更有趣的发现是，AI单独发现、而所有人类审稿员都未指出的问题，占其所有批评的26%。专家评估显示，这些问题中超过八成是正确的，超过九成有充分证据支撑。它们并非AI的胡言乱语，而是真实存在、有据可查的问题，只是被人类忽略了。当然，这些“独家发现”的平均重要性，略低于人类也注意到的问题。

四、AI最擅长什么，又最常在哪里翻车

研究团队从专家的自由评论中，系统梳理出了AI的16类典型失误和6类典型优势。这或许是整项研究最具实用价值的部分，因为它直接指出了改进AI审稿系统的方向。

AI的四大“翻车”现场：

1. 不懂“行规”：这是最常见的失误。AI的批评在通用科研标准下完全正确，但却不符合某个细分领域的特定惯例。例如，AI批评一篇粒子物理论文没有公开所有校准数据以供复现。然而在CERN（欧洲核子研究中心）的合作规范中，这些数据通常由内部协作组维护，并不随论文公开。AI把“正常的学科边界”误判成了“可重复性缺陷”。

2. “健忘症”发作：论文明明写了，AI却说没有。根源在于AI处理长上下文的能力不足。当需要同时处理正文、附录、代码和参考文献时，AI可能会压缩或遗忘前面的内容。例如，AI批评一篇论文未对模型偏差进行校正，但专家指出，论文第489到496行明确描述了校准流程，AI完全漏读了。

3. 提出“不可能的任务”：AI的批评在技术上正确，但要求作者完成现实中无法实现的工作。例如，AI批评一篇神经影像学研究未使用患者的全脑基因表达图谱。专家指出，这种数据根本不存在，这个批评等于要求作者去完成一项不可能的任务。

4. “复读机”模式：多位AI审同一篇论文时，经常用不同措辞表达同一个核心批评，导致意见高度重复，降低了评审团的多样性价值。

AI的三大“高光”时刻：

1. 代码审查专家：这是AI最突出的优势。人类审稿员极少有时间逐行检查提交的源代码，但AI可以。在一个经典案例中，AI发现论文声称的无线贴片采样频率是800赫兹，但代码中的一条延迟指令意味着实际频率只有每秒2次，相差400倍。代码注释甚至暗示，高频数据可能是在有线模式下采集的，这与论文宣称的“无线”系统核心主张相矛盾。这类深藏于代码中的致命问题，人类审稿员几乎不可能发现。

2. 方法论“纠察队”：AI会系统性检查统计假设是否满足、验证集划分是否规范、不确定性报告是否完整。这些枯燥但至关重要的方法论细节，正是人类审稿员在时间压力下最容易跳过的地方。

3. 技术细节“较真者”：在某些细分领域，AI能识别出只有专家才会注意到的技术承诺过度问题。例如，AI指出一篇论文摘要中“任意光学场传输”的表述存在过度承诺，因为在该领域这意味着包含相位信息，而论文实际只实现了振幅传输。这种深度的技术洞察力获得了领域专家的高度认可。

五、自动评测基准台与AI审稿助手

每次动用45位专家进行469小时的人工评估毕竟不现实。研究团队探索了用AI来模拟专家判断的可能性，即让AI充当“元审稿员”。测试发现，高级AI模型在模拟人类专家判断时，其一致性已接近人类专家之间的一致性水平。

基于此，他们构建了名为PEERREVIEW BENCH的自动化评测基准。目前，在该基准上表现最好的模型，其综合评分（F1分数）约为50分，这意味着与人类专家的黄金标准相比，仍有很大的提升空间。

研究团队还开源了“CMU PAPER REVIEWER”平台，允许作者在投稿前获取AI预审反馈。一个反直觉的发现是：提高AI单篇论文的审稿意见数量上限（从5条到15条），并没有导致意见质量下降或数量堆砌。相反，AI内部会进行筛选，只输出它确信高质量的意见，从而在召回更多有价值意见的同时，保持了高精准率。